alatobol 19 авг 2021 в 10:33

Нейросети против пылесоса, или Как мы убрали лишний шум в звонках ВКонтакте

9 мин

14K

Блог компании VKПрограммирование*Алгоритмы*Машинное обучение*Искусственный интеллект

+30

Комментарии 16

dmzubr 19 авг 2021 в 11:02

Спасибо за статью!

В сторону DEMUCS (https://arxiv.org/pdf/2006.12847.pdf) не смотрели? Или смотрели, и не устроил ожидаемый RTF?

Krinjev 19 авг 2021 в 11:24

Смотрели, DEMUCS решили не использовать ввиду большого размера чекпоинта у первых версий статьи и очень маленького RTF, на слабых девайсах даже после всех возможных оптимизация влезть было бы очень тяжело .
Рассматривали похожую работу DCRNN, с нашей точки зрения она более продвинутая в контексте топологии, там такая же U-net-подобная архитектура, но блоки оперируют в комплексном поле и encoder/ecoder не содержат рекуррентные слои, т.е. проще наращивать глубину модели.

MarshalX 19 авг 2021 в 14:09

Спасибо за статью. Нет ли у вас планов опубликовать вашу работу для всех, как это сделали rnnoise и другие?

alatobol 19 авг 2021 в 16:48

Все компоненты и так опенсурсные, а обучали мы под наши специфические задачи.

stalinets 19 авг 2021 в 15:45

А если я захочу дать человеку послушать шум пылесоса? А если у меня, например, дефект речи и я сильшо шамкаю, меня и так трудно понять, а тут ещё начало и конец фразы небось будет резаться как шум?

-1

alatobol 19 авг 2021 в 16:47

Специально для этого случая в настройках есть отключение шумодава.
При этом проблему с дефектом речи решает VAD, который определяет речь, чтобы начало и конец не проглатывались.

site6893 19 авг 2021 в 18:06

а вдруг повезет и нейронка будет убирать дефект речи, при єтом смысловая нагрузка не пострадает)

iShrimp 19 авг 2021 в 20:41

А когда-то люди специально во время разговора включали фоновые шумы типа дрели, поезда, плачущего ребёнка и т.д. (фантазия не ограничена).

P.s. Да и сейчас ещё живо приложение AlibiSound...

Interreto 19 авг 2021 в 19:29

Вы тестируете насколько сильно дрейнится батарея если перенести это на клиентскую сторону в моб. клиентах?

alatobol 19 авг 2021 в 21:20

да, мы проводили а/б тесты и контролируем огромное кол-во параметров клиента, рост потребления в пределах погрешности, что объяснимо, так как во время звонка основными факторами потребления являются кодирование/декодирование и сетевой стек

nickeodash 19 авг 2021 в 21:21

Запиши свой голос с включенным пылесосом и посмотри на диапазон чистот в аудио-редакторе, и заодно попробуй руками отсеки пылесос :)

nickeodash 20 авг 2021 в 01:25

Пока мой коммент был на премодерации, автор исходного (Interreto) успел изменить комментарий, но я восстановлю: в общем ввиду разных диапазонов частот у пылесоса и человеческого голоса предложил просто отсечь пылесос из аудиодорожки и не париться)

Interreto 20 авг 2021 в 05:40

Я не изменил, а хотел дополнить, а получаеться что потёр, потому что на Хабре, да и не только Хабре, писать длинные коменты с мобилки неюзабельно.

Xambey97 19 авг 2021 в 21:44

Когда узнал, что у ВК есть звонки

-3

Gorodecki 21 авг 2021 в 17:33

При распознавании голосовых сообщений в текст не используете денойзер?

alatobol 21 авг 2021 в 17:36

Для обучения в распознавании голосовых сразу использовались шумные, а не эталонные записи. То есть там адаптация к шуму заложена на уровне языковой модели, и поэтому не требуется дополнительная задержка на денойзинг. Скоро выпустим подробную статью про это. Но и предварительный денойзинг в распознавании голосовых тоже планируем тестировать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий