Как стать автором
Обновить

Нейросети против пылесоса, или Как мы убрали лишний шум в звонках ВКонтакте

Время на прочтение9 мин
Количество просмотров14K
Всего голосов 30: ↑30 и ↓0+30
Комментарии16

Комментарии 16

Смотрели, DEMUCS решили не использовать ввиду большого размера чекпоинта у первых версий статьи и очень маленького RTF, на слабых девайсах даже после всех возможных оптимизация влезть было бы очень тяжело .
Рассматривали похожую работу DCRNN, с нашей точки зрения она более продвинутая в контексте топологии, там такая же U-net-подобная архитектура, но блоки оперируют в комплексном поле и encoder/ecoder не содержат рекуррентные слои, т.е. проще наращивать глубину модели.

Спасибо за статью. Нет ли у вас планов опубликовать вашу работу для всех, как это сделали rnnoise и другие?

Все компоненты и так опенсурсные, а обучали мы под наши специфические задачи.

А если я захочу дать человеку послушать шум пылесоса? А если у меня, например, дефект речи и я сильшо шамкаю, меня и так трудно понять, а тут ещё начало и конец фразы небось будет резаться как шум?

Специально для этого случая в настройках есть отключение шумодава.
При этом проблему с дефектом речи решает VAD, который определяет речь, чтобы начало и конец не проглатывались.

а вдруг повезет и нейронка будет убирать дефект речи, при єтом смысловая нагрузка не пострадает)

А когда-то люди специально во время разговора включали фоновые шумы типа дрели, поезда, плачущего ребёнка и т.д. (фантазия не ограничена).

P.s. Да и сейчас ещё живо приложение AlibiSound...

Вы тестируете насколько сильно дрейнится батарея если перенести это на клиентскую сторону в моб. клиентах?

да, мы проводили а/б тесты и контролируем огромное кол-во параметров клиента, рост потребления в пределах погрешности, что объяснимо, так как во время звонка основными факторами потребления являются кодирование/декодирование и сетевой стек

Запиши свой голос с включенным пылесосом и посмотри на диапазон чистот в аудио-редакторе, и заодно попробуй руками отсеки пылесос :)

Пока мой коммент был на премодерации, автор исходного (Interreto) успел изменить комментарий, но я восстановлю: в общем ввиду разных диапазонов частот у пылесоса и человеческого голоса предложил просто отсечь пылесос из аудиодорожки и не париться)

Я не изменил, а хотел дополнить, а получаеться что потёр, потому что на Хабре, да и не только Хабре, писать длинные коменты с мобилки неюзабельно.

Когда узнал, что у ВК есть звонки

При распознавании голосовых сообщений в текст не используете денойзер?

Для обучения в распознавании голосовых сразу использовались шумные, а не эталонные записи. То есть там адаптация к шуму заложена на уровне языковой модели, и поэтому не требуется дополнительная задержка на денойзинг. Скоро выпустим подробную статью про это. Но и предварительный денойзинг в распознавании голосовых тоже планируем тестировать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий