m1rko 3 апр 2019 в 18:53

Кодирование речи на 1600 бит/с нейронным вокодером LPCNet

10 мин

22K

Алгоритмы*Машинное обучение*Звук

Перевод

+55

Комментарии 31

ittakir 3 апр 2019 в 19:27

Очень крутой результат, жаль вычислительных мощностей требуется много. Возможно, удастся, немного потеряв в качестве, уменьшить требования к CPU до микроконтроллерных. Это было бы революцией в радиосвязи.
Кстати Jean-Marc Valin — автор кодека Speex.

НЛО прилетело и опубликовало эту надпись здесь

trapwalker 3 апр 2019 в 22:06

Очень крутая, кстати, идея. Фактически разговаривая мы можем обучать кодек на стороне получателя и постепенно снижать битрейт, когда кодек начинает более эффективно восстанавливать всё Ольшую часть данных сам. Не исключено, что лет через 10 у нас появятся такие кодеки и для систем видеонаблюдения. Фактически это уже не кодек, а кусочек мозга, который обучается запоминать картинку определённого вида. Правда нужна обратная связь для контроля качества запоминания.

Sergey_Cheban 4 апр 2019 в 00:02

… А потом для некоторых контактов и вовсе до нуля дойдёт: телефон, обучившись, будет сам звонить и, например, выносить мозг.

+13

CrazyRoot 4 апр 2019 в 08:49

На текущий момент, для этого есть контакт «Теща» :)

-4

Deosis 4 апр 2019 в 14:21

Мне больше интересно, во что декодируется мычание заказчика?

xFFFF 3 апр 2019 в 20:40

Получилось очень круто)

DrSmile 3 апр 2019 в 21:50

Собственно, сжатия после процедуры квантования тут практически нет. Я думаю, что если прикрутить современный арифметический кодер, получится еще раза в полтора уменьшить битрейт (или приблизиться к несжатой LPCNet на том же битрейте).

НЛО прилетело и опубликовало эту надпись здесь

barkalov 4 апр 2019 в 00:26

А также DNS-запросы через голосовую связь. Учитывая ничтожную размерность пространства состояний на входе (сравнительно с размерностью выхода — PCM звука) есть предчувствие что любая комбинация байтов на входе будет порождать более-менее голосоподобный сигнал (эффект бутылочного горла половины автоэнкодера).

saintbyte 4 апр 2019 в 01:16

кто-нить уже попробовал связь голосом через LoRa?

romanetz_omsk 4 апр 2019 в 06:22

Были попытки на MELPe (гуглить по Oper-Quad), качество звука неприемлемое.

ToSHiC 4 апр 2019 в 01:37

Хотя бы теоретически ложится на fpga?

old_bear 4 апр 2019 в 05:47

Отлично ложится, я думаю. На первый взгляд эту сеть можно запихать в относительно небольшой FPGA полностью, т.к. слоёв немного. Может интересно получиться на каком-нить Zync.

Occamlab 4 апр 2019 в 17:54

Отличная идея для
www.innovatefpga.com
Главное — тема подходит. Кто возьмется за реализацию?

НЛО прилетело и опубликовало эту надпись здесь

romanetz_omsk 4 апр 2019 в 04:42

Скорее нет, чем да — для целей криминалистики идеально вообще бы PCM было.

TheChief5055 4 апр 2019 в 18:15

Для голосовой связи на СДВ очень перспективно. Вояки бы в это зубами вцепились, кмк.

AlexSpirit 4 апр 2019 в 06:02

А как на счёт устойчивости к шумам во входном аудиопотоке? Ветер, звуки города…

Pafnutyi 4 апр 2019 в 10:11

Если разрешить роботоподобность голоса, главное читаемость, до какого битрейта можно ужать кодек?

Alexufo 4 апр 2019 в 13:49

До txt файлов зачитанных синтезатором.

QDeathNick 4 апр 2019 в 14:02

до ссылки на сжатый словарь по которому синтезируется речь.

В Elite целых 8 галактик было закодировано в 32Кб

Pafnutyi 4 апр 2019 в 14:07

А голос в текст распознать локально смогёте на микроконтроллере? ))))) А если захочет поговорить индеец навахо/абориген амазонки, тут и онлайн распознавание сдуется )))

johnfound 4 апр 2019 в 18:43

Образцы немножко настораживают. Звучат как синтезированные. А если записать с микрофона и в условиях окольного шума, то любопытно как звучать будет.

gegel 4 апр 2019 в 19:38

Звучит вполне неплохо для 1600 bps. Интересно попробовать использовать MELP вместо CODEC2 (при всем уважении к Дэвиду), но ребята не хотят связываться с лицензированным кодеком. Жду снижения битрейта до 800bps, чтобы использовать в своем шифраторе голоса (открытый вариант JackPair). Сейчас там MELPE-1200 и запущен на Cortex M4 180 MHz realtime: звучит терпимо, но далеко не супер.

glagola 5 апр 2019 в 01:02

Пожалуйста, дайте ссылку на эту статью Дурову, чтобы в Telegram появились нормальные голосовые звонки с end-to-end шифрованием, а то даже по wifi умудряется заикаться...

gegel 5 апр 2019 в 10:16

Ставить кодек 1600bps в VOIP нет смысла, это для других применений.
А по поводу p2p шифрованных звонков в плохих каналах: я таки доделал свой Torfone c GUI (на сегодня есть Linux X86, Linux ARM, Windows и Android, планируется iOS и bare metal: Tor и транспорт — на одноплатнике, крипто, аудио и GUI — изолированно через UART на STM32 ). Можно звонить на онион-адрес через Tor, при желании покидать Tor и переходить на p2p через проход NAT (шифрование остается) или же непосредственно звонить на IP:port (в т.ч. в локалке без интернет). Использует кодек AMR4750, шумодав NPP7 от MELPE, VAD, эхоподавление от WebRTC, звук по качеству — как в мобильном. Собственных серверов и регистрации нет: RSA-ключ для скрытого сервиса Tor и X25519 ключ для собственного шифрослоя генерируются при первом старте. Ну, и полная обфускация для работы вне Tor (если его все ж заблокируют): коннект в две сесии, Elligator2, Zero knowledge IKE с защитой ID, голос по TCP (не RTP): вообщем, на чужих ошибках готов потягаться с DPI.

Если интересно, скину ссылку на apk, чтобы оценить возможности и латентность в Tor (она весьма приемлема за счет всяких фирменных трюков). Полностью открытый код для всех платформ будет чуть позже (команды у меня нет, все делаю сам).
Может, статью на Хабр написать? Но не знаю, есть ли у меня карма.

eisaev 5 апр 2019 в 16:43

Может, статью на Хабр написать? Но не знаю, есть ли у меня карма.

Конечно пишите статью! Просто через песочницу. Бурных оваций не ждите, т.к. статья будет скорее техническая, чем хайпово-холеварная, но свои ценители у неё точно здесь будут.

glagola 18 апр 2019 в 14:28

Прошу прощения, выпал из реальности на несколько недель. конечно присылайте!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Кодирование речи на 1600 бит/с нейронным вокодером LPCNet

Комментарии 31

Публикации

Истории