m1rko Apr 3 2019 at 18:53

Кодирование речи на 1600 бит/с нейронным вокодером LPCNet

10 min

22K

Algorithms*Machine learning*Sound

Translation

+55

Comments 31

ittakir Apr 3 2019 at 19:27

Очень крутой результат, жаль вычислительных мощностей требуется много. Возможно, удастся, немного потеряв в качестве, уменьшить требования к CPU до микроконтроллерных. Это было бы революцией в радиосвязи.
Кстати Jean-Marc Valin — автор кодека Speex.

UFO just landed and posted this here

trapwalker Apr 3 2019 at 22:06

Очень крутая, кстати, идея. Фактически разговаривая мы можем обучать кодек на стороне получателя и постепенно снижать битрейт, когда кодек начинает более эффективно восстанавливать всё Ольшую часть данных сам. Не исключено, что лет через 10 у нас появятся такие кодеки и для систем видеонаблюдения. Фактически это уже не кодек, а кусочек мозга, который обучается запоминать картинку определённого вида. Правда нужна обратная связь для контроля качества запоминания.

Sergey_Cheban Apr 4 2019 at 00:02

… А потом для некоторых контактов и вовсе до нуля дойдёт: телефон, обучившись, будет сам звонить и, например, выносить мозг.

+13

CrazyRoot Apr 4 2019 at 08:49

На текущий момент, для этого есть контакт «Теща» :)

-4

Deosis Apr 4 2019 at 14:21

Мне больше интересно, во что декодируется мычание заказчика?

xFFFF Apr 3 2019 at 20:40

Получилось очень круто)

DrSmile Apr 3 2019 at 21:50

Собственно, сжатия после процедуры квантования тут практически нет. Я думаю, что если прикрутить современный арифметический кодер, получится еще раза в полтора уменьшить битрейт (или приблизиться к несжатой LPCNet на том же битрейте).

UFO just landed and posted this here

barkalov Apr 4 2019 at 00:26

А также DNS-запросы через голосовую связь. Учитывая ничтожную размерность пространства состояний на входе (сравнительно с размерностью выхода — PCM звука) есть предчувствие что любая комбинация байтов на входе будет порождать более-менее голосоподобный сигнал (эффект бутылочного горла половины автоэнкодера).

saintbyte Apr 4 2019 at 01:16

кто-нить уже попробовал связь голосом через LoRa?

romanetz_omsk Apr 4 2019 at 06:22

Были попытки на MELPe (гуглить по Oper-Quad), качество звука неприемлемое.

ToSHiC Apr 4 2019 at 01:37

Хотя бы теоретически ложится на fpga?

old_bear Apr 4 2019 at 05:47

Отлично ложится, я думаю. На первый взгляд эту сеть можно запихать в относительно небольшой FPGA полностью, т.к. слоёв немного. Может интересно получиться на каком-нить Zync.

Occamlab Apr 4 2019 at 17:54

Отличная идея для
www.innovatefpga.com
Главное — тема подходит. Кто возьмется за реализацию?

UFO just landed and posted this here

romanetz_omsk Apr 4 2019 at 04:42

Скорее нет, чем да — для целей криминалистики идеально вообще бы PCM было.

TheChief5055 Apr 4 2019 at 18:15

Для голосовой связи на СДВ очень перспективно. Вояки бы в это зубами вцепились, кмк.

AlexSpirit Apr 4 2019 at 06:02

А как на счёт устойчивости к шумам во входном аудиопотоке? Ветер, звуки города…

Pafnutyi Apr 4 2019 at 10:11

Если разрешить роботоподобность голоса, главное читаемость, до какого битрейта можно ужать кодек?

Alexufo Apr 4 2019 at 13:49

До txt файлов зачитанных синтезатором.

QDeathNick Apr 4 2019 at 14:02

до ссылки на сжатый словарь по которому синтезируется речь.

В Elite целых 8 галактик было закодировано в 32Кб

Pafnutyi Apr 4 2019 at 14:07

А голос в текст распознать локально смогёте на микроконтроллере? ))))) А если захочет поговорить индеец навахо/абориген амазонки, тут и онлайн распознавание сдуется )))

johnfound Apr 4 2019 at 18:43

Образцы немножко настораживают. Звучат как синтезированные. А если записать с микрофона и в условиях окольного шума, то любопытно как звучать будет.

gegel Apr 4 2019 at 19:38

Звучит вполне неплохо для 1600 bps. Интересно попробовать использовать MELP вместо CODEC2 (при всем уважении к Дэвиду), но ребята не хотят связываться с лицензированным кодеком. Жду снижения битрейта до 800bps, чтобы использовать в своем шифраторе голоса (открытый вариант JackPair). Сейчас там MELPE-1200 и запущен на Cortex M4 180 MHz realtime: звучит терпимо, но далеко не супер.

glagola Apr 5 2019 at 01:02

Пожалуйста, дайте ссылку на эту статью Дурову, чтобы в Telegram появились нормальные голосовые звонки с end-to-end шифрованием, а то даже по wifi умудряется заикаться...

gegel Apr 5 2019 at 10:16

Ставить кодек 1600bps в VOIP нет смысла, это для других применений.
А по поводу p2p шифрованных звонков в плохих каналах: я таки доделал свой Torfone c GUI (на сегодня есть Linux X86, Linux ARM, Windows и Android, планируется iOS и bare metal: Tor и транспорт — на одноплатнике, крипто, аудио и GUI — изолированно через UART на STM32 ). Можно звонить на онион-адрес через Tor, при желании покидать Tor и переходить на p2p через проход NAT (шифрование остается) или же непосредственно звонить на IP:port (в т.ч. в локалке без интернет). Использует кодек AMR4750, шумодав NPP7 от MELPE, VAD, эхоподавление от WebRTC, звук по качеству — как в мобильном. Собственных серверов и регистрации нет: RSA-ключ для скрытого сервиса Tor и X25519 ключ для собственного шифрослоя генерируются при первом старте. Ну, и полная обфускация для работы вне Tor (если его все ж заблокируют): коннект в две сесии, Elligator2, Zero knowledge IKE с защитой ID, голос по TCP (не RTP): вообщем, на чужих ошибках готов потягаться с DPI.

Если интересно, скину ссылку на apk, чтобы оценить возможности и латентность в Tor (она весьма приемлема за счет всяких фирменных трюков). Полностью открытый код для всех платформ будет чуть позже (команды у меня нет, все делаю сам).
Может, статью на Хабр написать? Но не знаю, есть ли у меня карма.

eisaev Apr 5 2019 at 16:43

Может, статью на Хабр написать? Но не знаю, есть ли у меня карма.

Конечно пишите статью! Просто через песочницу. Бурных оваций не ждите, т.к. статья будет скорее техническая, чем хайпово-холеварная, но свои ценители у неё точно здесь будут.

glagola Apr 18 2019 at 14:28

Прошу прощения, выпал из реальности на несколько недель. конечно присылайте!

Show the best of all time