Algorithms
Machine learning
Sound
Comments 31
+2
Очень крутой результат, жаль вычислительных мощностей требуется много. Возможно, удастся, немного потеряв в качестве, уменьшить требования к CPU до микроконтроллерных. Это было бы революцией в радиосвязи.
Кстати Jean-Marc Valin — автор кодека Speex.
0

Да, цифровая любительская связь совершила бы огромный скачок вперёд. Но и без этого это прорыв.


Интересно, а возможно ли использовав нейросети, надёжнее передавать данные при высоком уровне помех, возможно есть потенциал для такого же скачка

UFO landed and left these words here
UFO landed and left these words here
0
Очень крутая, кстати, идея. Фактически разговаривая мы можем обучать кодек на стороне получателя и постепенно снижать битрейт, когда кодек начинает более эффективно восстанавливать всё Ольшую часть данных сам. Не исключено, что лет через 10 у нас появятся такие кодеки и для систем видеонаблюдения. Фактически это уже не кодек, а кусочек мозга, который обучается запоминать картинку определённого вида. Правда нужна обратная связь для контроля качества запоминания.
+13
… А потом для некоторых контактов и вовсе до нуля дойдёт: телефон, обучившись, будет сам звонить и, например, выносить мозг.
0

Мне больше интересно, во что декодируется мычание заказчика?

+1
Собственно, сжатия после процедуры квантования тут практически нет. Я думаю, что если прикрутить современный арифметический кодер, получится еще раза в полтора уменьшить битрейт (или приблизиться к несжатой LPCNet на том же битрейте).
0
А также DNS-запросы через голосовую связь. Учитывая ничтожную размерность пространства состояний на входе (сравнительно с размерностью выхода — PCM звука) есть предчувствие что любая комбинация байтов на входе будет порождать более-менее голосоподобный сигнал (эффект бутылочного горла половины автоэнкодера).
+1
Отлично ложится, я думаю. На первый взгляд эту сеть можно запихать в относительно небольшой FPGA полностью, т.к. слоёв немного. Может интересно получиться на каком-нить Zync.
UFO landed and left these words here
0

Скорее нет, чем да — для целей криминалистики идеально вообще бы PCM было.

0
Для голосовой связи на СДВ очень перспективно. Вояки бы в это зубами вцепились, кмк.
+2
А как на счёт устойчивости к шумам во входном аудиопотоке? Ветер, звуки города…
0
Если разрешить роботоподобность голоса, главное читаемость, до какого битрейта можно ужать кодек?
0
до ссылки на сжатый словарь по которому синтезируется речь.

В Elite целых 8 галактик было закодировано в 32Кб
0
А голос в текст распознать локально смогёте на микроконтроллере? ))))) А если захочет поговорить индеец навахо/абориген амазонки, тут и онлайн распознавание сдуется )))
0

Образцы немножко настораживают. Звучат как синтезированные. А если записать с микрофона и в условиях окольного шума, то любопытно как звучать будет.

0
Звучит вполне неплохо для 1600 bps. Интересно попробовать использовать MELP вместо CODEC2 (при всем уважении к Дэвиду), но ребята не хотят связываться с лицензированным кодеком. Жду снижения битрейта до 800bps, чтобы использовать в своем шифраторе голоса (открытый вариант JackPair). Сейчас там MELPE-1200 и запущен на Cortex M4 180 MHz realtime: звучит терпимо, но далеко не супер.
0

Пожалуйста, дайте ссылку на эту статью Дурову, чтобы в Telegram появились нормальные голосовые звонки с end-to-end шифрованием, а то даже по wifi умудряется заикаться...

+3
Ставить кодек 1600bps в VOIP нет смысла, это для других применений.
А по поводу p2p шифрованных звонков в плохих каналах: я таки доделал свой Torfone c GUI (на сегодня есть Linux X86, Linux ARM, Windows и Android, планируется iOS и bare metal: Tor и транспорт — на одноплатнике, крипто, аудио и GUI — изолированно через UART на STM32 ). Можно звонить на онион-адрес через Tor, при желании покидать Tor и переходить на p2p через проход NAT (шифрование остается) или же непосредственно звонить на IP:port (в т.ч. в локалке без интернет). Использует кодек AMR4750, шумодав NPP7 от MELPE, VAD, эхоподавление от WebRTC, звук по качеству — как в мобильном. Собственных серверов и регистрации нет: RSA-ключ для скрытого сервиса Tor и X25519 ключ для собственного шифрослоя генерируются при первом старте. Ну, и полная обфускация для работы вне Tor (если его все ж заблокируют): коннект в две сесии, Elligator2, Zero knowledge IKE с защитой ID, голос по TCP (не RTP): вообщем, на чужих ошибках готов потягаться с DPI.

Если интересно, скину ссылку на apk, чтобы оценить возможности и латентность в Tor (она весьма приемлема за счет всяких фирменных трюков). Полностью открытый код для всех платформ будет чуть позже (команды у меня нет, все делаю сам).
Может, статью на Хабр написать? Но не знаю, есть ли у меня карма.
0
Может, статью на Хабр написать? Но не знаю, есть ли у меня карма.

Конечно пишите статью! Просто через песочницу. Бурных оваций не ждите, т.к. статья будет скорее техническая, чем хайпово-холеварная, но свои ценители у неё точно здесь будут.
0
Прошу прощения, выпал из реальности на несколько недель. конечно присылайте!
Only those users with full accounts are able to leave comments. , please.