Data_center_MIRAN Mar 3 2021 at 13:28

Машинное обучение применили в звуке. Новый аудиокодек сжимает речь в 3 Кбита/с

3 min

8.7K

Дата-центр «Миран» corporate blog Data compression *Machine learning *Sound

+25

Comments 24

v1000 Mar 3 2021 at 13:42

Немного странное ощущение uncanny valley в голосе, вроде и звук лучше и речь чётче, но всё равно как-то не по себе.

ganzmavag Mar 3 2021 at 13:56

Мне напомнило эффект автотюна, которым грешат исполнители поп-музыки.
Кто не знаком со звукозаписью — это программа, которая позволяет подстроить голос под музыку, обычно используется, когда певец не попал в ноту, но вообще может собрать песню даже если человек вообще изначально не пел, а говорил. Вот там побочный эффект такие оттенки в голосе как раз.

amarao Mar 3 2021 at 13:42

Будущее приближается быстрее, чем мы ожидали.

У Винджа описывались видеоконференции будущего — там компьютер реконструировал и аудио и видео, и мог давать иллюзию общения даже на канале в несколько сот бод (бит в секунду) — в этой ситуации передавалось "содержание", а "оформление" воссоздавалось локально (включая мимику, пластику тела, интонации и т.д.).

S-trace Mar 3 2021 at 13:55

Формально, бод != бит в секунду.
Бод — изменение состояния сигнала (low->high, high->low), а скорость в битах в секунду будет равна скорости в бодах только для NRZ (no return to zero) кодирования, насколько я помню. Для других схем кодирования (когда нужна помехоустойчивость или самосинхронизация) скорость в бодах будет меньше скорости в битах.

3263927 Mar 4 2021 at 00:41

я читал эту книгу!

dagen Mar 4 2021 at 17:54

Ну правда у него они собирались только на месте по требованию, а пересылались без таких умных сжатий. Не помню, какой персонаж слежку вёл, но когда этому персонажу показалось, что реконструируется что-то не то, он тут же в сырые данные полез и сильно удивился (что нанороботы поздыхали почти все уже).

UFO just landed and posted this here

HardWrMan Mar 3 2021 at 14:05

Распознаём речь, передаём текст, реконструируем речь синтезатором. Для передачи текста достаточно сотен, а то и десятков бит/c.

vmkazakoff Mar 3 2021 at 14:11

По сути да. Но тут ещё кроме текста передали интонации, паузы, темп, тембр и звучание.

Я бы не хотел попасть на звонок, где бы все мои коллеги озвучивались одинаковым голосом робота )))

Areso Mar 3 2021 at 16:01

Нужны самплы коллег :)
А потом можно будет делать синтез из их речи по их самплам.
Будет все равно немного жутко, но голоса будут похожи на оригиналы. Жаль, что только голоса, не речь целиком.
Но, если китайцы со своими тоновыми системами помогут, то и речь целиком будет доступна когда-то в будущем для восстановления (если кодировать не только текст, но и паузы, темп, выше-ниже и т.д.).

vmkazakoff Mar 3 2021 at 16:12

Что, собственно, уже и сделали. Кодируют паузы, темп, интонации и передают в виде потока сразу. Само собой можно передать не потоком, а записью. Но пока вместе с сэпмплом это все идёт неразрывно.

Наверное можно сделать звонилку, которая в начале просит нового юзера "рассказать о себе" для анализа речи, делает из этого анализа слепок и при установлении нового контакта передает этот слепок, а потом отдельно только данные. Может быть это даже даст ещё экономию. Но мне кажется что это будет уже совсем незначительно влиять на битрейт.

HardWrMan Mar 3 2021 at 18:20

Наверное можно сделать звонилку, которая в начале просит нового юзера «рассказать о себе» для анализа речи, делает из этого анализа слепок и при установлении нового контакта передает этот слепок, а потом отдельно только данные. Может быть это даже даст ещё экономию. Но мне кажется что это будет уже совсем незначительно влиять на битрейт.

Я помню первые попытки локального распознавания голоса. Была такая программка, работала под XP, лет 10 назад, а то и 15. Только английский. После установки она предлагала тебе прочитать несколько страниц текста и чем чище ты прочитаешь тем чётче она срабатывала. И ведь работала: можно было голосом управлять медиаплеером, например.

Это я к чему. Если на каждого человека выводится определённая математическая формула параметров, которые описывают конкретный тембр, скорость и прочие параметры, то всегда можно при установке соединения же разом передавать такой пакет, а остальное уже в реальном времени слать как разобранную на параметры речь в реальном времени и реконструировать на стороне слушателя. Ведь уже и мобильные телефоны гораздо мощнее тех компьютеров, что были те же 15 лет назад.

PS Я сварщик не настоящий, так что я ничего не понимаю в этих нейросетях и прочих кодеках. Но ведь технически что-то из вышесказанного можно же реализовать?

UFO just landed and posted this here

osmanpasha Mar 3 2021 at 14:08

А что там с тяжеловесностью кодека? Надо иметь видеокарту с CUDA?

namikiri Mar 3 2021 at 15:56

Тот же вопрос. Тактично умолчали. Да и вообще, кого нынче волнует производительность, у всех ведь дома суперкомпьютеры с фермами из видеокарт.

UFO just landed and posted this here

Schokn-Itrch Mar 3 2021 at 14:31

Модель Lyra обучалась на тысячах часов звука на более чем 70 языках из опенсорсных аудиотек.

1. Lyra обучалась на миллионах часов звука.
2. Lyra обучалась на более чем 70 языках из опенсорсных аудиотек.

Результат не был равен (1|2). Миллионы часов в основном английской речи. Причем вполне конкретной речи.

Можно привести в пример, хоть распиаренный OPUS/CELT, хоть SPEEX, хоть менее популярный codec2. Русская речь всегда задирает битрейт относительно примеров для подобного звучания.

Кроме того, соотношение «новое враг хорошего» должно быть очень велико. AMR/MP3/AAC в аудио и h.264 в видео настолько закрепились, что для «корпоративов», от которых зависит все, выгода должна быть тысячекратной. И пресловутые «коммьюнити» это изменить не способны от слова «никак». Железки стоят денег, очень больших денег. Много железок — много денег. Мало железок — мало денег.

Areso Mar 3 2021 at 16:02

Интернет-полосы для корп клиентов тоже стоят денег, причем — больших.

amarao Mar 3 2021 at 18:38

Приходит один zoom и всё поменялось. Условный teams рядом с ним уныл и вял.

UFO just landed and posted this here

makkarpov Mar 3 2021 at 16:43

Ну, тот же MELPe 2400/1200/600 бит/с существует с лохматых годов, и в целом дает вполне неплохое качество звука. При этом работает на микроконтроллерах лохматых годов, не требуя генеративных моделей.

При этом вроде были сообщения, что "нейронные" кодеки могут "додумывать" и менять близкие по звучанию слова. Так что мне кажется, что куда-то не туда разработка кодеков повернула.

0x131315 Mar 4 2021 at 09:13

Шикарно.
В отличии от классических кодеков, оно различает только речь, не воспринимая шумы.
Поэтому данные о шумах не сохраняются и не передаются.
Поэтому слышно только человека, чисто и ясно, как в тихой комнате. Хотя в оригинале уровень шумов существенный.
Такое нужно в телефоны внедрять, хотя бы даже просто как высокоэффективный фильтр для микрофона, с кодированием и декодированием на одной и той же стороне.
А если внедрить полноценно — там, где сейчас плохой сигнал и собеседника с трудом слышно, проблем со связью станет куда меньше.

alexanicus Apr 19 2023 at 14:29

Lyra очень интересный проект и я уверен, что именно ML поможет достигнуть предела.
Например CODEC2 уже достиг разборчивого голоса при 700 бит/с (без ML)
http://www.rowetel.com/?page_id=452
Качество звучания на 2-3кбит/с мне даже кажется лучше чем у Lyra при 3 кбит/с.
А где предел?
Если классифицировать все голоса на 8 млрд типов (в реальности хватит 65535 типов) то эти данные можно передать единожды, а значит далее можно передавать только текст и интонацию сказанного.
Например 1 байт на звук + 1 байт на интонацию, итого:
Средняя скорость разговора 2 слова/сек 8 букв/слово 8 бит = 128 бит/с для текста
и 128бит/с для интонации. Итого достаточно 256 бит/с и это не предел потому как этот поток можно сжать.
Думаю предел лежит приблизительно 160-256 бит/с.