m1rko Jun 28 2018 at 18:41

Codec 2 + нейросеть = целый подкаст на одной дискете

4 min

20K

Algorithms*Data compression*Machine learning*Sound

Translation

+33

Comments 19

x893 Jun 28 2018 at 19:37

А прикрутить можно к github.com/x893/codec2?

sav6622 Jun 28 2018 at 20:36

Декодер Wavenet заранее настроен на голос? Или адаптируется самостоятельно под разные голоса?

andrey_gavrilov Jun 28 2018 at 20:39

«не читал, но обсуждаю!»:

предельным нейросетевым кодеком речи будет писаться нечто, типа текста (фонетического, Ok, и артикуляционных настроек «говорилки» (функционального акустического речевого тракта, реализованного как в сетке-кодировщике, так и в сетке-декодировщике).

Ну, [может] еще и настроек, задающих тип голоса, если кодек «для любого человека». Более широкий еще позволит писать звуки, выпадающие за такое кодирование.

Я к тому, что да, «битрейт» у него очень маленьким может быть в легкую.

lasc Jun 29 2018 at 03:29

Текст еще же тоже сжать можно.

immaculate Jun 29 2018 at 05:04

В комментариях на Hacker News носители языка отметили, что многие слова после кодирования заменяются на другие, с похожим звучанием.

Поскольку я слушаю и смотрю подкасты на других языках с целью развить свое чувство языка, то этот кодек категорически не подходит для подкастов.

Более того, очевидно, что он может непредсказуемым образом изменить смысл передаваемой информации (на HN приводились примеры для английского, я уже не помню, но помню, что числительные менялись, типа 17->70 или наоборот).

Пускай армия США использует этот кодек. «Обнаружено 17 танков противника!» Или 70?

Я лично мало смысла вижу в таком кодировании, которое может радикально изменить смысл кодируемой информации.

truggvy Jun 29 2018 at 10:24

Ну уж извините, но при использовании обычного кодека в плохом качестве вы тоже можете не расслышать разницы между «seventeen» и «seventy».
Мне кажется идею просто нужно доработать по аналогии с кодеками для видео (H264/H265). В этих кодеках, помимо прочего, вычисляется и передаётся разница между оригинальным и восстановленным (на стороне энкодера) кадром (residual), что как раз позволяет восстановить мелкие (высокочастотные) детали.

immaculate Jun 29 2018 at 10:32

Там еще приводились примеры, когда у слов заменяется смысл при использовании данного кодека, как будто он подставляет слова с похожим звучанием. Короче, я не знаю, меня как-то не впечатлило.

Напомнило старую шутку про архиватор, который любой объем пакует в архив размером в 1 байт. Только разархивировать пока невозможно.

Может быть какая-то научная ценность в подобных экспериментах с кодеками и есть, но точно не практическая. Я не знаю, где бы я хотел использовать такой своенравный кодек.

truggvy Jun 29 2018 at 10:56

«Другое слово с похожим звучанием» — это как раз и есть ошибка восстановления. И для устранение таких ошибок как раз можно попробовать использовать residual.
А вот пример с архиватором тут не совсем подходит, так как большинство современных кодеков (как аудио, так и видео/отдельных изображений), в отличии от архиваторов, используют сжатие с потерями. Восстановить в точности исходную информацию при таком подходе практически не реально, зато степень сжатия бывает значительно больше (сравните размер PNG и JPG для одного и того же изображения). Борьба идет за минимизацию размера при «приемлемых» искажениях. А вот что считать «приемлемым» — каждый решает для себя сам. «Аудиофилы» плюются от любого MP3, но для многих задач и 8 kb/s MP3 бывает вполне достаточно :)

Alter2 Jun 29 2018 at 12:31

Проблема существует и в радиопереговорах. Поэтому в авиации, на флоте и в армии проговаривают цифры по отдельности, а буквы по кодам («чарли шесть четыре зулу фокстрот один»).

trapwalker Jun 29 2018 at 13:20

Ну ок, хотя бы рэп можно будет декодировать с помощью этой сетки. Кому там какое дело до смысла.

xa6p Jun 28 2018 at 21:01

Вот короткий звуковой файл wav:
intro-orig.wav — 1,3 МБ
$ ffmpeg -i https://auphonic.com/media/audio-examples/codec2/intro-orig.wav
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 44100 Hz, 1 channels, s16, 705 kb/s

Применим Codec 2 (без декодера WaveNet) на разных доступных битрейтах: 3200 бит/с…
$ ffmpeg -i https://auphonic.com/media/audio-examples/codec2/intro-orig_3200bps.c2.wav
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, 1 channels, s16, 128 kb/s

что к чему применили...

а так-то awb 6 kb/s для аудиокниг очень хорошо. жаль кнопочная мобила такого не понимает, приходиться увеличивать размер в 1.5 раза конвертируя в mp3 8 kb/s 16000 Hz.

barbos6 Jun 29 2018 at 01:25

Вспомнилось. Лет 27 назад развлекался в том числе и передачей голоса со скоростью 2400, ваял курсовой жене.
Принцип почти копировал вокодер — ацп 1113пв1 на isa шине, дпф, сортировка по мощности, передавались амплитуда и сильно огрубленная фаза для пяти самых значимых частот.
Кроме дпф были испробованы преобразования Уолша, Мерсенна, Ферма.
Прототип был написан на Паскале, потом процентов на 80 переписан на ассемблере, как оказалось, зря, ускорение всего на четверть. Вся арифметика целочисленная.
Производительности 386dx40 под DOSом вполне хватало на два дуплексных канала.
Голос передавался весьма разборчиво, иногда с занятными призвуками, абсолютно лишенный индивидуальной тембровой окраски.
Пайка и писанина заняли, помнится, чуть больше недели вечерами.

SopaXT Jun 29 2018 at 07:44

Эх, интересно, насколько можно сжать видео с низким разрешением, например монохромное 128x64 @ 15fps.

xa6p Jun 29 2018 at 11:50

h264: снижение качества начинается после 48 кб/с, а вполне различимо и на 16 кб/с. 10 секунд умещается в 52 и 18 килобайт соответственно. не сильно много движения, собачка ходит по тропинке.

trapwalker Jun 29 2018 at 13:38

Это смотря что на видео. Можно, например, распознавать изображение, строить 3d-модель сцены на основе готовых паттернов, передавать текстуры и слать оранжировку.
Смутно вспоминается какое-то произведение научной фантастики, где интеллектуальные системы космических кораблей ухитрялись передавать через очень тонкие каналы прям видеоконференции. Сперва видео шло в высоком качестве, потом канал истончался, а система деградировала сперва внося артефакты простого сжатия, потом переходила на реконструирование сцены, а потом вообще на текстовый чат, в котором даже слова некоторые не несущие особого смысла опускались.
Не уверен, что у человечества будут когда-то стоять такие задачи, когда вычислительные мощности гигантские, а каналы по какой-то причине мизерные.

Кстати, кто напомнит что за книжка мне вспомнилась, получит большое спасибо.

SopaXT Jun 29 2018 at 16:52

Не уверен, что у человечества будут когда-то стоять такие задачи, когда вычислительные мощности гигантские, а каналы по какой-то причине мизерные.

У радиолюбителей есть узкополосное телевидение (NBTV) — стандартом является 32 строки, 12.5 кадров в секунду, 3-4 кГц полосы пропускания.

Мне стало интересно, можно ли придумать цифровой кодек такого типа.

daserge Jun 29 2018 at 17:25

Случаем не «Пламя над бездной»?

trapwalker Jun 29 2018 at 17:42

Может быть. У меня очень плохая ассоциативная память на названия, но про «Пламя над бездной» я точно помню, что там крутотень какая-то, но какая именно не помню уже. Надо освежить=) Спасибо.

rPman Jun 30 2018 at 01:23

Жаль, что не помните, какой это рассказ.

Не уверен, что у человечества будут когда-то стоять такие задачи, когда вычислительные мощности гигантские, а каналы по какой-то причине мизерные.

межзвездная связь, где из-за большого расстояния и огромных энергозатрат, каждый байт может стоить значительно дороже любых вычислительных мощностей для кодирования.

Show the best of all time