Pull to refresh

Comments 19

Декодер Wavenet заранее настроен на голос? Или адаптируется самостоятельно под разные голоса?
«не читал, но обсуждаю!»:

предельным нейросетевым кодеком речи будет писаться нечто, типа текста (фонетического, Ok, и артикуляционных настроек «говорилки» (функционального акустического речевого тракта, реализованного как в сетке-кодировщике, так и в сетке-декодировщике).

Ну, [может] еще и настроек, задающих тип голоса, если кодек «для любого человека». Более широкий еще позволит писать звуки, выпадающие за такое кодирование.

Я к тому, что да, «битрейт» у него очень маленьким может быть в легкую.
Текст еще же тоже сжать можно.

В комментариях на Hacker News носители языка отметили, что многие слова после кодирования заменяются на другие, с похожим звучанием.


Поскольку я слушаю и смотрю подкасты на других языках с целью развить свое чувство языка, то этот кодек категорически не подходит для подкастов.


Более того, очевидно, что он может непредсказуемым образом изменить смысл передаваемой информации (на HN приводились примеры для английского, я уже не помню, но помню, что числительные менялись, типа 17->70 или наоборот).


Пускай армия США использует этот кодек. «Обнаружено 17 танков противника!» Или 70?


Я лично мало смысла вижу в таком кодировании, которое может радикально изменить смысл кодируемой информации.

Ну уж извините, но при использовании обычного кодека в плохом качестве вы тоже можете не расслышать разницы между «seventeen» и «seventy».
Мне кажется идею просто нужно доработать по аналогии с кодеками для видео (H264/H265). В этих кодеках, помимо прочего, вычисляется и передаётся разница между оригинальным и восстановленным (на стороне энкодера) кадром (residual), что как раз позволяет восстановить мелкие (высокочастотные) детали.

Там еще приводились примеры, когда у слов заменяется смысл при использовании данного кодека, как будто он подставляет слова с похожим звучанием. Короче, я не знаю, меня как-то не впечатлило.


Напомнило старую шутку про архиватор, который любой объем пакует в архив размером в 1 байт. Только разархивировать пока невозможно.


Может быть какая-то научная ценность в подобных экспериментах с кодеками и есть, но точно не практическая. Я не знаю, где бы я хотел использовать такой своенравный кодек.

«Другое слово с похожим звучанием» — это как раз и есть ошибка восстановления. И для устранение таких ошибок как раз можно попробовать использовать residual.
А вот пример с архиватором тут не совсем подходит, так как большинство современных кодеков (как аудио, так и видео/отдельных изображений), в отличии от архиваторов, используют сжатие с потерями. Восстановить в точности исходную информацию при таком подходе практически не реально, зато степень сжатия бывает значительно больше (сравните размер PNG и JPG для одного и того же изображения). Борьба идет за минимизацию размера при «приемлемых» искажениях. А вот что считать «приемлемым» — каждый решает для себя сам. «Аудиофилы» плюются от любого MP3, но для многих задач и 8 kb/s MP3 бывает вполне достаточно :)
Проблема существует и в радиопереговорах. Поэтому в авиации, на флоте и в армии проговаривают цифры по отдельности, а буквы по кодам («чарли шесть четыре зулу фокстрот один»).
Ну ок, хотя бы рэп можно будет декодировать с помощью этой сетки. Кому там какое дело до смысла.
Вот короткий звуковой файл wav:
intro-orig.wav — 1,3 МБ
$ ffmpeg -i https://auphonic.com/media/audio-examples/codec2/intro-orig.wav
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 44100 Hz, 1 channels, s16, 705 kb/s

Применим Codec 2 (без декодера WaveNet) на разных доступных битрейтах: 3200 бит/с…
$ ffmpeg -i https://auphonic.com/media/audio-examples/codec2/intro-orig_3200bps.c2.wav
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, 1 channels, s16, 128 kb/s

что к чему применили...


а так-то awb 6 kb/s для аудиокниг очень хорошо. жаль кнопочная мобила такого не понимает, приходиться увеличивать размер в 1.5 раза конвертируя в mp3 8 kb/s 16000 Hz.

Вспомнилось. Лет 27 назад развлекался в том числе и передачей голоса со скоростью 2400, ваял курсовой жене.
Принцип почти копировал вокодер — ацп 1113пв1 на isa шине, дпф, сортировка по мощности, передавались амплитуда и сильно огрубленная фаза для пяти самых значимых частот.
Кроме дпф были испробованы преобразования Уолша, Мерсенна, Ферма.
Прототип был написан на Паскале, потом процентов на 80 переписан на ассемблере, как оказалось, зря, ускорение всего на четверть. Вся арифметика целочисленная.
Производительности 386dx40 под DOSом вполне хватало на два дуплексных канала.
Голос передавался весьма разборчиво, иногда с занятными призвуками, абсолютно лишенный индивидуальной тембровой окраски.
Пайка и писанина заняли, помнится, чуть больше недели вечерами.

Эх, интересно, насколько можно сжать видео с низким разрешением, например монохромное 128x64 @ 15fps.

h264: снижение качества начинается после 48 кб/с, а вполне различимо и на 16 кб/с. 10 секунд умещается в 52 и 18 килобайт соответственно. не сильно много движения, собачка ходит по тропинке.

Это смотря что на видео. Можно, например, распознавать изображение, строить 3d-модель сцены на основе готовых паттернов, передавать текстуры и слать оранжировку.
Смутно вспоминается какое-то произведение научной фантастики, где интеллектуальные системы космических кораблей ухитрялись передавать через очень тонкие каналы прям видеоконференции. Сперва видео шло в высоком качестве, потом канал истончался, а система деградировала сперва внося артефакты простого сжатия, потом переходила на реконструирование сцены, а потом вообще на текстовый чат, в котором даже слова некоторые не несущие особого смысла опускались.
Не уверен, что у человечества будут когда-то стоять такие задачи, когда вычислительные мощности гигантские, а каналы по какой-то причине мизерные.

Кстати, кто напомнит что за книжка мне вспомнилась, получит большое спасибо.
Не уверен, что у человечества будут когда-то стоять такие задачи, когда вычислительные мощности гигантские, а каналы по какой-то причине мизерные.

У радиолюбителей есть узкополосное телевидение (NBTV) — стандартом является 32 строки, 12.5 кадров в секунду, 3-4 кГц полосы пропускания.

Мне стало интересно, можно ли придумать цифровой кодек такого типа.
Случаем не «Пламя над бездной»?
Может быть. У меня очень плохая ассоциативная память на названия, но про «Пламя над бездной» я точно помню, что там крутотень какая-то, но какая именно не помню уже. Надо освежить=) Спасибо.
Жаль, что не помните, какой это рассказ.

Не уверен, что у человечества будут когда-то стоять такие задачи, когда вычислительные мощности гигантские, а каналы по какой-то причине мизерные.
межзвездная связь, где из-за большого расстояния и огромных энергозатрат, каждый байт может стоить значительно дороже любых вычислительных мощностей для кодирования.
Sign up to leave a comment.

Articles