Открыть список
Как стать автором
Обновить

Комментарии 23

Немного странное ощущение uncanny valley в голосе, вроде и звук лучше и речь чётче, но всё равно как-то не по себе.
Мне напомнило эффект автотюна, которым грешат исполнители поп-музыки.
Кто не знаком со звукозаписью — это программа, которая позволяет подстроить голос под музыку, обычно используется, когда певец не попал в ноту, но вообще может собрать песню даже если человек вообще изначально не пел, а говорил. Вот там побочный эффект такие оттенки в голосе как раз.

Будущее приближается быстрее, чем мы ожидали.


У Винджа описывались видеоконференции будущего — там компьютер реконструировал и аудио и видео, и мог давать иллюзию общения даже на канале в несколько сот бод (бит в секунду) — в этой ситуации передавалось "содержание", а "оформление" воссоздавалось локально (включая мимику, пластику тела, интонации и т.д.).

Формально, бод != бит в секунду.
Бод — изменение состояния сигнала (low->high, high->low), а скорость в битах в секунду будет равна скорости в бодах только для NRZ (no return to zero) кодирования, насколько я помню. Для других схем кодирования (когда нужна помехоустойчивость или самосинхронизация) скорость в бодах будет меньше скорости в битах.

я читал эту книгу!

Ну правда у него они собирались только на месте по требованию, а пересылались без таких умных сжатий. Не помню, какой персонаж слежку вёл, но когда этому персонажу показалось, что реконструируется что-то не то, он тут же в сырые данные полез и сильно удивился (что нанороботы поздыхали почти все уже).

Уже есть такое, ага. Нвидия передаёт кипоинты лица и реконструирует ганом на второй стороне. Пока это станет реально трудноотличимо и голос начнёт передаваться чистым распознаванием и обратным TTS с учётом реального голоса говорящего — вопрос пары/пятка лет.

Распознаём речь, передаём текст, реконструируем речь синтезатором. Для передачи текста достаточно сотен, а то и десятков бит/c.

По сути да. Но тут ещё кроме текста передали интонации, паузы, темп, тембр и звучание.


Я бы не хотел попасть на звонок, где бы все мои коллеги озвучивались одинаковым голосом робота )))

Нужны самплы коллег :)
А потом можно будет делать синтез из их речи по их самплам.
Будет все равно немного жутко, но голоса будут похожи на оригиналы. Жаль, что только голоса, не речь целиком.
Но, если китайцы со своими тоновыми системами помогут, то и речь целиком будет доступна когда-то в будущем для восстановления (если кодировать не только текст, но и паузы, темп, выше-ниже и т.д.).

Что, собственно, уже и сделали. Кодируют паузы, темп, интонации и передают в виде потока сразу. Само собой можно передать не потоком, а записью. Но пока вместе с сэпмплом это все идёт неразрывно.


Наверное можно сделать звонилку, которая в начале просит нового юзера "рассказать о себе" для анализа речи, делает из этого анализа слепок и при установлении нового контакта передает этот слепок, а потом отдельно только данные. Может быть это даже даст ещё экономию. Но мне кажется что это будет уже совсем незначительно влиять на битрейт.

Наверное можно сделать звонилку, которая в начале просит нового юзера «рассказать о себе» для анализа речи, делает из этого анализа слепок и при установлении нового контакта передает этот слепок, а потом отдельно только данные. Может быть это даже даст ещё экономию. Но мне кажется что это будет уже совсем незначительно влиять на битрейт.

Я помню первые попытки локального распознавания голоса. Была такая программка, работала под XP, лет 10 назад, а то и 15. Только английский. После установки она предлагала тебе прочитать несколько страниц текста и чем чище ты прочитаешь тем чётче она срабатывала. И ведь работала: можно было голосом управлять медиаплеером, например.

Это я к чему. Если на каждого человека выводится определённая математическая формула параметров, которые описывают конкретный тембр, скорость и прочие параметры, то всегда можно при установке соединения же разом передавать такой пакет, а остальное уже в реальном времени слать как разобранную на параметры речь в реальном времени и реконструировать на стороне слушателя. Ведь уже и мобильные телефоны гораздо мощнее тех компьютеров, что были те же 15 лет назад.

PS Я сварщик не настоящий, так что я ничего не понимаю в этих нейросетях и прочих кодеках. Но ведь технически что-то из вышесказанного можно же реализовать?

Всё так и будет, рано или поздно будут делать эмбеддинг конкретного голоса. Да и уже делают, просто по сорок тысяч отсчётов в секунду и человеческое ухо супер-сильно палит фальш, и поэтому для качественной реконструкции нужно очень уж много вычислений. Но это пока, вот и эта работа лишь очередной шажок на пути, но прогресс за три-пять лет — фантастический.

А что там с тяжеловесностью кодека? Надо иметь видеокарту с CUDA?

Тот же вопрос. Тактично умолчали. Да и вообще, кого нынче волнует производительность, у всех ведь дома суперкомпьютеры с фермами из видеокарт.

К тому моменту как пойдёт в массовый продакшн уже каждый телефон будет с десяти терафлопсным МЛ-ускорителем на борту (читай как 1080ти пять лет назад). И это не преувеличение — в айфонах такое уже пару лет, в топовых снапдрагонах есть, в киринах есть. Осталось только спуститься в массовый сегмент, устаканить API и вперед.

Модель Lyra обучалась на тысячах часов звука на более чем 70 языках из опенсорсных аудиотек.

1. Lyra обучалась на миллионах часов звука.
2. Lyra обучалась на более чем 70 языках из опенсорсных аудиотек.

Результат не был равен (1|2). Миллионы часов в основном английской речи. Причем вполне конкретной речи.

Можно привести в пример, хоть распиаренный OPUS/CELT, хоть SPEEX, хоть менее популярный codec2. Русская речь всегда задирает битрейт относительно примеров для подобного звучания.

Кроме того, соотношение «новое враг хорошего» должно быть очень велико. AMR/MP3/AAC в аудио и h.264 в видео настолько закрепились, что для «корпоративов», от которых зависит все, выгода должна быть тысячекратной. И пресловутые «коммьюнити» это изменить не способны от слова «никак». Железки стоят денег, очень больших денег. Много железок — много денег. Мало железок — мало денег.
Интернет-полосы для корп клиентов тоже стоят денег, причем — больших.

Приходит один zoom и всё поменялось. Условный teams рядом с ним уныл и вял.

Ладно teams, представь если бы лучшее доступное в 2020 был какой-нибудь webex, а зума и хенгаутс и фейстайма не существовало и грянула эта пандемия с удалёнкой, вот это был бы номер.

Когда это появится в браузере и смартфонах гугла, а потом эпл ответит своим вариантов на айфон — все будут просто класть болт на "закреплённые корпоратами системы" и звонить с собственных девайсов, когда нужно на самом деле продуктивно пообщаться, а не провести время на митинге. Как мы прекрасно это увидели в 2020 году :)

Ну, тот же MELPe 2400/1200/600 бит/с существует с лохматых годов, и в целом дает вполне неплохое качество звука. При этом работает на микроконтроллерах лохматых годов, не требуя генеративных моделей.


При этом вроде были сообщения, что "нейронные" кодеки могут "додумывать" и менять близкие по звучанию слова. Так что мне кажется, что куда-то не туда разработка кодеков повернула.

Шикарно.
В отличии от классических кодеков, оно различает только речь, не воспринимая шумы.
Поэтому данные о шумах не сохраняются и не передаются.
Поэтому слышно только человека, чисто и ясно, как в тихой комнате. Хотя в оригинале уровень шумов существенный.
Такое нужно в телефоны внедрять, хотя бы даже просто как высокоэффективный фильтр для микрофона, с кодированием и декодированием на одной и той же стороне.
А если внедрить полноценно — там, где сейчас плохой сигнал и собеседника с трудом слышно, проблем со связью станет куда меньше.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Информация

Дата основания
Местоположение
Россия
Сайт
miran.ru
Численность
51–100 человек
Дата регистрации

Блог на Хабре