Как стать автором
Обновить

Комментарии 21

Вы не думали видео отправлять в хорошем разрешении по udp? А если кому-то не пришел один кадр или несколько то он это может даже не заметить. Даже если у него будет всего несколько кадров в секунду то этого будет достаточно.
Почему звук по udp не пошлешь? Я всегда думал, что звук и видео лучше стримить по udp.

Зачем вы пишите чепуху?!
Практически все системы uc пересылают медиа-данные именно по udp/rtp.

согласен, поторопился, я как-то не ожидал что контроль пакетов не переложен на протокол, оказалось все сложнее.
WebRTC изначально работает по UDP
Я лучше буду 640×480 с частотой хотя бы 15 к/с смотреть, чем слайд-шоу в FullHD.
лучше вообще видео убирать, а то взяли привычку и картинка мыло и звук заикается)

Перестать заниматься ерундой и оставлять один звук. Действительно, возможность видеть собеседника теоретически позволяет получать больше информации, но в реальности, особенно - при плохой связи или тонком канале, это практически бессмысленно.

А при невозможности звука оставлять лишь текст.
транслитом
предварительно обучить синтезатор голоса голосу собеседника и скармливать ему текст, который распознается на клиенте))
И требуя вычислительных ресурсов в пару топовых нейроных ускорителей :)
дану) обучить только нужно офлайн, а по готовой модели вреалтайме легко распознавать даже на телефоне.
Учим на стороне передающего, а воспроизводить нужно на стороне принимающего.
Учится нужно быстро и БДЗнанийОсобенностейГолоса должна быть небольшой, иначе каждый новый собеседник будет обладателем робо-голоса и нужен широкий и стабильный канал.
Да и телефон телефону рознь.
На стороне принимающего тоже можно подгрузить речевой движок заранее. Ну или взять готовый чей-то движок))) Пропадет только эмоциональная часть. Хотя и ее можно как нибудь закодировать в метаданных
Хочется посмотреть на сопряжение голосовых движков на разных технологиях и потока данных :)

На эту тему Гугл уже аудиокодек выкатил: Google Lyra

Мой старенький Samsung N8000 падает в коматоз от усердно пожатого opus'а, а такое вообще не переварит.
Так поток данных я предлагал организовать текстовый. Текст обрамлен в эмоциональные теги. На том распознавалка, на этом синтезатор))
Одними эмоциональными тэгами не обойдёшься.
А ведь есть языки, где тональность напрямую определяет смысловую нагрузку.
Поэтому современный синтез это несколько проходов и весьма большая вычислительная нагрузка. А универсальный метод потащит ещё и гигантскую базу данных обо всех языках мира.
Да и текст не образец экономичной передачи информации.

По спецификации WebRTC фича Simulcast одна из удобнейших в реализации через SFU (Selective Forwarding Units). Об этом вы писали в одной из своих предыдущих статей - https://m.habr.com/ru/company/Voximplant/blog/432708

Что у вас изменилось за эти 3 года?

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.