Comments 22
Вы не думали видео отправлять в хорошем разрешении по udp? А если кому-то не пришел один кадр или несколько то он это может даже не заметить. Даже если у него будет всего несколько кадров в секунду то этого будет достаточно.
+1
а звук как синхронить? По udp звук то не пошлешь
+1
Почему звук по udp не пошлешь? Я всегда думал, что звук и видео лучше стримить по udp.
0
Зачем вы пишите чепуху?!
Практически все системы uc пересылают медиа-данные именно по udp/rtp.
0
WebRTC изначально работает по UDP
0
Я лучше буду 640×480 с частотой хотя бы 15 к/с смотреть, чем слайд-шоу в FullHD.
0
Перестать заниматься ерундой и оставлять один звук. Действительно, возможность видеть собеседника теоретически позволяет получать больше информации, но в реальности, особенно - при плохой связи или тонком канале, это практически бессмысленно.
+2
А при невозможности звука оставлять лишь текст.
0
транслитом
+1
предварительно обучить синтезатор голоса голосу собеседника и скармливать ему текст, который распознается на клиенте))
+1
И требуя вычислительных ресурсов в пару топовых нейроных ускорителей :)
0
дану) обучить только нужно офлайн, а по готовой модели вреалтайме легко распознавать даже на телефоне.
0
Учим на стороне передающего, а воспроизводить нужно на стороне принимающего.
Учится нужно быстро и БДЗнанийОсобенностейГолоса должна быть небольшой, иначе каждый новый собеседник будет обладателем робо-голоса и нужен широкий и стабильный канал.
Да и телефон телефону рознь.
Учится нужно быстро и БДЗнанийОсобенностейГолоса должна быть небольшой, иначе каждый новый собеседник будет обладателем робо-голоса и нужен широкий и стабильный канал.
Да и телефон телефону рознь.
0
На стороне принимающего тоже можно подгрузить речевой движок заранее. Ну или взять готовый чей-то движок))) Пропадет только эмоциональная часть. Хотя и ее можно как нибудь закодировать в метаданных
0
Хочется посмотреть на сопряжение голосовых движков на разных технологиях и потока данных :)
На эту тему Гугл уже аудиокодек выкатил: Google Lyra
Мой старенький Samsung N8000 падает в коматоз от усердно пожатого opus'а, а такое вообще не переварит.
На эту тему Гугл уже аудиокодек выкатил: Google Lyra
Мой старенький Samsung N8000 падает в коматоз от усердно пожатого opus'а, а такое вообще не переварит.
0
Так поток данных я предлагал организовать текстовый. Текст обрамлен в эмоциональные теги. На том распознавалка, на этом синтезатор))
0
Одними эмоциональными тэгами не обойдёшься.
А ведь есть языки, где тональность напрямую определяет смысловую нагрузку.
Поэтому современный синтез это несколько проходов и весьма большая вычислительная нагрузка. А универсальный метод потащит ещё и гигантскую базу данных обо всех языках мира.
Да и текст не образец экономичной передачи информации.
А ведь есть языки, где тональность напрямую определяет смысловую нагрузку.
Поэтому современный синтез это несколько проходов и весьма большая вычислительная нагрузка. А универсальный метод потащит ещё и гигантскую базу данных обо всех языках мира.
Да и текст не образец экономичной передачи информации.
0
По спецификации WebRTC фича Simulcast одна из удобнейших в реализации через SFU (Selective Forwarding Units). Об этом вы писали в одной из своих предыдущих статей - https://m.habr.com/ru/company/Voximplant/blog/432708
Что у вас изменилось за эти 3 года?
+1
Sign up to leave a comment.
Что делать с участниками видеоконференций с плохим интернетом или слабым железом?