followmyutopia May 11 2021 at 13:01

Что делать с участниками видеоконференций с плохим интернетом или слабым железом?

2 min

7.3K

Voximplant corporate blogJavaScript*Programming*Development of communication systems*Video conferencing

Tutorial

Comments 22

nzamb1 May 11 2021 at 15:21

Вы не думали видео отправлять в хорошем разрешении по udp? А если кому-то не пришел один кадр или несколько то он это может даже не заметить. Даже если у него будет всего несколько кадров в секунду то этого будет достаточно.

Alexufo May 11 2021 at 16:42

а звук как синхронить? По udp звук то не пошлешь

nzamb1 May 11 2021 at 17:09

Почему звук по udp не пошлешь? Я всегда думал, что звук и видео лучше стримить по udp.

Alexufo May 11 2021 at 18:43

вобщем-то да, при условии организации контроля ошибок на уровне приложения

AlessandroS May 11 2021 at 22:41

Зачем вы пишите чепуху?!
Практически все системы uc пересылают медиа-данные именно по udp/rtp.

Alexufo May 11 2021 at 23:42

согласен, поторопился, я как-то не ожидал что контроль пакетов не переложен на протокол, оказалось все сложнее.

aylarov May 11 2021 at 17:10

WebRTC изначально работает по UDP

mistergrim May 11 2021 at 17:51

Я лучше буду 640×480 с частотой хотя бы 15 к/с смотреть, чем слайд-шоу в FullHD.

Alexufo May 15 2021 at 01:39

лучше вообще видео убирать, а то взяли привычку и картинка мыло и звук заикается)

Moskus May 11 2021 at 19:47

Перестать заниматься ерундой и оставлять один звук. Действительно, возможность видеть собеседника теоретически позволяет получать больше информации, но в реальности, особенно - при плохой связи или тонком канале, это практически бессмысленно.

mistergrim May 11 2021 at 20:35

А при невозможности звука оставлять лишь текст.

tolkkv May 11 2021 at 20:44

транслитом

Alexufo May 11 2021 at 23:47

предварительно обучить синтезатор голоса голосу собеседника и скармливать ему текст, который распознается на клиенте))

saege5b May 15 2021 at 00:38

И требуя вычислительных ресурсов в пару топовых нейроных ускорителей :)

Alexufo May 15 2021 at 01:38

дану) обучить только нужно офлайн, а по готовой модели вреалтайме легко распознавать даже на телефоне.

saege5b May 15 2021 at 15:43

Учим на стороне передающего, а воспроизводить нужно на стороне принимающего.
Учится нужно быстро и БДЗнанийОсобенностейГолоса должна быть небольшой, иначе каждый новый собеседник будет обладателем робо-голоса и нужен широкий и стабильный канал.
Да и телефон телефону рознь.

Alexufo May 15 2021 at 15:51

На стороне принимающего тоже можно подгрузить речевой движок заранее. Ну или взять готовый чей-то движок))) Пропадет только эмоциональная часть. Хотя и ее можно как нибудь закодировать в метаданных

saege5b May 15 2021 at 17:01

Хочется посмотреть на сопряжение голосовых движков на разных технологиях и потока данных :)

На эту тему Гугл уже аудиокодек выкатил: Google Lyra

Мой старенький Samsung N8000 падает в коматоз от усердно пожатого opus'а, а такое вообще не переварит.

Alexufo May 15 2021 at 17:07

Так поток данных я предлагал организовать текстовый. Текст обрамлен в эмоциональные теги. На том распознавалка, на этом синтезатор))

saege5b May 15 2021 at 18:43

Одними эмоциональными тэгами не обойдёшься.
А ведь есть языки, где тональность напрямую определяет смысловую нагрузку.
Поэтому современный синтез это несколько проходов и весьма большая вычислительная нагрузка. А универсальный метод потащит ещё и гигантскую базу данных обо всех языках мира.
Да и текст не образец экономичной передачи информации.

apih May 12 2021 at 01:23

По спецификации WebRTC фича Simulcast одна из удобнейших в реализации через SFU (Selective Forwarding Units). Об этом вы писали в одной из своих предыдущих статей - https://m.habr.com/ru/company/Voximplant/blog/432708

Что у вас изменилось за эти 3 года?

nikhotmsk Jan 25 2022 at 21:02

Лучшая софтина для видеоконференций - это самодельная.

И вы меня не переубедите, потому что я сам ее написал. Вот