Mobile1 27 мая 2020 в 19:42

Революция в связи? Новый подход позволяет экономить полосу в 100 и более раз при аудио и видеозвонках

5 мин

HabrСтандарты связи*Будущее здесь

-23

Комментарии 97

НЛО прилетело и опубликовало эту надпись здесь

Katasonov 27 мая 2020 в 19:58

Абсолютно ничего нового. Думаю о таком лет 60 назад уже задумывались люди вроде Хаффмана. Проблемой естественно было преобразовать голос в текст и текст в голос. Оно и сейчас ещё проблема.

НЛО прилетело и опубликовало эту надпись здесь

trapwalker 27 мая 2020 в 19:59

Дип-фейк уже сейчас умеет говорить от любого имени.

НЛО прилетело и опубликовало эту надпись здесь

Mobile1 27 мая 2020 в 22:30

Реализация такого точно будет канал связи в меньшей степени забивать? Не говоря о ресурсах самих устройств.

Да, потому что вся обработка S2T будет происходить на смартфоне пользователя, без выхода в сеть.
В сеть отдается только обработанный текст.

trapwalker 27 мая 2020 в 19:59

Читал я как-то научно-фантастический роман, где космические корабли между собой держали связь через очень узкую полосу пропускания и эта полоса всё истончалась.
Сначала у них полноценная голографическая передача с качественным звуком была по хорошему каналу, потом канал деградировал, а компьютер строил модели и по накопленной информации восстанавливал несущественные детали: В какой-то момент передавать изображения стало неэффективным и компьютеры перешли на моделирование фигур людей с натягиванием текстур, которые удалось сохранить пока связь была хорошая. С ухудшением связи модели приходилось деградировать, особенно с абонентами, для которых не было накоплено данных. В конце концов всё деградировало до диалогового текстового режима через канал в считанные биты в секунду, пробивающиеся через море помех.

sim2q 27 мая 2020 в 21:13

там случайно космического юзенета не было?:)

aamonster 27 мая 2020 в 23:24

Там не закончилось тем, что на обеих сторонах компьютер просто эмулировал собеседника?

trapwalker 28 мая 2020 в 08:39

Нет, там, кажется, в Солнце погружались корабли. Помехи были. Связь-то была не просто чтобы поболтать, че-то важное обсуждали. Блин, не могу вспомнить что за произведение.

Andriy1218 28 мая 2020 в 11:59

Вероятно это роман «Пламя над бездной» Вернора Винджа.
Там связь пропадала вроде из-за того, что корабли летели из одной зоны в другую, где физические законы несколько отличаются друг от друга. То есть изменялась максимальная скорость ~~света~~ распространения причинности и все такое.

hard_sign 28 мая 2020 в 11:53

диалогового текстового режима через канал в считанные биты в секунду

Векторный гипертекстовый Фидонет™?

picul 27 мая 2020 в 20:06

Когда я разговариваю с кем-то по голосовой связи — я хочу слышать его голос. Не прочитанный диктором текст с наложенными на него шаблонными «эмоциями», а в точности те же звуки, которые издает мой собеседник. Когда сможете предоставить подобную кодировку, потери которой не превысят потери при оцифровке звука — тогда можно будет серьезно об этом говорить.
P. S. Чуть не забыл — все это должно кодироваться/декодироваться в реальном времени на самой слабой мобилке, при этом желательно, что бы она не грелась.

Griboks 27 мая 2020 в 21:23

В большинстве случае вы слышите голос робота, который пытается повторить вашего собеседника (при плохой связи ярко выделяется). Реальный голос собеседника невозможно передать через цифровой сигнал, очень похожий голос займёт 5-10 Мбит/с. Вокодеры в мобильной связи и вовсе используют особенности уха, чтобы вас обмануть.

Тут проблема в том, что не существует таких технологий и такого мощного, энергоёмкого (iphone не выдержит и 7 минут такого разговора) оборудования, которое смогло бы реализовать s2t кодек.

-11

vak0 27 мая 2020 в 22:16

Ну какие 5-10 Мбит/с, когда даже музыку 320 Кбит/с попробуй еще отличи от lossless, если аппаратура не hi-end. Вы, наверное, 5-10 Кбит/с имели в виду?
И мне кажется, что основная проблема не в S2t кодировании, а как раз наоборот в декодировании t2s так, чтобы правильно передать интонации собеседника, чтобы это вообще был похоже на ту речь, что была на входе на стороне говорящего. Если уж идти таким путем, я бы предложил кодировать не в текст, а в фонемы и передавать помимо самих фонем набор модификаторов: информацию о высоте тона, громкости, длительности звучания. Или даже данные кривой изменения каждого из этих параметров на протяжении звучания фонемы.
Можно даже так: сначала передаем сами фонемы традиционным способом и некие их идентификаторы, далее при близости новой фонемы к переданной ранее, передаем только ее идентификатор и модификаторы.

Mobile1 27 мая 2020 в 22:32

Если уж идти таким путем, я бы предложил кодировать не в текст, а в фонемы и передавать помимо самих фонем набор модификаторов: информацию о высоте тона, громкости, длительности звучания. Или даже данные кривой изменения каждого из этих параметров на протяжении звучания фонемы.

Хорошая идея.

Griboks 28 мая 2020 в 23:12

vak0, Sun-ami, Mobile1
Давайте вместе посчитаем: 20 кГц частота звука, 8 байт разрешение импульса/ступени, 2 канала, полный дуплекс, 20% накладные расходы = (20000*2)*(8*8)*2*2*1.2 бит/с = 12 Мбит/с. Конечно, можно использовать сжатие без потерь и дельта-кодирование, это даст, на вскидку, 3 Мбит/с.

Можно даже так: сначала передаем сами фонемы традиционным способом и некие их идентификаторы, далее при близости новой фонемы к переданной ранее, передаем только ее идентификатор и модификаторы.

Это называется вокодер, широко используется в мобильной связи. Требует порядка 5 кбит/с.

Sun-ami 29 мая 2020 в 01:12

Речь шла о передаче голоса одного человека. Зачем для этого нужен симметричный дуплекс? Зачем нужно 2 канала, ведь передаётся звук от одного источника, а не звуковая картина? Зачем нужно разрешение 64 бита? Человек не способен слышать звуки в диапазоне 385дБ.
Типичный вокодер передаёт описание модели речевого тракта при воспроизведении конкретных звуков. А здесь речь о построении модели голоса более высокого порядка. Это, конечно, тоже можно назвать вокодером, но такие методы, насколько мне известно, пока не используются. Это больше похоже на методы сжатия, используемые архиваторами.

Griboks 30 мая 2020 в 10:10

Зачем для этого нужен симметричный дуплекс?

Если так рассуждать, то зачем передавать запись голоса в битрейте голоса. Ну придёт голосовое сообщение на несколько секунд позже, а мы уже в два раза снизим нагрузку на сеть.

Зачем нужно 2 канала, ведь передаётся звук от одного источника, а не звуковая картина?

Потому что у человека 2 уха, а речь идёт о передачи максимального похожего голоса. Монофонический канал эквивалентен тому, что собеседник стоит неподвижно, как столб перед тобой, но это уже не максимальное правдоподобие.

Зачем нужно разрешение 64 бита?

Чтобы различать 9e18 уровней громкости. Очевидно, человек не использует все эти уровни, но ведь он может говорить в малом диапазоне громкости, а плохое разрешение посчитает его голос за шум квантования.

Человек не способен слышать звуки в диапазоне 385дБ.

Не понимаю, о чём вы. Какая база децибел? Диапазон чего? Стандартный микрофон записывает звук до 22100 Гц, я же использовал 20000 Гц (предел уха обычного человека). По теореме отсчётов частота дискретизации в 2 раза больше.

Впрочем, даже 1 Мбит/с — это уже очень много. В любом случае, никто не будет тратить столько трафика ради «правдоподобного» голоса. Вы всегда услышите робота, маскирующегося под собеседника.

Sun-ami 30 мая 2020 в 12:05

Давайте вспомним ваше первоначальное утверждение, которое мы обсуждаем:

Реальный голос собеседника невозможно передать через цифровой сигнал, очень похожий голос займёт 5-10 Мбит/с

Речь в нём не идёт о двусторонней связи, и передаче звуковой картины — только голоса одного человека. Для двухсторонней конференц-связи может понадобиться симметричный дуплексный канал, и 3, 4 или 8 звуковых каналов для достоверной передачи звуковой картины в помещени — но я не обсуждаю это, потому что для такого обсуждения не определены условия задачи, и решение этой задачи в любом случае — производное от решения задачи достоверной передачи голоса в одном канале. Даже устаревшая низкокачественная кодировка G.711 — это не голос робота, а голос собеседника с наложенным шумом, и заглушенными нижними и верхними частотами — а они могут быть заглушены и в естественных условиях непрямого распространения звука. 1 Мбит/с — это вполне достижимо для местной связи через гигабитную сеть, в том числе и в дуплексе.
385дБ — это те самые 9e18 уровней громкости, которые человек физически не может услышать, по крайней мере без необратимого физического повреждения ушей. Для передачи тех уровней громкости, которые могут встретиться в разговоре, достаточно разрешения 24 бита.

ZEvS_Poisk 30 мая 2020 в 15:26

О чем Вы вообще говорите?
Для передачи речи без кодеков нужна частота дискретизации 7-8 кГц, поскольку верхняя граница полосы человеческого голоса 3,5-4 кГц. И разрешение 8бит. Итого 1 канал с нормальным телефонным качеством без кодеков 56-64 кбит/cек.
Какие 1Мбит/с???
Кодек GSM из 64 кбит/c делает 13 кбит/сек и никаких роботов.

Sun-ami 30 мая 2020 в 18:06

Спектр человеческого голоса шире, чем полоса частот, воспринимаемых человеческим ухом. Вот здесь человек это исследует. Диапазон частот 300..3400Гц считается важным для передачи смысла сказанного, и в общих чертах передаёт особенности голоса. Но тональность голоса при этом искажается, голос кажется более глухим. Особенно это заметно на высоком женском голосе. А разрешение 8 бит не используется, из-за очень заметных шумов квантования. Минимально используемое разрешение — передача отсчётов в виде 8-битных чисел с плавающей запятой с 4-битной мантиссой, 3-битным порядком, и знаком. Это используется в европейской разновидности кодировки G.711, составляя суть её метода сжатия аудиопотока до 64 кбит/cек. Но то, что было хорошо для 70-х годов прошлого века, сейчас устраивает далеко не всегда, при разговоре через спикерфон шумы квантования очень заметны, и это совсем неудивительно для 4-битной мантиссы. Кодек GSM использует линейно-предикативное кодирование, суть которого состоит в построении для каждого звука модели мгновенной конфигурации звукового тракта человека, состоящей из генератора первичного тона, имитирующего голосовые связки, набора резонаторов, имитирующих трахею, ротовую и носовую полости человека (в грубом приближении), и генератора шума для воспроизведения шипящих. То есть это действительно не голос человека, а звуки, воспроизводимые моделью, имитирующей человека. И качество звука при этом даже ниже, чем у G.711, со своими особенностями искажений. Битрейт 13 кбит/с используется в GSM далеко не всегда, при большой загрузке каналов связи используется более низкий битрейт, и тогда искажения типа «голос робота» особенно заметны. Более достоверно речь передаёт кодек Opus на высоких битрейтах — там используется передача звука в частотной области, со сжатием за счёт замены частот, маскируемых более громкими соседними частотами, усилением громкости маскирующих их частот, как в MP3.

Sun-ami 30 мая 2020 в 22:15

Применение передачи несжатого звука в связи пока довольно ограниченое, но у него есть свои преимущества. При полнодуплексной конферец-связи с большим числом участников микшер (сервер) конференций перед сложением аудиопотоков должен распаковать звук, а потом снова упаковать. В случае ресурсоёмких кодеков вроде Opus это требует большой вычислительной мощности, и вносит дополнительную задержку. Кодек Opus позволяет выбирать задержку, но чем меньше задержка — тем выше битрейт при одинаковом качестве. А задержка в 50 мс уже ощущается на слух при разговоре. Использование несжатого звука избавляет от этой проблемы и позволяет удешевить терминалы, поскольку их вычислительная мощность может быть низкой. 1 Мбит/с — это, конечно, много, по сегодняшним меркам, актуальны 705..768 кбит/с.

Griboks 31 мая 2020 в 10:48

Давайте вспомним ваше первоначальное утверждение, которое мы обсуждаем:

Не могу точно рассчитать, но мне кажется, что ваших параметров не хватит для передачи:

Не прочитанный диктором текст с наложенными на него шаблонными «эмоциями», а в точности те же звуки, которые издает мой собеседник.

С другой стороны, это без учёта всевозможных высококачественных методов сжатия. Впрочем, это субъективная оценка. Например, я слушал и 2 кГц — вполне различимо.

p.s.

кодек Opus на высоких битрейтах — там используется передача звука в частотной области, со сжатием за счёт замены частот, маскируемых более громкими соседними частотами, усилением громкости маскирующих их частот

Я не силён в опусе, что они делают с фазовым спектром?

Sun-ami 31 мая 2020 в 13:46

Я не силён в опусе, что они делают с фазовым спектром?

К сожалению, я знаю опус поверхносно, не могу ответить на этот вопрос.

Sun-ami 27 мая 2020 в 22:39

В случае GSM и других LPC-кодеков, в том числе OPUS с низким битрейтом, это действительно речь робота. Но проводная телефония чаще использует G.711, а местами вообще до сих пор аналоговая на уровне одной телефонной станции. Передача голоса в цифре даже с очень высоким качеством займёт 1152кбит/с — использовать больше для монофонического канала нет смысла.

mistergrim 27 мая 2020 в 20:40

А не проще ли просто текстовыми сообщениями обмениваться?
Голос — это немножко (на самом деле очень намного) больше, чем просто озвученный текст.
И это ещё эффект «зловещей долины» если не рассматривать.

middle 27 мая 2020 в 20:47

Берём Яндекс.Мессенджер (который превращает текстовые сообщения в текст) и добавляем к нему Яндекс.Алису, которая потом это сообщение надиктует. Или не добавляем, потому что прочитать обычно быстрее.

Mobile1 27 мая 2020 в 22:05

Яндекс это сделал для асинхронного общения, для обычного удобства, для человека за рулем например.
Здесь же речь идет о реалтайме, принципиально другой подход…

-2

Wesha 28 мая 2020 в 03:13

"А товарищу майору ваша шутка с пепельницей понравилась!" ©

alex-khv 28 мая 2020 в 15:43

Яндекс Мессенджер умеет распознавать звук и пишет текст.

middle 28 мая 2020 в 18:11

Да, я опечатался.

НЛО прилетело и опубликовало эту надпись здесь

Mobile1 27 мая 2020 в 22:03

Каждые несколько лет очередного хипстера озаряет этой «гениальной» идеей так, что брызги по всему миру разносятся. Сколько можно?

А напомните предпоследнего пожалуйста…

НЛО прилетело и опубликовало эту надпись здесь

ZEvS_Poisk 28 мая 2020 в 03:03

Я источники не коллекционирую.

Я тоже, но одного персонажа вспомнил: habr.com/ru/post/170487
Цитата:

… а в данный момент трудится над алгоритмом, который будет сжимать фильм размером в 2Gb всего лишь до 2-3kb! Ну что же, пожелаем удачи этому юному таланту в его начинаниях.

Mobile1 28 мая 2020 в 08:08

Цитата:

… а в данный момент трудится над алгоритмом, который будет сжимать фильм размером в 2Gb всего лишь до 2-3kb! Ну что же, пожелаем удачи этому юному таланту в его начинаниях.

Вы путаете алгоритм, который заключается в математике и принципиальный подход.
Здесь нет никакого алгоритма сжатия и никто им не заморачивается…

-3

TIMOHIUS 28 мая 2020 в 09:02

Математики самого алгоритма вы не привели в посте. Только громкие рассуждения на тему «Почему если это так, то это не так» и «Вот фантасты предсказывали, а дай-ка я предскажу». Если вы действительно имеете подобные наработки, то вас с руками и ногами возьмут во многие фирмы, только пруфы им предоставь. Потому как хранение данных сегодня, это очень наболевшая тема.

Mobile1 28 мая 2020 в 09:54

Ну здесь же не про хранение данных…
Вы статью саму читали?

-2

JekaMas 28 мая 2020 в 09:58

А не вы ли в google play на отклики отвечаете?

Mobile1 28 мая 2020 в 10:06

А не вы ли эти отклики пишете?
:)

-3

JekaMas 28 мая 2020 в 10:16

Как там было… "Это ваши проблемы.", "У нас всё работает".
Работа с клиентами — это важно, да.

Mobile1 28 мая 2020 в 10:25

Так и работайте с клиентами, если это важно для вас.
Вы работаете в техподдержке?

-2

JekaMas 28 мая 2020 в 11:41

Вам будет трудно найти отклик вашим идеям с подобным хамством.

По сути, вы ещё один товарищ, сосущий деньги за плохой продукт с плохой поддержкой.

Mobile1 28 мая 2020 в 11:48

Вам будет трудно найти отклик вашим идеям с подобным хамством.

Да?
А я считаю надменные провокационные тупые вопросы хамством и стараюсь ответить примерно в таком же ключе…

По сути, вы ещё один товарищ, сосущий деньги за плохой продукт с плохой поддержкой.

Так не пользуйтесь нашим продуктом, вокруг же полно ~~бесплатного 1 гигабита каждому~~ замечательных сервисов…

-1

JekaMas 28 мая 2020 в 11:53

Собственно вот это и было нужно, чтобы хам назвал себя хамом.

Не получится у вас с it сообществом, слишком умные тут ребята и девчонки, чтобы не видеть архитектурных недостатков продукта и вашего отношения к людям.

С же свои вопросы задал, почитав отклики на ваше приложение и не сомневался, что вы сорветесь, как срываетесь на своих клиентах.

Mobile1 28 мая 2020 в 12:03

Не получится у вас с it сообществом, слишком умные тут ребята и девчонки, чтобы не видеть архитектурных недостатков продукта и вашего отношения к людям.

Рекомендую вам отвечать только за себя, не прикрываться за другими.

С же свои вопросы задал, почитав отклики на ваше приложение и не сомневался, что вы сорветесь, как срываетесь на своих клиентах.

Также настоятельно рекомендую попробовать вам написать и опубликовать на Хабре хотя бы одну статью, получить за нее много минусов и потом поотвечать на вопросы в комментариях.
Возможно тогда к вам придет дзен :)

-2

ZEvS_Poisk 28 мая 2020 в 13:41

Также настоятельно рекомендую попробовать вам написать и опубликовать на Хабре хотя бы одну статью, получить за нее много минусов и потом поотвечать на вопросы в комментариях.
Возможно тогда к вам придет дзен :)

А кто виноват в том, что Вы нахватали минусов? Окружающие люди? Читатели? Полагаю, что нет.
Почему у Вас в других статьях нет минусов, хотя люди те же?
Люди минусуют, показывая, что Вы чушь написали. И не владеете даже определениями понятий, имеющих отношение к теме.

Mobile1 29 мая 2020 в 07:36

vazir 27 мая 2020 в 21:37

Текхнически — оно как бы частично реализуемо. Но:
1. на выходе получите полнейшую фигню, потому что для Speech2Text — нужен сильный ИИ — а он пока не изобретен. Иначе, в лучшем случае, рискуете сказать «Мама», а отправить «Корова».
2. Latency — анализ контекста, даже для сильного ИИ — требует времени, т.е. принятия полной фразы. Потому указанное вами не применимо для RT связи

Mobile1 27 мая 2020 в 22:26

на выходе получите полнейшую фигню, потому что для Speech2Text — нужен сильный ИИ — а он пока не изобретен.

Сильный ИИ как раз таки не нужен, у нас нет задачи чтобы ИИ понимало нас.
Нам нужно чтобы ИИ правильно передало то что мы сказали.

Latency — анализ контекста, даже для сильного ИИ — требует времени, т.е. принятия полной фразы. Потому указанное вами не применимо для RT связи

Да, вот это проблема и я упомянул о ней.
Но по идее можно предиктивно убыстрять передачу слов.

-4

Klotos 28 мая 2020 в 00:59

… у нас нет задачи чтобы ИИ понимало нас.
Нам нужно чтобы ИИ правильно передало то что мы сказали

Для того, чтобы правильно передать текстом сказанное, надо сначала сказанное правильно понять. А вот для того, чтобы правильно понять, надо именно что сильный ИИ. Думаю, задача полноценной правильной конвертации Speech-to-Text без правильного полноценного понимания сказанного не решаема. Ну и, как уже говорилось выше, передача ударений (которые могут менять смысл слов), пауз (казнить нельзя помиловать), тона, интонации и т.д. вообще не рассмотрена.

Mobile1 28 мая 2020 в 12:39

Для того, чтобы правильно передать текстом сказанное, надо сначала сказанное правильно понять. А вот для того, чтобы правильно понять, надо именно что сильный ИИ. Думаю, задача полноценной правильной конвертации Speech-to-Text без правильного полноценного понимания сказанного не решаема.

В том то и дело, что нет задачи понимания.
Если мы будем смотреть на ИИ, как на собеседника, то да, от ИИ нужно понимание, но у нас на другом конце сидит человек, он поймет :)

Тут такая аналогия — например вы разговариваете с не носителем языка.
Он путает падежи, неправильно ставит ударения, использует не совсем правильные слова, но вы же все равно его понимаете, понимаете что он хочет сказать, ну в 99% случаях.
То же самое и здесь — окончательную информацию воспринимает человек.

adictive_max 28 мая 2020 в 12:57

А как вы собрались передавать смысл без понимания смысла?

НЛО прилетело и опубликовало эту надпись здесь

Mobile1 28 мая 2020 в 08:13

Проблема сжатия голоса — это удаление шума из голоса, и шума окружающей среды. Это можно решить большим количеством микрофонов и алгоритмом отсечения шума.

НетЪ.
Нет проблемы сжимать голос, это не нужно.
Нужно передавать контент, который занимает очень мало места, а не звуки.
В этом принципиальная разница.
Много микрофонов есть у смарт спикоров -Alexa Echo, Яндекс. Станция и т.д.
Но они там используются для других задач.
Основная идея совсем другая — передавать контент из голоса, а не сам голос.
Голос потом восстановить на устройстве приема.

НЛО прилетело и опубликовало эту надпись здесь

kahi4 28 мая 2020 в 10:05

Помнится что скайп хочет улучшит качество аудио с испольщованием нейросетей. Но там не идет речь про s2t, а про удаление шумов и усиление голоса на рядовых микрофонах.

[новость на английском] (https://www.google.com/amp/s/venturebeat.com/2020/04/09/microsoft-teams-ai-machine-learning-real-time-noise-suppression-typing/amp/)

romanetz_omsk 27 мая 2020 в 21:39

Касательно канала связи. Звоню я на незнакомый номер первый раз в жизни. Там нет моего аватара. Сколько места должен занимать t2s аватар, или там коэффициенты для нейронки, чтобы реалистично воспроизвести голос? И когда он будет передаваться, учитывая, что канал связи заточен именно под передачу только текстового содержания речи (передача аватара потребует совершенно другой ёмкости канала). Это противоречие концептуальное. Комфортным считается установление соединения при звонке менее, чем за 1 секунду — и связано это с психологией человека, эту величину нельзя сильно увеличить. Для GSM канала это 13,6 кбит, для КВ — ещё меньше. В общем, это пока дело весьма далёкого будущего.

ZEvS_Poisk 27 мая 2020 в 21:54

Вы зачем то упомянули криптографию, но не упомянули помехоустойчивые коды. Например, код Рида-Соломона. Без исправления ошибок, чем сильнее сжат поток, тем меньшая ошибка приведет к большим искажениям.

Mobile1 27 мая 2020 в 22:11

Вы зачем то упомянули криптографию, но не упомянули помехоустойчивые коды. Например, код Рида-Соломона. Без исправления ошибок, чем сильнее сжат поток, тем меньшая ошибка приведет к большим искажениям.

О каких искажениях идет речь и о каких ошибках?
Подразумевается что на стороне А не будет ошибок, как слово было сказано, так оно и будет потом шифроваться.
Про избыточные коды для исправления ошибок мы сейчас не говорим, естественно все там будет по умолчанию.

-3

ZEvS_Poisk 27 мая 2020 в 22:45

В абзаце «немного теории» Вы написали, про аналого-цифровое преобразование, сжатие, шифрование, -канал передачи-, затем дешифрование, декомпрессия, цифро-аналоговое преобразование.
Но упустили важный момент — кодирование помехоустойчивыми кодами.

Mobile1 28 мая 2020 в 08:28

Я там много еще чего пропустил, подразумевая что это всем известно.
Зачем расписывать непринципиальные вещи?
Давайте еще структуру байтов будем описывать, а заодно все протоколы TCP, UDP и т.д.
Для меня важно было донести принцип, а не навалить кучу второстепенной технической информации…

Sergey-S-Kovalev 28 мая 2020 в 13:26

Принцип очень давно известен, но до сих пор не реализован. Странно, почему бы это.

Возможно Вы верите в магию ИИ, которой нет. Это нормально. В религиях тоже верят в тех кого нет.

ar2rsoft 27 мая 2020 в 21:59

Мне кажется будет не оправдан сэкономленный трафик по отношению к затраченным ресурсам на все эти преобразования. Вон с помощью 5G уже людей чипуют, а вот квантовый компьютер/смартфон еще далек от масс)

Gorthauer87 27 мая 2020 в 22:07

Сделайте лучше утилиту которая голосовые сообщения в чате в текст переводит, вот точно очень в жизни поможете.

helgp 27 мая 2020 в 22:12

И чего только не придумают, чтобы не учиться быстро печатать на клавиатуре!

ZEvS_Poisk 27 мая 2020 в 22:53

Цитата из википедии:

В 1930-х годах работник Bell Labs Хомер Дадли (Homer Dudley), работая над проблемой поиска путей для снижения пропускной способности, необходимой в телефонии, чтобы увеличить её передающую способность, разрабатывает VOCODER (сокращенно от англ. voice — голос, англ. coder — кодировщик) — управляемый с помощью клавиатуры электронный анализатор и синтезатор речи. Идея Дадли заключалась в том, чтобы проанализировать голосовой сигнал, разобрать его на части и пересинтезировать в менее требовательный к пропускной способности линии. Усовершенствованный вариант вокодера Дадли, VODER, был представлен на Нью-Йоркской Всемирной выставке 1939 года[3].

Вся страница на вики: ru.wikipedia.org/wiki/Синтез_речи

Революция в связи?

Mobile1 27 мая 2020 в 23:47

Вся страница на вики: ru.wikipedia.org/wiki/Синтез_речи

Революция в связи?

Вы действительно не видите разницы?
Вокодер — это Text To Speech, ситезированная речь, причем синтезированная искусственно.
Сейчас же все текст 2спич сделаны на основе какого-то реального голоса.
И это только один из элементов, причем самый простой, в этом концепте.
Я же говорю о способе передачи, когда предается вообще не голос, а семантика, причем посредством текста.
T2S, как впрочем и S2T — здесь просто кубики в конструкции.
Идея в другом.

-4

Wyrd 28 мая 2020 в 02:10

Вот почитайте https://m.habr.com/ru/post/446656/

Mobile1 28 мая 2020 в 08:23

Вот почитайте m.habr.com/ru/post/446656

Зачем вы ссылаетесь на еще один кодек с низким битрейтом?
Он как был кодеком, таким и останется, хоть обучи его нейронкой.

Вы действительно не видите принципиальной разницы?

В концепте предлагается совершенно иное — голосовые кодеки не нужны.
Вот это основная мысль, которую почему-то никто никак понять не может…

ZEvS_Poisk 28 мая 2020 в 00:57

Вы действительно не видите разницы?

Да. Я действительно не вижу разницы. У Вас так и сказано, речь в текст, а потом текст в речь.
И вот что непонятно:

… звуковые
колебания также оцифровываются, но не передаются сразу же другой стороне, а
преобразуются в текст (Speech To Text) и далее передается уже осмысленный текст от
абонента А...

Что означает осмысленный текст? Кто его осмыслил?
Абонент А?

Ведь люди коммуницируют между собой не звуками, а значением, контентом, семантикой, мыслями…

Как раз люди коммуницируют звуками. Но не только. Еще жестами. Что Вы понимаете под «контентом» я не знаю, так что пропущу. А вот насчет семантики и мыслей, категорически не согласен.
Человек не может передать мысль. Человек может свою мысль проассоциировать со словами, и это будет кодированием. Далее слова услышит другой человек, и возможно эти слова проассоциируются у него в схожие мысли. Я пишу «возможно» поскольку должно совпасть очень много условий, таких как контекст, знания обсуждаемого вопроса, словарный запас, знание языка и т. д.
Слова (и звуки как их модуляция) это данные. И люди передают друг другу эти данные, но не информацию (мысли). Для извлечения информации из данных, необходимо правило интерпретации. Такое правило есть словарный запас, тезаурус, и вообще опыт общения.

Mobile1 28 мая 2020 в 08:53

Я предлагаю не уходить в философские определения — кто и что как может интерпретировать и т.д.
В вашей вселенной люди общаются звуками, в моей — смыслами.
В вашей вселенной в книгах есть только буквы, в моей — мысли…

ZEvS_Poisk 28 мая 2020 в 12:34

В вашей вселенной люди общаются звуками, в моей — смыслами.

Если бы люди могли общаться смыслами, то не требовался бы язык, не требовался перевод с одного языка на другой. Общение смыслами — это телепатия, но я в нее не верю. А Вы верите?

В вашей вселенной в книгах есть только буквы, в моей — мысли…

В книге не может быть мыслей, мысль — это процесс протекающий в мозгу человека или животного, хотя насчет животного я не уверен.

ZEvS_Poisk 28 мая 2020 в 13:01

И еще:

Я предлагаю не уходить в философские определения — кто и что как может интерпретировать и т.д.

Есть такая наука: ru.wikipedia.org/wiki/Психолингвистика
Она как раз занимается связью между речью и смыслами. К философии она отношения не имеет.
Один из ее разделов: исследованием связи между речевыми сообщениями и характеристиками участников коммуникации (превращение намерений говорящего в сообщения, интерпретация их слушающим);

Mikeeeeeee 28 мая 2020 в 08:14

В спутниковой телефонии это давно реализовано.

Mobile1 28 мая 2020 в 08:17

В спутниковой телефонии это давно реализовано.

Это в какой спутниковой телефонии это реализовано?
Вы говорите о спутниковых терминалах?
Имели с ними дело?
Во большинстве спутниковых терминалов (iDirect, Huges и т.д.) стоит обычный VOIP шлюз со всеми вытекающими.

JekaMas 28 мая 2020 в 08:28

Опуская в сторону все очевидные сложности с подходом, я не увидел главного:
Какую проблему вы решаете? И существует ли эта проблема вообще?

Mobile1 28 мая 2020 в 08:46

Я не знаю почему вы ничего не увидели.
Проблема существует, если вы не знаете об этом, то я даже не знаю что вам и сказать…
Объяснение элементарных вещей как-то не входило в задачу этой статьи…

Полагаю что квази инвесторский надменный менторский подход также неуместен в рамках этой статьи…

-2

JekaMas 28 мая 2020 в 09:06

Поискал поиском, обозначения проблемы в статье не нашёл.
Что решаем?

Mobile1 28 мая 2020 в 09:56

Попробуйте еще, у новичков с первого раза не всегда получается…

-4

adictive_max 28 мая 2020 в 10:17

Вам так тонко намекают, что пытаться такими извращениями ужать поток, измеряемый в килобитах, когда на пороге «гигабит в каждом телефоне» — это проблема не особо-то актуальная.

Mobile1 28 мая 2020 в 10:30

Эта проблема всегда актуальная.
Если вы верите всем маркетологам и всей рекламе и лозунгам — то да, для вас этой проблемы не существует.
Если включать гойлову — то проблем вокруг много.

-1

adictive_max 28 мая 2020 в 10:46

Если включать гойлову, то вокруг много гораздо более важных проблем.

И о каких маркетологах и рекламе вы говорите? Вы сейчас сами ведёте себя как типичный маркетолог, пытающийся втюхать никому не нужную революционную хрень.
Я за минуту просмотра Ютуба трачу больше трафика, чем на всё голосовое общение за месяц. Чем ваша «революция в связи» принесёт мне столько пользы, что я её хотя бы замечу?

Mobile1 28 мая 2020 в 11:22

Если включать гойлову, то вокруг много гораздо более важных проблем.

дети в Африке голодают?

И о каких маркетологах и рекламе вы говорите?

Ну вы же упомянули о гигабите, это же маркетологи 5G в вас говорят

Вы сейчас сами ведёте себя как типичный маркетолог, пытающийся втюхать никому не нужную революционную хрень.

Если вы не заметили, я предложил просто обсудить концепт.
Поэтому и в заголовке зак вопроса.

Чем ваша «революция в связи» принесёт мне столько пользы, что я её хотя бы замечу?

Хомячки ничего не замечают, они просто пользуются.
Вы знаете как заморочился тот же Гугл, чтобы вы могли смотреть свой ютубчик?
Достаточно сказать что он в каждой (!) стране, у каждого (!) оператора поставил свои серваки, чтобы у вас все летало и задержка была минимальна.
Он заморачивается и выгружает контент ближе к вам, прямо в сеть вашего оператора.
CDN технология.
Так он экономит полосу.
Но он наверное тоже не знает что скоро будет 1G на всех и наступит счастье и все что делает было напрасно :)))
Но хомячкам лучше этого не знать, им неинтересно, им интересно другое.
Каждому свое.

-1

adictive_max 28 мая 2020 в 11:32

Вы знаете как заморочился тот же Гугл, чтобы вы могли смотреть свой ютубчик?

Ну вообще-то, если вы вдруг не заметили, я его и привёл как пример того, что реально имеет смысл оптимизировать.

Хомячки ничего не замечают,

Но хомячкам лучше этого не знать, им неинтересно, им интересно другое.

Знаете, с таким подходом вы даже что-то реально нужное никогда не продвинете. Такое презрительное отношение к людям, чьи проблемы вы собираетесь решать, ни на грамм не прибавляет веса вашим словам.

Если вы не заметили, я предложил просто обсудить концепт.
Поэтому и в заголовке зак вопроса.

Вы предлагаете обсудить не концепт, а непонятную абстрактную фантазию человека не разбирающегося ни в чём, что предлагает обсуждать, и не можете даже внятно сформулировать самый главный вопрос, «зачем оно нужно?».

Gourry_aka_pm 28 мая 2020 в 09:36

А пока что с задачей распознавания получения связного текста, особенно в шумных условиях, не справляется даже облачное распознавание, какое там локальное распознавание.

Mobile1 28 мая 2020 в 09:59

На самом деле справляется.
И даже с видео рекогнишен локально справляется, есть много компаний, которые это делают.

-1

dvserg 28 мая 2020 в 09:44

Есть большая проблема в осмысливании и преобразовании в «тегcд злофф собъезеднига», т.е. любое отклонение от шаблона — и смысловой анализатор уже не сможет победить ситуацию.
Думается модификатором идеи может стать выделение неких постоянных примитивов в звуковом потоке, и с использованием разных способов кодирования и сжатия ( методов Хаффмана и других столпов кодирования ) передавать данную информацию. Звуковыми примитивами могут быть данные [слот времени + стд. частотная функция + стд. огибающая функция]
ЗЫ может быть это уже и реализовано в каких-то кодеках?

Mobile1 28 мая 2020 в 10:04

Здесь основная идея — вообще уйти от кодеков.
Т.е. передавать значение, а не то какими звуками оно описано.

adictive_max 28 мая 2020 в 10:22

Т.е. передавать значение

Чтобы уметь предавать значение, а не просто переводить речь в текст, нужно, чтобы ваш кодировщик знал всё на свете. Вы правда считаете, что есть хоть одна практическая задача, для которой такое решение будет достаточно простое, чтобы вообще его рассматривать?

dvserg 28 мая 2020 в 12:12

Я указал на проблему по поводу анализа и преобразования в значение. А по поводу звуковых примитивов — можно создать их конечный набор, и между абонентами передавать только информацию о их коде. Это практически то-же самое, что и передача кода символа, только более универсально, и не привязано к конкретному языку. При этом возможна передача абсолютно любого звукового сигнала.

JuniorIPsec 28 мая 2020 в 10:18

Все такие критики хоть в даль беги, Автор приложил силы к статье и статья в полне себе несет инфорMацию, ставить такие оценки и критиковать это кощунство, даже не пытаетесь понять и поставить себя на Mесто автора!
Спасибо за статью было интерсно ознакоMится, не без критики обошлось но интересно!