Эксперимент интеграции видео расширения в систему аудио-распознавания речи / Комментарии / Хабр

alltiptop 1 авг 2014 в 02:26

Распознавание речи по движению губ отлично, но несколько не подходит в случаях отсутствия камеры. Любопытно — почему современные системы синтеза и распознавания речи мало отличаются от подобных лет 10 назад? Алгоритмы и некоторый % может и продвинулись, но как слышал прерывистого робота из фильмов 60-х, так и слышишь, тебя понимают тоже не лучше? Тот же гугл до сих пор пытается сопоставить сказанное со словарями, и если у него нет «абырвалг», то он при любых попытках и произношении его не напишет, как бы ты не старался.

Зато можно распознавать по губам без звука

RealSpeaker 1 авг 2014 в 10:17

Действительно, Вы правы различий между решениями десяти летней давности мало. Только технологии стали мощнее, базы перенесли в сервер, словарь пополнился, появились более качественные микрофоны с встроенными системами шумоотчистки. Но в целом и общем главенствует математический подход. Когда есть голосовой запрос и нейронная сеть сравнивает свои значения с накопленной базой данных, выбирая наиболее релеватное решение на основе статистического анализа. Системы распознавания речи еще не научились должным образом понимать контекст и осуществлять дораспознавание на основе определение смысловой нагрузки слов диктора. Видео конечно может быть подспорьем. Однако, например чтение по губам — это только 15-25% информации. Те кто занимался изучением этой техники у глухонемых может подтвердить, что человек таким образом воспринимает около 20% информации. Остальное он домысливает исходя из своего опыта. Научить это же самое компьютер очень не просто (так как у него такого опыта нет). Поэтому на текущем этапе было принято решение использовать видео как средство улучшения на уровне ввода информации, чтобы хотя бы более точно определить речь диктора и сделать предварительную шумоотчистку.