Comments 6
Распознавание речи по движению губ отлично, но несколько не подходит в случаях отсутствия камеры. Любопытно — почему современные системы синтеза и распознавания речи мало отличаются от подобных лет 10 назад? Алгоритмы и некоторый % может и продвинулись, но как слышал прерывистого робота из фильмов 60-х, так и слышишь, тебя понимают тоже не лучше? Тот же гугл до сих пор пытается сопоставить сказанное со словарями, и если у него нет «абырвалг», то он при любых попытках и произношении его не напишет, как бы ты не старался.
Зато можно распознавать по губам без звука
Действительно, Вы правы различий между решениями десяти летней давности мало. Только технологии стали мощнее, базы перенесли в сервер, словарь пополнился, появились более качественные микрофоны с встроенными системами шумоотчистки. Но в целом и общем главенствует математический подход. Когда есть голосовой запрос и нейронная сеть сравнивает свои значения с накопленной базой данных, выбирая наиболее релеватное решение на основе статистического анализа. Системы распознавания речи еще не научились должным образом понимать контекст и осуществлять дораспознавание на основе определение смысловой нагрузки слов диктора. Видео конечно может быть подспорьем. Однако, например чтение по губам — это только 15-25% информации. Те кто занимался изучением этой техники у глухонемых может подтвердить, что человек таким образом воспринимает около 20% информации. Остальное он домысливает исходя из своего опыта. Научить это же самое компьютер очень не просто (так как у него такого опыта нет). Поэтому на текущем этапе было принято решение использовать видео как средство улучшения на уровне ввода информации, чтобы хотя бы более точно определить речь диктора и сделать предварительную шумоотчистку.
Только хотел написать «Это очень похоже на RealSpeaker», потом увидел автора.

Only those users with full accounts are able to leave comments. Log in, please.