Comments
Очень бы хотелось иметь качественную открытую оффлайновую систему распознавания русской речи для умного дома.
Спасибо за интересный обзор!
Обзор напоминает реферат, которые мы в универе писали. А как же попробовать их все и написать что-то от себя? Ну хоть какое-то сравнение и хоть какие-то ощущения от использования каждой из систем…
Тут были недавно уж посты про то, как работают аудио системы распознавания речи типа Sphinx и PocketSphinx Julius (недавно выходил но похоже автор удалил)
Общего разбора давно не было. Последний в 2009. Здесь цель стояла рассмотреть, что вообще есть сейчас.
UFO landed and left these words here
Распознавание русской речи только по звуковой дорожке, с большим словарём, в настоящий момент выполняется с точностью порядка 80% в модельных условиях (диктор в тихой комнате) и существенно меньше в условиях зашумления (при обработке телефонного звонка, к примеру). Этой точности достаточно, что-бы выделить в речи ключевые слова-маркеры и на их основе отработать. Примером такой системы является Елена, служба телефонной поддержки.

Однако, такой точности пока недостаточно, что-бы перейти к распознаванию связной речи для последующего анализа системами NLP.

Думаю, дополнительная информация о положении губ позволит здорово повысить точность распознавания речи. В идеале — это позволит разработать более совершенный механизм распознавания (сейчас распознавание проводится на основании метрики Левенштейна, что не позволяет использовать дополнительные «внешние» источники информации) для речи без поддерживающего видео. И вполне возможно — даже научиться читать по губам.

В общем, тема эта интересная, и по моей информации, отечественный поставщик речевых решений (Центр Речевых Технологий, Санкт-Петербург) открыт к сотрудничеству по интересным проектам.

Я этой темой тоже интересуюсь.

В общем, тема эта интересная, и по моей информации, отечественный поставщик речевых решений (Центр Речевых Технологий, Санкт-Петербург) открыт к сотрудничеству по интересным проектам.


Нифига он не открыт, я писал им раза 3 за последний год, они ни разу не ответили. Я думаю они работают только с оооочень крупными играками рынка, обычный обыватель со своими проектами им не интересен. Но даже в этом случае, не ответить хотя бы отказом с их стороны это свинство.
Нифига он не открыт, я писал им раза 3 за последний год, они ни разу не ответили.


К сожалению, так часто случается при «холодных» письмах и звонках. Я могу дать Вам контакт, который Вас явно не проигнорирует. Посетите этот сайт и напишите письмо интересующему Вас сотруднику ЦРТ.
Заметил, что уже не первая ваша статья на такую тему — с завидной частотой публикуете. Это части какой-то вашей работы?
Верно, это часть исследовательской работы, которая проводилась мной на базе Марийского Политеха (сейчас Волгатех), когда я был еще студентом. Старался в то время научно оформлять. Собирался в аспирантуру вначале. Но не сложилось. Нигде не публиковалось, а удалять не хотелось. Рукописи не горят.:) Вот и выложил. Много дров наломал, может кому-то и пригодиться.
Мне кажется, что есть некоторое обольщение опенсорсом.
Фреймворк может быть сколь угодно свободным и халявным, но где-то ещё надо раздобыть базы знаний — тысячи часов фонограмм с текстовой разметкой, построенные на их основе нейросети и марковские модели, отрегулированные подстроечные параметры.
И это уже, на самом деле, рокет саенс. Он чисто по объёму — рокет. Счёт идёт на терабайты.
Покажите мне опенсорсный источник хорошо структурированных терабайтов ASR русского языка. Где этот аттракцион невиданной щедрости?
Когда писал статью, сам был фанатом опенсорса и сидел на Убунту. Наивно верил, что вот оно будущее! Программа — это общественное достояние, не будут корпораций, все индивидуально. Статья пронизана этой юношеской романтикой молодости. Хоть и времени не так много прошло, но многое в моих представлениях поменялось однако. Аттракциона невиданной щедрости пока и не видно. А жаль.)
Ну, в недрах ЦРТ, Яндекса, Гугла, Нюанса, или в закромах ведущих университетов (СПбГУ, например) эти базы есть.
Поэтому если хочется серьёзно заниматься ASR — надо работать в фирме или дружить с кафедрой.

ЦРТ, кстати, ищет людей с горящими глазами и умелыми руками, так что велкам с резюме в наш отдел кадров.
Only those users with full accounts are able to leave comments. Log in, please.