Комментарии 18
Не хватает kaldi.sourceforge.net/.
0
Очень бы хотелось иметь качественную открытую оффлайновую систему распознавания русской речи для умного дома.
Спасибо за интересный обзор!
Спасибо за интересный обзор!
+2
Обзор напоминает реферат, которые мы в универе писали. А как же попробовать их все и написать что-то от себя? Ну хоть какое-то сравнение и хоть какие-то ощущения от использования каждой из систем…
+8
Тут были недавно уж посты про то, как работают аудио системы распознавания речи типа Sphinx и PocketSphinx Julius (недавно выходил но похоже автор удалил)
0
Общего разбора давно не было. Последний в 2009. Здесь цель стояла рассмотреть, что вообще есть сейчас.
+1
НЛО прилетело и опубликовало эту надпись здесь
Распознавание русской речи только по звуковой дорожке, с большим словарём, в настоящий момент выполняется с точностью порядка 80% в модельных условиях (диктор в тихой комнате) и существенно меньше в условиях зашумления (при обработке телефонного звонка, к примеру). Этой точности достаточно, что-бы выделить в речи ключевые слова-маркеры и на их основе отработать. Примером такой системы является Елена, служба телефонной поддержки.
Однако, такой точности пока недостаточно, что-бы перейти к распознаванию связной речи для последующего анализа системами NLP.
Думаю, дополнительная информация о положении губ позволит здорово повысить точность распознавания речи. В идеале — это позволит разработать более совершенный механизм распознавания (сейчас распознавание проводится на основании метрики Левенштейна, что не позволяет использовать дополнительные «внешние» источники информации) для речи без поддерживающего видео. И вполне возможно — даже научиться читать по губам.
В общем, тема эта интересная, и по моей информации, отечественный поставщик речевых решений (Центр Речевых Технологий, Санкт-Петербург) открыт к сотрудничеству по интересным проектам.
Я этой темой тоже интересуюсь.
Однако, такой точности пока недостаточно, что-бы перейти к распознаванию связной речи для последующего анализа системами NLP.
Думаю, дополнительная информация о положении губ позволит здорово повысить точность распознавания речи. В идеале — это позволит разработать более совершенный механизм распознавания (сейчас распознавание проводится на основании метрики Левенштейна, что не позволяет использовать дополнительные «внешние» источники информации) для речи без поддерживающего видео. И вполне возможно — даже научиться читать по губам.
В общем, тема эта интересная, и по моей информации, отечественный поставщик речевых решений (Центр Речевых Технологий, Санкт-Петербург) открыт к сотрудничеству по интересным проектам.
Я этой темой тоже интересуюсь.
+1
В общем, тема эта интересная, и по моей информации, отечественный поставщик речевых решений (Центр Речевых Технологий, Санкт-Петербург) открыт к сотрудничеству по интересным проектам.
Нифига он не открыт, я писал им раза 3 за последний год, они ни разу не ответили. Я думаю они работают только с оооочень крупными играками рынка, обычный обыватель со своими проектами им не интересен. Но даже в этом случае, не ответить хотя бы отказом с их стороны это свинство.
+1
Нифига он не открыт, я писал им раза 3 за последний год, они ни разу не ответили.
К сожалению, так часто случается при «холодных» письмах и звонках. Я могу дать Вам контакт, который Вас явно не проигнорирует. Посетите этот сайт и напишите письмо интересующему Вас сотруднику ЦРТ.
0
Заметил, что уже не первая ваша статья на такую тему — с завидной частотой публикуете. Это части какой-то вашей работы?
0
Верно, это часть исследовательской работы, которая проводилась мной на базе Марийского Политеха (сейчас Волгатех), когда я был еще студентом. Старался в то время научно оформлять. Собирался в аспирантуру вначале. Но не сложилось. Нигде не публиковалось, а удалять не хотелось. Рукописи не горят.:) Вот и выложил. Много дров наломал, может кому-то и пригодиться.
+1
Мне кажется, что есть некоторое обольщение опенсорсом.
Фреймворк может быть сколь угодно свободным и халявным, но где-то ещё надо раздобыть базы знаний — тысячи часов фонограмм с текстовой разметкой, построенные на их основе нейросети и марковские модели, отрегулированные подстроечные параметры.
И это уже, на самом деле, рокет саенс. Он чисто по объёму — рокет. Счёт идёт на терабайты.
Покажите мне опенсорсный источник хорошо структурированных терабайтов ASR русского языка. Где этот аттракцион невиданной щедрости?
Фреймворк может быть сколь угодно свободным и халявным, но где-то ещё надо раздобыть базы знаний — тысячи часов фонограмм с текстовой разметкой, построенные на их основе нейросети и марковские модели, отрегулированные подстроечные параметры.
И это уже, на самом деле, рокет саенс. Он чисто по объёму — рокет. Счёт идёт на терабайты.
Покажите мне опенсорсный источник хорошо структурированных терабайтов ASR русского языка. Где этот аттракцион невиданной щедрости?
0
Когда писал статью, сам был фанатом опенсорса и сидел на Убунту. Наивно верил, что вот оно будущее! Программа — это общественное достояние, не будут корпораций, все индивидуально. Статья пронизана этой юношеской романтикой молодости. Хоть и времени не так много прошло, но многое в моих представлениях поменялось однако. Аттракциона невиданной щедрости пока и не видно. А жаль.)
0
Ну, в недрах ЦРТ, Яндекса, Гугла, Нюанса, или в закромах ведущих университетов (СПбГУ, например) эти базы есть.
Поэтому если хочется серьёзно заниматься ASR — надо работать в фирме или дружить с кафедрой.
ЦРТ, кстати, ищет людей с горящими глазами и умелыми руками, так что велкам с резюме в наш отдел кадров.
Поэтому если хочется серьёзно заниматься ASR — надо работать в фирме или дружить с кафедрой.
ЦРТ, кстати, ищет людей с горящими глазами и умелыми руками, так что велкам с резюме в наш отдел кадров.
0
Зарегистрируйтесь на Хабре , чтобы оставить комментарий
Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода