Pull to refresh
24
0
Send message
Можно и так, и так. Если делать Forward-Backward, будет оценка вероятности для каждого, если Viterbi, то бинарно. На практике Viterbi обычно вполне достаточно, есть соответствующие статьи. Конечно, ошибки случаются (хотя измерить точную величину здесь очень сложно, это отдельная большая задача). Но при наличии достаточного объема данных их можно победить.
Expectation-M aximization как раз и нужен, чтобы вручную все не размечать. Действуем итеративно: начинаем с reasonable guess (например, равномерного выравнивания), дальше на каждом шаге делаем realignment. Начинаем с простых GMM моделей для простых фонем, потом постепенно усложняем модель и целевые параметры. В итоге получаем выравнивание приемлемого качества, выбрасываем все остальное и переходим на нейронки.

Размер тренировочной базы — порядка 300 часов.
Да, конечно. Скоро все будет, в том числе SpeechKit.
HTTP API находится в закрытом тесте. Если хотите присоединиться, пишите на speechkit@yandex-team.ru. Пожалуйста, укажите ожидаемый объем запросов в сутки, а также для каких целей планируете использовать.
Тогда, кажется, все понятно. Ваши голосовые запросы до нас просто не доходят (на английской локали сейчас включается встроенное андроидное распознавание). Если на русской локали все равно не будет работать, пишите, будем разбираться.
Да, странное поведение. Шум не должен мешать, по крайней мере, настолько (мы проводили тесты в разных условиях). Похоже, дело именно в специфике вашего устройства (или, что менее вероятно, интернет-соединения). А какая у вас локаль, кстати?

Пожалуйста, пришлите в личку ваш e-mail. Мы свяжемся с коллегами из Навигатора и постараемся вместе решить вашу проблему.

И спасибо за багрепорт :)
Можно попробовать. Пожалуйста, опишите симптомы: какое у вас устройство, какую версию Навигатора вы используете, что говорите в микрофон, и что вам возвращает наше распознавание. Можно в личку. Спасибо.
Спасибо! По поводу распознавания в условиях очень сильного шума — мы знаем об этой проблеме и уже в определенной степени продвинулись в ее решении. Конечно, это затрагивает пограничные случаи, когда и человек не всегда справляется с задачей распознавания.
В смысле просто распознать речь, записанную в файл? Конечно, разницы нет; как правильно говорят ниже, вопрос в наличии HTTP API.
Ну как вам сказать. В части HMM практически не устарел. В остальных — к сожалению, да, хотя книга остается хорошим, основательным, вводным пособием.

С другой стороны, хороший неустаревший учебник сходу я даже не назову. Неплохой обзор от 2008 года есть в Jurafsky&Martin, но там всего 4 главы посвящено собственно речи, да и такие ключевые на сегодняшний день технологии, как WFST и DNN, в контексте распознавания речи не упоминаются.

Вообще, в целом область сейчас развивается очень быстро, очень сложно зафиксировать state of the art. Думаю, учебники появятся, когда будет очередное затишье :)
Ваши аргументы вполне разумны. Тем не менее, нашей системой пользуется много людей (делаются миллионы запросов в неделю), а значит, она удовлетворяет реальную потребность :)

Что до систем пятнадцатилетней давности, то они решали совсем другую задачу — распознавание команд из весьма ограниченного набора, а не распознавание спонтанной речи со словарем в сотни тысяч слов.
Конечно, вы отчасти правы. Есть приложения, где необходима стопроцентная точность: например, диктовка юридических документов. Вероятно, там мы увидим распознавание речи нескоро.

Вместе с тем, есть очень много практических приложений, когда распознавание речи очень полезно: простейший пример — использование автомобильного навигатора, когда руки заняты. Другие известные приложения — системы «умный дом», автоматические колл-центры; нет никаких препятствий, чтобы использовать эту технологию для заказов в магазинах или ресторанах (и мы будем рады, если наш SpeechKit поможет реализации такой идеи).

И, конечно, совершенно отдельный разговор — люди с ограниченными возможностями по зрению. Для них технологии распознавания и синтеза речи буквально открывают новый мир.
конкретные детали раскрывать не могу, но идея хорошая :)
Мы думаем об открытии HTTP API.
Спасибо за совет, подумаем в этом направлении :)
Разумеется, мы сравниваем по нашей тематике — поиск в интернете (Мобильный Браузер) и геозапросы (Карты и Навигатор). Цифры для нашей системы приведены в посте; что касается других систем, то открытые данные, которые можно найти в статьях, сообщают о WER в диапазоне 15-20% для общего поиска (для английского языка). Видно, что мы как минимум попадаем в этот диапазон.

Распознавание новостей — конечно, тоже интересная и важная задача, но, как вы понимаете, там используется адаптированная именно к новостям языковая модель, да и акустика имеет свои особенности (относительно мало внешнего шума, большинство говорящих — профессиональные журналисты или дикторы).
Очень интересно. А у вас реализация с LSTM или без?

Не обещаю, что мы воспользуемся вашими наработками (и в любом случае свяжемся с вами отдельно, если захотим), но уверен, что сообществу пойдет на пользу публикация кода. Поэтому идею вашу целиком и полностью поддерживаю :)
1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Registered
Activity