Как стать автором
Обновить

Комментарии 27

ни одной ошибки распознавания названия игральной карты за время игры не произошло
«Трифоновой король», как на картинке, больше не появлялся?
Да, трифоновый это было. Но в игре я парсил слоги чер-, чир-, буб-, кре-, кри-, пик-, треф-, триф, троф-, кор-, кар-, да-, вал-, вол-, ту-.

Числительные не проверял — Яндекс их возвращает в цифрах, если находит.

И, честно говоря, в игре не произносит масти прилагательными — говорил семь трефей. Или семь треф. Вместо трефей иногда приходил трофей, трифона не было)
А расскажи про саровский движок, а? Особенно интересно, что там было ещё в 12-м. Насколько я помню, у вас какие-то нереальные лайфхаки использовались для длинных текстов.
Не могу — коммерческая тайна.
А нет софта чтобы записанный звук на своём компе распознавать? Чтобы стенограммы всякие из записи делать, короче. Скорость распознавания практически некритична, хоть пусть час голоса за день распознаёт.
Google — движок распознает свыше 80 процентов русской речи и для некоммерческого использования бесплатен (был). Но я им лично не пользовался, лишь читал в обзорах и наблюдал у коллеги год назад. Подробностей не знаю, может кто в комментариях разъяснит.
Движок распознавания Google официально нигде не описан, то есть по сути нет у них API, но дотошный народ его раскопал.
Купить гугловое распознавание тоже нельзя, просто нет нигде формы с кнопкой КУПИТЬ.
В версии V1 Google ASR все было бесплатно, пару мес. назад V1 закрыли и появилась версия 2, там стал нужен API ключ, который можно получить у гугла, но с ограничением в 50 запросов на распознавание в день, получить больше лимит просто нереально, ссылка на это ведет в Google Drive который доступен только под корпоративным акаунтом.
Гугловское распознавание полностью бесплатно и неограниченно для сторонних приложениях только под Android…
Ключевое слово: только под Android, под Windows и Linux если использовать www.google.com/speech-api/v2/recognize то там ограничения и нет официальной документации о существовании этого API
Скажите, из того что использовали для распознавания, что оказалось точнее всего? Неужели правда стоит переходить на Яндекс?) Не пробовали Nuance Dev?
Хоть вопрос и не ко мне, но на iphone-ipad яндекс показывает себя очень неплохо для поисковых запросов, хорошо так же распознает и не очень распространенные русские фамилии. Из аналогов, работающих по статистической модели и поддерживающий русский — Nuance Dragon Dictation — дороже и зачастую не может распознать (что естественно) имена и фамилии.
Еще есть Nuance VoCon Hybrid — там гибридная модель распознавания — распознается одновременно на устройстве по грмматике и в облаке (диктовка) — качество повышается в разы. Но очень сложная интеграция. Вроде как они обещались запустить VoCon Hi — должно стать резко проще.
Для задачи, описанной в статье, не обязательно использовать диктовку. Можно было бы использовать распознавание по грамматике, например, проект с открытым кодом pocketsphinx и его порт под ios. Точность повышалась бы до 90-95 процентов. И при этом не нужен был бы сервер.
Да, кстати, а почему вы хотели использовать именно серверный яндекс??
Для вашей задачи можно было бы прикрутить тот же poscketsphinx. www.politepix.com/openears/ Написать простую грамматику, которая распознавалась бы с точностью 95% и со скоростью в несколько десятков миллисекунд без сервера прямо на устройстве.
Спасибо, morfeusys, прикручу грамматику и попробую.
Но только учтите — это требует некоторого погружения в тему распознавания — нужно будет все правильно сконфигурить, подсунуть русскую аккустическую модель, разобраться с синтаксисом транскрипций для слов в словаре и тд. В этом плане это не просто сделать запрос и получить ответ от сервера.
Скажите, а вы бы не могли написать топик на хабре про это? Интересная тема, да ещё и с практическим применением.
В принципе мог бы. Но я могу компетентно описать весь этот процесс только под Android… Если это будет интересно…
Будет, конечно.
Ну вот собственно я написал запрошенный вами топик — http://habrahabr.ru/post/237589/
Надеюсь, будет полезен.
Спасибо, уверен, хабросообщество также оценит.
В нашем движке используется акустическая модель с похожим синтаксисом, что идеально для сравнительного анализа работы библиотек.
А о каком вашем движке вы говорите? В смысле, в статье я увидел только описание работы с яндекс speechkit.
Да есть тут, за соседней стенкой сидят, вышли из Intel. Для американцев делали распознавание на английском и китайском, теперь пилят русский язык. Больше сказать не могу.
Скажем так — не синтаксис аккустической модели, а формализм для описания грамматики. Скорее всего ваша система использует jsgf. Но для описания транскрипций используется либо worldbet, либо еще что-то.
Пришлось повозиться — в нашем корпусе синтаксис слогов русский, а в открытые-уши синтаксис — английский, что вызывает трудности для многих фонем.
Спасибо за интересную и подробную статью об интеграции нашего сервиса распознавания :)
Можете написать, с какой ошибкой вылетает пример? У меня такая же нога, и не болит версия Xcode, и примеры стабильно работают на разных девайсах и симуляторах.
Кстати, задержку можно существенно уменьшить, если отправлять звук на сервер по мере его записи (Chunked transfer encoding). SpeechKit именно так и делает.
Привет, про задержку я знаю (использую тег chunk в заголовке запроса). Я написал ответ с кодом ошибки в службу поддержки yandex, можно ли общаться напрямую?
Да, получил ваш ответ. Давайте общаться через техподдержку — обычно так удобнее.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий