Pull to refresh

Comments 37

Спасибо что написали эту статью а то я так и не собрался :D. От себя хочу добавить: этим летом в рамках GSoC я добавил поддержку использования Sphinx, как бэкенда для Simon (раньше он поддерживал толькко упомянутый вами Julius), который позволяет реализовать голосовое управление на довольно сложном уровне. Поддержка sphinx присутствует начиная с версии 0.4.
Думаю будет полезно упомянуть Simon в статье:). Также если у кого либо есть вопросы относительно него — могу постараться ответить:)
Напишите обзор Simon, покажите, как он работает с Julius и Sphinx, думаю, будет интересно.
Год 2015.

Видишь человека в Google Glass, кричишь «Поиск картинок, лошади **утся, показать все результаты» и убегаешь.

Забегаешь в офис к конкурентам, у которых голосовое управление на компах, кричишь «Судо эрэм минус эрэф хоум» и убегаешь.


А статья интересная, спасибо!
Да, но, как уже писалось, GG, скорее всего, будут привязываться к голосу владельца (возможно, функция отключаемая) и, вероятно, микрофон для команд будет направленный, а для записи будет использоваться другой, да и кодовое слово никто не отменял.

Ну а с офисом конкурентов — либо заметно позже 2015, либо, опять же, привязка к голосу, тогда вообще никогда)
Через год оживет в реинкарнации, имхо.
GG умер, да здравствует HoloLens!
Подготовка чемпиона мира по бегу?
Год 2015.

Чего-то пока не ходят люди в гугл-глассах.
>В 1997-ом году Лукьяненко пророчил для десктопа сочетание CLI и голосового управления
пока он там пророчил, такие программы во всю тестировались и обучались делать, то что просит пользователь. к сожалению не помню названия.
OS/2 4.0 имела встроенное голосовое управление, сносно работавшее на 486 процессоре. Шел 1996 год.
Гонево. Pentium-90 был в минимальных требованиях, но работало на нем хреново. Нормально работало где-то начиная с Pentium-200 и >32МБ оперативки.

А вот на счет 96 года, это правда.
AMD 5x86 160, хоть формально и являлся представителем 486 архитектуры, но в задачах не связанных с математикой легко уделывал P90.

У меня был именно такой, и голосовые команды вполне распознавались и выполнялись. О наборе текста под диктовку, конечно, можно было забыть.
Любой первый Pentium это 586. Любой 586 вне зависимости от вендора подходил. Про то, что 160 МГц лучше 90 в математике я не спорю :)
Нееее. В действительности всё не так как на самом деле :) 5x86 — это не 586, а маркетинг. И 160 в математике не лучше чем 90, а в точности наоборот, ибо в пнях был лучший по тем временам сопроцессор.
Я имел в виду тот факт, что в книге Лукьяненко технология голосового управления стала наряду с интерфейсом командной строки основным средством ввода, чего в жизни, как мы знаем, не случилось.
ну… смотря где :)
Спасибо огромное автору, вы как будто мои мысли угадали, когда я вчера с дочуркой на правой руке пытался код набирать левой :)
Пару часов танцев с бубнами в консоли? Да уж, юзер френдли… По-моему всё настолько печально, что дальше некуда.
Опять же советую обратить внимание на Simon:)
Вроде цель статьи была показать, что с голосовым управлением всё не так глухо. Ну знаете ли, сравнивая с голосовым управлением в Android, где так же есть полноценное распознавание речи, плюс оффлайновые данные для русского весят всего 20 мегов и ничего не надо треннировать и всё само работает искаропки и работает на железе заведомо слабее PC… Вобщем, Pocketsphinx — это глухо, очень глухо. Я бы сказал — epic fail. Такому проекту просто нет места под Солнцем (: Проекту уже более десяти лет, а он всё ещё в стадии зародыша. Ну уж извините…
Сфинкс программа не для конечного пользователя, а скорее фреймворк для построения этих програм. В этом качестве он успешно используется и для програм на Android & iOS (http://habrahabr.ru/post/170075/ &etc). И для десктопа (в частности Simon, к которому относилось мое замечание, и информацию о котором вы, вероятно не смотрели:) )
Для сфинкса также существует масса уже готовых языковых и акустических моделей, доступных для скачивания с их сайта.
Самостоятельно создание и адаптация предпологается только для спецефических целей.
Из статьи это не ясно абсолютно. Вобщем, мои претензии к автору тогда (:
А чего вы хотите от Сфинкса? Нажать одну кнопку, и чтобы после этого все работало и могло распознать «Войну и мир»? Пишите сами хороший гуй со всеми перделками или смотрите в сторону внезапно подвернувшегося Simon (действительно нужно протестировать).
Вы говорите, что на Андроиде все работает из коробки. Берем Сфинкс, берем готовые модели и словари и работаем, в чем проблема? Другой вопрос в том, что готовые модели и словари могут не устроить пользователя из-за недостатка или несоответствия лексики.
Тренировать не обязательно, это просто позволяет улучшить качество.
А скорость работы — почему вы с такой претензией отнеслись к Сфинксу? Лично вы работали с ним?
Почти офтопик — а путевый микрофон для этого дела не подскажите? Чтобы всю комнату средних размеров слышал.
Подскажите, можно ли где-то почитать подробнее про адаптацию для русского языка?
Добрый день!
Я пытаюсь запустить pocketsphinx_continuous c созданными мною lm и dic файлами, но программа требует определить еще и hmm или mdef, выдает error. Пытался запускать с уже имеющимися моделями, но у них другие фонемы, и от этого сыплются error-ы. Каким образом можно получить hmm или как обойти эти требования?
-hmm — путь к акустической модели, читайте выше. Естественно, без неё ничего работать не будет.
Получается, что ru4sphinx делает словарь только для определенной акустической модели? С имеющимися у меня (msu_ru_nsh и wsj1) не работает — так как в словаре оказываются фонемы, которые не используются в этих моделях.
Большое Спасибо за статью уважаемый!
Какую модель посоветуете использовать для распознавания русской речи? Ту что с voxforge? или Вы знаете какой то более полный словарь? В проекте ru4sphinx есть еще какой то словарь приличного размера. Как то можно их объединить для улучшения распознавания?

P.S. Тем у кого при запуске pocketsphinx_continuous, вылетает ошибка:
Failed to calibrate voice activity detection
1) Запишите звуковой файл снова, сделайте в начале паузу 4 секунды а затем уже начинайте диктовать.
2) Попробуйте снова адаптировать акустическую модель под себя
Могли бы Вы написать гид по адаптации акустической модели скачанной с voxforge?
Какой текст использовать? Как делать?
Для русской акустической модели
Sign up to leave a comment.

Articles

Change theme settings