mulai Jul 26 2011 at 13:50

Asterisk + UniMRCP + VoiceNavigator. Синтез и распознавание речи в Asterisk. Часть 1

9 min

30K

Центр речевых технологий (ЦРТ) corporate blogAsterisk*Development of communication systems*

+24

Comments 22

Voenniy Jul 26 2011 at 14:12

Очень интересно, как раз нужно было подобное решение!
Даже не ожидал, что есть готовый продукт.
Скажите пожалуйста, какова погрешность при распознавании ключевых слов и стоимость (хотя бы примерно) продукта?

mulai Jul 26 2011 at 14:27

Точность распознавания во многом зависит от грамматики, ее размера и сложности. На каких-то грамматиках точность будет 98%, на каких-то 85.
Стоимость зависит от количества одновременных каналов синтеза и распознавания. Информации по стоимости, думаю, лучше узнавать в ЦРТ:))

Voenniy Jul 26 2011 at 14:51

Да там по запросу. Конечно мы всё узнаем, просто хотелось бы предварительно ориентироваться, сможет ли такое решение затратам заменить (частично) call центр :)

RuniVlastelin Jul 27 2011 at 12:32

Класс!!! Не думал, что такое решение существует для Asteriska'a. Обязательно попробую реализовать по вашим примерам и с нетерпением жду следующих серий

foff4ik Jul 28 2011 at 01:13

Круто, это можно ему надиктовать '; DROP TABLE «Students»

foff4ik Jul 28 2011 at 01:26

А нет, неполучится, он же транслитом это все напишет :)

wGG Jul 28 2011 at 05:08

Напишите пожалуйста о максимальном количестве итемов в грамматике, передаваемой mrcp серверу (применительно к VoiceNavigator). С какой цифры задержки по обработке грамматики становятся неприемлемыми? Слышал о цифре в 300-400 слов/фраз. Существует ли возможность преодоления этих значений?

mulai Jul 28 2011 at 10:08

Как такового ограничения нет. При соответствующем тюнинге система может работать и с несколькими тысячами айтемов в грамматике.
Ограничение, о котором вы говорите, это возможность работать с xml-грамматикой налету. Да, действительно, при размере грамматики более 300-400 айтемов ее необходимо вручную конвертировать во внутренний формат VjiceNavigator и использовать уже отконвертированную грамматику. Конвертация ускоряет запуск процесса распознавания.

mulai Jul 28 2011 at 12:04

Сейчас конвертация осуществляется запуском соответствующей команды в командной строке.
В ближайшее время и эта необходимость отпадет, т.к. конвертер грамматик будет встроен в систему и они будут конвертироваться автоматически.

GKelpi Jul 28 2011 at 07:05

А как дела обстоят с английской речью, что есть из доступного?

mulai Jul 28 2011 at 10:10

VoiceNavigator поддерживает только русскую речь. Для английской есть множество других решений)

poison361 Aug 3 2011 at 00:11

Все опять же упирается в грамматику. Т.е. чтобы слово было распознано, оно должно быть предварительно описано. Это накладывает очень серьезные ограничения на систему. Ну вот объясните вы мне как так получается. У вас мега-сложная система, которая еще и требует серьезных вычислительных ресурсов для работы. А у меня в машине Hyundai штатная магнитола, которая без всяких обучений и описаний скачивает по bluetooth записную книжку с телефона и распознает фамилию и имя из телефонной книги, позволяя набрать его номер, не прикасаясь к телефону. Вот как там работает? Там ведь нет никакого описания грамматики. И точность распознавания, думаю, процентов 95. Да и мощности вычислительные более чем скромные. Так может вы не той дорогой идете, товарищи?

mulai Aug 3 2011 at 11:37

Мне кажется, вы не совсем понимаете о чем идет речь. Чтобы слово было распознано, его всегда надо предварительно описать. Я не знаю точно, как это сделано у вас в машине, но вашей программе ни что не мешает автоматически создавать собственную грамматику, получив записи из записной книжки, и проводить распознавание по этой грамматике. Вот если бы она все распознавала без скачивания информации из записной книжки;)

Распознавание слитной речи сейчас, конечно, популярный тренд, но до бытовых устройств оно дойдет очень не скоро.

Вообще, сравнивание данных решений, как минимум, некорректно. Это примерно как мопед и товарный поезд)). Распознавание голосовых команд для ПК и КПК давно есть, но с промышленными решениями их никто не сравнивает.

poison361 Aug 3 2011 at 12:25

Как по-вашему можно распознать без скачивания телефонной книги? Как тогда связать распознанную фамилию и имя с телефоном? Откуда-то ведь нужно узнать телефоны.
Я клоню к тому, что ЦРТ просто снимает сливки с растущего тренда, при этом явно не предлагая лучшие технологии, но за достаточно серьезные деньги. В любом случае, есть примеры, которые показывают, что есть системы, с которыми можно работать достаточно просто, загружая обычные текстовые данные и которые не требуют высоких вычислительных мощностей. В магнитоле явно процессор стоит не выше 600 Мгц. При этом он вполне корректно производит как распознавание, так и синтезирование речи. И это без всякого обучения или каких-то дополнительных ручных манипуляций.
Причем, вариант с заранее якобы забитым словарем фамилий не катит, ибо даже сложные не очевидные фамилии распознаются корректно.
Все же, не хочу бросать камень в огород ЦРТ. С точки зрения бизнеса они делают все правильно. Как говорят: «Стоя в речке только дурак не напьется». Если есть спрос и люди готовы платить столько, то почему бы не продавать. Реальных конкурентов, которые на слуху у них особо нет. К тому же они делают еще кучу очень серьезных продуктов, которые действительно стоят своих денег.
Со временем технология популяризируется, станет дешевле. Думаю, что сейчас цена на VoiceNavigator сильно завышена.
И зря Вы говорите, что технология распознавания в бытовые приборы придет не скоро. Она уже идет. Пример — штатные головные устройства автомобилей, как минимум новых Hyundai и Kia (просто я с ними столкнулся). Apple заключила договор с Naumen о внедрении их технологий в iPhone. В iOs 5 уже будет голосовое управление и можно будет человеческим языком говорить какое приложение запустить, какой трек проиграть или кому позвонить. Технологии развиваются гораздо быстрее, чем Вы думаете. Опять же, как альтернативу можно рассмотреть распознавание речи движком Гугла. Сейчас API официально не открыт, но пользоваться им можно как для распознавания, так и для синтезирования.
В любом случае, кто хочет поддержки и готов заплатить приличную сумму за (пусть и не самое прогрессивное), но зато готовое решение, тот обратиться к ЦРТ. Кто с руками и не готов платить за амбиции компании и псевдо-новизну технологии, явно сможет найти более дешевое и не обязательно худшее по качеству решение.
Последний абзац сугубо мое мнение.

mulai Aug 3 2011 at 13:55

И все таки мы говорим на разных языках и о решениях совершенно разного класса. Не надо сравнивать велосипед с поездом;)
Это разговор в стиле «Зачем покупать AVP, GVP или Cisco за такие огромные деньги, если есть Asterisk?»
Конкуренты есть и цена у них значительно выше, но, видимо, их имена вам ничего не скажут.

poison361 Aug 3 2011 at 12:38

Забыл добавить, что напрягает лично меня в решении ЦРТ не цена. А именно технология. То, что перечень ключевых слов изначально ограничен и они должны быть предварительно описаны. Поэтому я и называю это псевдо-распознаванием. Потому и привожу пример автомагнитолы, которая работает просто и нативно.
Возможно сейчас что-то изменилось, но когда я разговаривал с сотрудником ЦРТ мне сказали, что перечень слов, который будет распознавать система должен быть забит заранее. И что если я захочу этот перечень расширить, должен буду вновь обращаться к ЦРТ и платить денюжку. Либо, может и сам, но с большим геморроем. А у меня планировалось, что перечень ключевых слов должен был несколько раз в день меняться. Поэтому решение от ЦРТ подходит только для узкоспецифичных систем с небольшим и постоянным количеством ключевых слов. Если же перечень слов меняется часто, надо искать более прогрессивные технологии.

-1

mulai Aug 3 2011 at 13:59

Еще раз, это стандарт индустрии, а не выдумка ЦРТ.
Прежде чем продолжать диалог, пожалуйста, ознакомьтесь со стандартами и имеющимися решениями по построению голосовых меню.
Если вы найдете решение для call-центров, построенное на других принципах и технологиях я у вас его с удовольствием куплю))

poison361 Aug 3 2011 at 21:59

Я и сам куплю :) Есть интересные задумки, но вот с технологиями сложновато. И дело тут далеко не в деньгах. Наверное, Вы правы. Как говорят: «На каждый товар есть свой покупатель». Просто я хотел использовать технологию ЦРТ под свой проект, а они несколько разные задачи призваны решать. Я же не говорю, что ЦРТ делает плохой продукт. Для определенных целей он хорош. Что касается денег, не хочешь покупать продукт, покупай сервис, благо они его предоставляют.
Просто мне нужно было решение, которое не будет накладывать такие технологические ограничения.

mulai Aug 3 2011 at 14:01

Распознавание слитной речи только начинает развиваться и технология пока очень сырая для использования в enterprise-решениях.

mulai Aug 3 2011 at 14:06

>>А у меня планировалось, что перечень ключевых слов должен был несколько раз в день меняться.
Вы легко можете генерировать грамматики автоматически и их использовать. Перечень слов вносится в грамматику, но ничто вам не мешает этот перечень менять. Грамматика — это просто текстовый файл. Не надо ни к кому обращаться и нет никакого геммороя. Нужен любой текстовый редактор;)

poison361 Aug 3 2011 at 22:00

Некоторое время назад сотрудник ЦРТ мне представлял информацию несколько в ином ключе. От нее я и отталкивался. Возможно, уже многое изменилось. Возможно, сотрудник был не совсем в теме. Всякое бывает.

jorl Aug 4 2011 at 11:37

Уважаемый poison361!
Вы путаете мягкое с теплым. Никогда не задумывались, почему Google производит свое распознавание на сервере, а Ваш автомобиль распознает список контактов на встроенном ПК?
Сколько у вас фамилий в списке? 100? 200? И это даже не чисто фамилии, а пары Фамилия+Имя. Соответственно набор признаков для повышения достоверности распознавания увеличивается.
А это резко снижает потребность в вычислительных ресурсах.

Теперь по поводу того, что Вас напрягает. Мне сложно сказать, с кем Вы общались и как шел разговор. Тем не менее. Существует два типа грамматик. Закрытые и Открытые.
Закрытые грамматики характеризуются дословным распознаванием — то есть система будет требовать четкого произношения того, что заложено в меню.
Открытые грамматики создаются для более непринужденного разговора с роботом. Задача таких грамматик определить по содержанию фраз звонящего, что он хочет и вести звонящего в правильном направлении по веткам меню.

Теперь по поводу грамматик и распознавания в целом. Все распознавание строится на общих моделях русского языка. То есть в теории они распознают всю речь. Это то, что называется распознаванием слитной речи. Примером такого решения может служить продукт Nuance Dragon Naturally Speaking для английского языка.
Однако нужно понимать, что такое распознавание влечет за собой снижение достоверности и скорости работы из-за увеличивающегося объема словаря. Решается это только размещением сервисов распознавания на больший серверах в режиме SaaS. Чудес не бывает.

Чем правильней Вы построите с помощью грамматик ветки меню, сузив при этом словарь — тем достоверней будет результат и тем быстрее потребитель будет обслужен. А это прямая заинтересованность бизнеса в повышении доступности своего сервиса и качества предоставляемых услуг.

Фантазии о замечательном будущем — это очень хорошо. Есть куда стремиться.
Но мы живем здесь и сейчас.
Телеком стандарты придумываются не в России. И придумываются они людьми, которые очень хорошо знают, что делают и для чего они это делают.