antirek Jan 19 2015 at 18:46

Быстрый голосовой набор на Asterisk

3 min

25K

JavaScript*Node.JS*Asterisk*Development of communication systems*

+23

Comments 15

chemtech Jan 19 2015 at 20:05

Asterisk всё больше и больше набирает популярность — что не может не радовать!

sptm Jan 19 2015 at 20:30

Красиво. А насколько реально таким же образом сохранять текстовые «конспекты» звонков? Я имею в виду — что, если после разговора отправить его запись на распознавание — получим ли мы более или менее читабельный результат?

artzub Jan 19 2015 at 20:53

кстати да очень интересно!? Пробовали? Есть какие результаты?

sptm Jan 19 2015 at 21:03

Нет, к сожалению. Вот только пришла в голову такая идея, после прочтения поста. Планирую сейчас и попробовать.

nightvich Jan 19 2015 at 22:49

Классно! Спасибо.
По поводу записи диктовки, шансов на вменяемый текст — мало. Для примера, можно прочитать небольшой отрывок из любого текста. При длинном предложении распознавание начинает сильно тупить.

antirek Jan 20 2015 at 06:00

Для диктовки мне кажется надо использовать WebSpeechAPI
www.google.com/intl/en/chrome/demos/speech.html

nightvich Jan 20 2015 at 10:01

Да, WebSpeechAPI работает отлично! Взял на заметку.

antirek Jan 20 2015 at 05:44

Подписываюсь на результаты проб распознавания звонков.

У Яндекса в этом API есть ограничение на размер файла, но у них есть возможность загружать большие файлы отдельным образом — они мне даже python-скрипт присылали, который все типа правильно засылает к ним.

DemiurgeSerge Jan 20 2015 at 09:36

Подобная система.
Тоже на Asterisk сделана.

antirek Jan 20 2015 at 10:26

На базе технологий Центра Речевых Технологий. Если бы у ЦРТ был публичный HTTP API для распознавания (для синтеза речи у ЦРТ есть voicefabric.ru), то можно было бы к voicer'у прикрутить как яндекс и google.

Но… решение ЦРТ приобретается в виде MRCP-сервера и интегрируется через Asterisk Speech Recognition API ( wiki.asterisk.org/wiki/display/AST/Speech+Recognition+API), что приводит нас к несколько иному виду системы. Схема от ЦРТ www.speechpro.ru/files/product/barishnya/images/barishnya_837.jpg

Спасибо за наводку: ЦРТ открыл демо-доступ к Барышне, заценил интерфейс bar.speechpro.ru и примеры файлов грамматик bar.speechpro.ru/grammars/ALL.xml

В Барышне ведется учет обращений и топ популярных запросов на распознавание. Может добавить в voicer?

gbg Jan 20 2015 at 12:09

Не хватает подтверждения того, что имя распозналось верно. Как в Siri, например:

Фрагмент из ситкома \"Теория большого взрыва\", сцена с Siri

antirek Jan 20 2015 at 12:23

Тогда теряется скорость набора. Я, например, даже убрал приветствие, заменив ее коротким бипом. Бип, «Лёня Голубков мобильный», и пошел вызов. Или «попробуйте еще раз».

Но, в целом, часто действительно требуется подтверждение, поэтому можно отправить распознаное на TTS для получения записи. Для этого в моих npm-ках yandex-speech, google-speech есть и на TTS обертка.

DemiurgeSerge Jan 20 2015 at 17:25

Мы пользуемся внутри ЦРТ Барышней уже 4 года.
Могу сказать, что мы ее долго «пилили», что бы ей было действительно удобно пользоваться в реальной жизни.
Например, при ошибках распознавания мы ранее говорили об этом абоненту и предлагали повторить запрос, на это уходило 3-5 сек. Когда ты пользуешься системой каждый день по 50 раз, то знаешь наизусть все фразы и они сильно раздражают. Поэтому у нас сейчас вместо многих сообщений просто короткие но разные звуковые «бибигалки».
В результате у нас 2 версии системы: для внешнего мира и неподготовленного пользователя и для внутреннего пользования с максимально быстрым взаимодействием, без всяких «бла-бла». В этом случае она реально удобнее и быстрее DTMF.

antirek Jan 20 2015 at 18:08

И это я вам рассказывал в предыдущем комментарии как устроено взаимодействие Барышни с астериском? Больше не буду: )

В РЖД недавно встречал на одном из номеров 8-800 сервис проверки наличия билетов, и там есть распознавание станции отправления и прибытия. Это не технологии ЦРТ?

DemiurgeSerge Jan 21 2015 at 09:38

Да, это один из наших первых крупных проектов. Там стоит распознавание слитной речи. Можно в одном предложении сказать куда хотите поехать, откуда и когда и она вам зачитает список поездов и свободные места в них. Подробнее здесь.

Show the best of all time