Pull to refresh

Comments 15

Asterisk всё больше и больше набирает популярность — что не может не радовать!
Красиво. А насколько реально таким же образом сохранять текстовые «конспекты» звонков? Я имею в виду — что, если после разговора отправить его запись на распознавание — получим ли мы более или менее читабельный результат?
кстати да очень интересно!? Пробовали? Есть какие результаты?
Нет, к сожалению. Вот только пришла в голову такая идея, после прочтения поста. Планирую сейчас и попробовать.
Классно! Спасибо.
По поводу записи диктовки, шансов на вменяемый текст — мало. Для примера, можно прочитать небольшой отрывок из любого текста. При длинном предложении распознавание начинает сильно тупить.
Да, WebSpeechAPI работает отлично! Взял на заметку.
Подписываюсь на результаты проб распознавания звонков.

У Яндекса в этом API есть ограничение на размер файла, но у них есть возможность загружать большие файлы отдельным образом — они мне даже python-скрипт присылали, который все типа правильно засылает к ним.
На базе технологий Центра Речевых Технологий. Если бы у ЦРТ был публичный HTTP API для распознавания (для синтеза речи у ЦРТ есть voicefabric.ru), то можно было бы к voicer'у прикрутить как яндекс и google.

Но… решение ЦРТ приобретается в виде MRCP-сервера и интегрируется через Asterisk Speech Recognition API ( wiki.asterisk.org/wiki/display/AST/Speech+Recognition+API), что приводит нас к несколько иному виду системы. Схема от ЦРТ www.speechpro.ru/files/product/barishnya/images/barishnya_837.jpg

Спасибо за наводку: ЦРТ открыл демо-доступ к Барышне, заценил интерфейс bar.speechpro.ru и примеры файлов грамматик bar.speechpro.ru/grammars/ALL.xml

В Барышне ведется учет обращений и топ популярных запросов на распознавание. Может добавить в voicer?
Не хватает подтверждения того, что имя распозналось верно. Как в Siri, например:
Фрагмент из ситкома \"Теория большого взрыва\", сцена с Siri

Тогда теряется скорость набора. Я, например, даже убрал приветствие, заменив ее коротким бипом. Бип, «Лёня Голубков мобильный», и пошел вызов. Или «попробуйте еще раз».

Но, в целом, часто действительно требуется подтверждение, поэтому можно отправить распознаное на TTS для получения записи. Для этого в моих npm-ках yandex-speech, google-speech есть и на TTS обертка.
Мы пользуемся внутри ЦРТ Барышней уже 4 года.
Могу сказать, что мы ее долго «пилили», что бы ей было действительно удобно пользоваться в реальной жизни.
Например, при ошибках распознавания мы ранее говорили об этом абоненту и предлагали повторить запрос, на это уходило 3-5 сек. Когда ты пользуешься системой каждый день по 50 раз, то знаешь наизусть все фразы и они сильно раздражают. Поэтому у нас сейчас вместо многих сообщений просто короткие но разные звуковые «бибигалки».
В результате у нас 2 версии системы: для внешнего мира и неподготовленного пользователя и для внутреннего пользования с максимально быстрым взаимодействием, без всяких «бла-бла». В этом случае она реально удобнее и быстрее DTMF.
И это я вам рассказывал в предыдущем комментарии как устроено взаимодействие Барышни с астериском? Больше не буду: )

В РЖД недавно встречал на одном из номеров 8-800 сервис проверки наличия билетов, и там есть распознавание станции отправления и прибытия. Это не технологии ЦРТ?
Да, это один из наших первых крупных проектов. Там стоит распознавание слитной речи. Можно в одном предложении сказать куда хотите поехать, откуда и когда и она вам зачитает список поездов и свободные места в них. Подробнее здесь.
Sign up to leave a comment.

Articles