Pull to refresh

Comments 17

Демо, как я понимаю, должно отобразить результаты распознавания? Если так, то оно не работает в браузере Google Chrome под Mac OS X.
Телепатия в пятницу слаба как никогда, но если поделитесь версией OSX, Хрома, скриншотом как оно выглядит когда не работает и гистом из консоли хрома — то мы все починим! Ну или, по крайней мере, попытаемся :) У меня на тестовой стабильной OSX и стобильном же хроме все работает — выбираю язык, разрешаю доступ к микрофону, диктую и с офигением смотрю как оно распознает надиктованное.
Григорий, Google Chrome version 54.0.2840.87 (64-bit) под macOS Sierra 10.12.2 Beta (16C41b). :)

Вот как это не работает:
1) Запускаю демо, разрешаю доступ к микрофону;
1) Выбираю любой язык;
2) Произносится приветствие;
3) После окончания диктовки нажимаю кнопку «Stop»;
4) Снова появляется меню выбора языка.

А вот, что выводится в консоль: https://gist.github.com/VadimGuslistov/a3540c35c6c180824b22c733342710f1
После окончания диктовки нажимаю кнопку «Stop»;


Скорее всего у нас вот в этом ошибка. Демо для разработчиков, Stop делает ровно то, что на нем написано — останавливает демо. А распознавание в реальном времени, начинает распознавать как только вы прекращаете говорить. Ожидаемы паттерн использования: выбрать язык, сказать что-нить, посмотреть как распозналось, сказать еще что-нить и так далее. Ничего нажимать больше не надо.
Григорий, я прекращал говорить :)

И даже не дышал. Но это не работает.
По логу похоже, что звук от вас не приходил на платформу, у вас одно устройство записи в системе?
UFO just landed and posted this here
Даже мысли не возникало, что может настолько круто распознавать русскую речь
Очень очень круто! Мы таки дожили )) А есть простой способ использования вашей инфраструктуры по распознаванию речи, без использования API? Вот есть у нас облачная телефония от Телфина и есть задача по прослушиванию входящих звонков от клиентов. Сейчас этим занимается отдельный человек и занимает у него это кучу времени. Он слушает звонок и фиксирует в таблице нужные особенности этого разговора. Хотелось бы просто загрузить аудио файлы к вам (или еще лучше через Zapier), оплатить и получить качественную транскрибацию. С текстом потом работать проще.
Пока в планах этого нет, к тому же качество может страдать при использовании не-loseless сжатия. Как вариант можете пропускать звонки через Voximplant по SIP и записывать + распознавать их на стороне платформы
А сразу в Телфин вы не пробовали с таким запросом обратиться?
Пока не обращался, но теперь уточню их планы. Мне aylarov в ЛС написал, что это возможно только посредством полного проксирования трафика через Voximplant. А я пока не уверен, что добавление лишнего звена — это хорошая идея. В плюсах — транскрибация. В минусах — увеличение сложности, повышение лейтенси и ещё одна потенциальная точка отказа. Дороговато получается.
В Телфине есть специальный раздел в интрасети под названием «В чем я отказал клиенту», туда складываются все клиентские запросы, которые не получилось удовлетворить, так что всегда есть смысл задать вопрос по недостающему функционалу, вопрос точно не потеряется.
Не очень понял, зачем вам полное проксирование. Вы же писали про распознавание записей уже состоявшихся разговоров. Для этого достаточно по событию завершения вызова получить файл с голосом и обработать его средствами гугл апи. Апи ВАТС позволяет выгружать записи, апи гугла делает распознавание. Осталось написать middleware, которое свяжет эти два механизма и сможет складывать текст в нужное вам место.
Спасибо, напишу в Телфин. О подобной схеме я и писал в первом комментарии. Понятно, что лучше делать это раз в месяц на уже записанных данных. Но вот Voximplant в таком качестве работать не умеет, только через проксирование. Я давно хочу иметь такой сервис, тот самый middleware, в который бы я отправлял по почте (или загружал через web) один или много звуковых файлов, а на выходе получал их расшифровку через какое-то время. Пока не нашел, хотя достаточно тщательно искал.
Вот такой сервис нашелся: https://speechmatics.com Оплачивается распознавание файлов по 10 сек. (минимум 1 минута = 6 кредитов = 6 руб.). Качество, на мой взгляд, не дотягивает до Google Speech API, но понять о чем идёт речь в разговоре можно. Нужные разговоры можно отдать на ручное прослушивание оператору.
Sign up to leave a comment.