Pull to refresh

Comments 29

Там правда браузер должен быть всегда в фокусе, иначе голосовой ввод отключается.
Да не работает этот API нормально. В свое время прикрутил Web Speech API для распознавания записей Call-центра, чтобы можно было анализировать качество ответов операторов без прослушивания каждой записи. Думали, прочитаем расшифровку разговора, и поймем: есть ли косяки и нужно ли переслушивать уже детально. Но качество таково, что понять даже смысл разговора не получается. Выглядит расшифровка воn так (звездочками заменил все персданные, и это — прям реальный разговор вчерашнего дня). Текст сохранен именно в такой форме, как он возвращается из API. Разбивку на фразы — тоже делает Google, точнее — пытается.

  • Здравствуйте Вы позвонили в интернет магазин **** Меня зовут Юрий нас не могу вам помочь Я хотела спросить Просто я сделал заказ и Перенесли доставку Они снимают доставление можно как-то проверить на пункт самовывоза могу я заехать забрать или его ещё ко мне скажите пожалуйста как я поняла вы пункт самовывоза заказов потом позвонили сказали что у меня больше не фармации какой-нибудь полмесяца ночь не успевая и поехала к животному значит Скажи погоду на Лукина 1 с
  • слушать прямо на дракончика когда посмотри уродина ***** ****** до 1 1 ЛСР
  • Светлана 1 с
  • хорошо есть возможность заказа тошнить
  • Мутко
  • Скажи пожалуйста относительно вашего заказа Вам пришло сообщение о том что она Он поступил в комп самовывоза это название он ничего не пришло хорошо договоримся доставки На какой день было ** ** да да
  • прошу минуту пожалуйста оставайтесь на линии 2 связаться с руководителем уточнить формат исполком заказа
  • да да да да да ты поняла запрос сейчас позвонить в детскую службу узнаю по поводу наличие перезвоню когда вам хорошо спасибо пожалуйста


Ну и что из этого можно понять? :) Список «плюс»-слов естественно сформирован и передается в Web Speech API, но совершенно не помагает.
Ну и что из этого можно понять?
«что у меня больше не фармации» — «что у меня больше нет информации»
«заказа тошнить» — «заказ уточнить»
«комп самовывоза » — «пункт самовывоза»
?
Это частности. А вот суть разговора можете понять? О чем это? Попробуйте выдвинуть гипотезу, я потом расскажу правду. :)

Ну и плюс — конечно, догадаться о каждой фразе можно. Вопрос только что быстрее: пытаться в голове декодировать этот текст, или потратить 3:23 на прослушивание записи? Ведь задача была быстрее, чем при прослушивании, понимать, насколько корректно оператор Call-центра отрабатывает скрипт.
Видать, в телефонном канале для экономии режутся звуковые частоты, на которые заточенный на компьютерный микрофон алгоритм во многом полагается. Наверно, можно поэкспериментировать, но практической пользы мало — не будешь же все аудио обрабатывать.

Тут речь идет о том как аудио файл с речью преобразовать в текст.

Со звуковыми картами Realtek устанавливать драйвер не нужно, достаточно включить «Стерео микшер» в приложении «Звук», в разделе «Запись».
как вариант — залить в ютуб как видео и включить автоматические субтитры.
UPD: теперь субтитры скопировать как текст нельзя(или сложнее чем раньше), раньше была возможность скопировать их как текст
youtube-dl во встроенной справке заявляет, что может записывать файлы субтитров, в т.ч. автогенерированных.
Не только заявляет, но и эта фича реально работает. Сабы могут как встраиваться в файл, так и ложиться рядом. Например, команда --skip-download --sub-format vtt --write-sub скачает только субтитры в формате vtt
Очень интересно, как можно переводить звуковую речь в текст.

Я переводчик и мне нужно переводить субтитры для видео на YouTube. Так как владелец оригинального видео не даёт мне субтитры автоматом (по разным причинам), пока у меня порядок работы такой:
1. Скачать видео.
2. Залить на свой аккаунт как Unlisted.
3. Подождать пока YouTube сгенерирует автоматические субтитры на выбранном языке.
4. Перевести файл субтитров.
5. Отдать владельцу оригинального видео переведенный файл.

Когда-то искал программку для распознавания речи в скачанном файле видео на моём компе, но так и не нашёл.

Спасибо за информацию про речевой ввод в GoogleDocs. Пригодится в других аспектах моей работы.

Да! Без разницы откуда брать аудио сигнал с речью. Главное, чтобы он был по возможности чистым, без побочных звуков и широкополосным. ( Не сжатым)

Можете просто скачать субтитры с оригинального видео с помощью youtube-dl, пример командной строки приведён выше.
Вы пишете что VB-Cable OpenSource — но я честно говоря нигде не нашёл упоминаний об этом. Где же исходники?

Главное, что он бесплатен.
"Установите драйвер VB-CABLE (Donationware)
Virtual Audio MME, DX, KS, драйвер устройства WDM (от XP до WIN10 32/64 бит)
VBCABLE_Driver_Pack43.zip (1.09 MB — OCT 2015) Нажмите здесь, чтобы загрузить с альтернативного веб-сайта. УСТАНОВКА: Извлеките все файлы из ZIP и запустите программу установки в режиме администратора (перезагрузитесь после установки или деинсталляции). Если вы нашли VB-CABLE полезным, вы можете пожертвовать и получить два других виртуальных аудиоустройств: VB-CABLE A + B. "

Для кого-то важно и именно чтобы было OpenSource.

Из опыта — данный конкретный вариант виртуального кабеля действительно один из лучших, но иногда странно багует.
Давно уже использую гугл переводчик, как распознаватель речи. Часто требуется в переводах, если не могу разобрать, что говорят.
Результат — тот же. Но, было в отличие от предыдущего — объяснение.

На speechpad'e в меню сайта есть пункт «Видео-уроки», в котором, в том числе, и про виртуальный кабель рассказано.

Интересно только одно, почему драйвер платный? Тут описан способ как это делать бесплатно. lifehack. Кстати speechpad'e я попробовал воспользоваться в демо версии но, ничего не вышло. Подскажите почему? Может не заплатил ?

Интересно только одно, почему драйвер платный?
Не понимаю вопроса. И у вас в статье, и в видео-уроке на speechpad'e есть ссылка на бесплатный драйвер.
Кстати speechpad'e я попробовал воспользоваться в демо версии но, ничего не вышло.
Может галки какие-то не поставили, или язык не тот выбран; у меня работает более чем нормально. Попробуйте разработчику написать, он вроде откликается — по крайней мере, по поводу мобильного приложения мы с ним переписывались немного. Я сам лишь месяц-два назад на этот сайт наткнулся.
Я просто включаю Гугл Докс и кладу диктофон на микрофон.

а если надо переводить английскую речь с Вайбера Скайпра Ватсапа на ПК, чтобы понимать, что тебе говорят то, что надо использовать?

Sign up to leave a comment.

Articles

Change theme settings