OBIEESupport 9 ноя 2020 в 18:58

Как научить бабушку писать мемуары на самоизоляции с помощью VOSK-API. «Речь в текст» спешит на помощь

10 мин

7.4K

Машинное обучение*

Recovery Mode

Комментарии 4

stanislav_as 11 ноя 2020 в 11:38

Спасибо за интересную статью. VOSK – отличный проект. Попробуйте ещё наше распознавание: github.com/sovaai/sova-asr
Будем благодарны за обратную связь: мы только недавно его выпустили в Open Source, и готовы добавлять фичи, нужные сообществу.
Вот тут мы рассказывали о разработке SOVA ASR: habr.com/ru/company/ashmanov_net/blog/523412

Плюс у нас есть и синтез речи: github.com/sovaai/sova-tts

OBIEESupport 11 ноя 2020 в 13:21

Спасибо за комментарий!
Ваши статьи и продукт мне известны. На текущий момент самые большие и нужные фичи — простота настройки, скорость потоковой обработки и вывод в пригодную для пользователя форму при многоязычном (многодиалектном) распознавании. Указанные в статье задачи подсказаны самими пользователями — поэтому для каждого нового продукта я тестирую прежде всего их. Это, с одной стороны, очень близко к чат-ботам, о которых вы пишете в ваших статьях, но имеет свои особенности при применении технологии AI в массовом секторе или в серверном варианте.
Общая проблема всех систем, затронутых во всех статьях на Хабр — ориентированность на узкоспецифический «телефонный» рынок. Более того, создание железок под него китайскими фирмами может давать немного неверное представление о самой технологии.
Чем больше мы идем к пользователю, тем интереснее становятся задачи.
Поэтому на ваш (и другие продукты) я бы пристальней посмотрел с этой точки зрения.
Но если вы готовы создавать «киллер-фичи» и добавлять их в Open Source проект с задержкой год-два — то это уже повод для новых обзоров и внедрений.

maxwolf 31 янв 2022 в 12:50

Спасибо за статью! Жаль, что не увидел её сразу после выхода… У меня вопрос на комплиментарную тему, относительно «голоса любимого родственника»: можно ли с помощью VOSK-API сделать профиль для какого-нибудь синтезатора речи? Т.е. надиктовать ему какой-либо текст, чтобы синтезатор на его основе стал «говорить моим голосом»?

OBIEESupport 31 янв 2022 в 13:02

Добрый день! Спасибо за отзыв! Я так подробно пока не тестировал, точнее, говорилку брал из статьи от незрячего программиста о его голосовом помощнике. Она здесь есть точно, поэтому я о профиле и не задумался. Стояла задача сравнить голос на одном и том же языке, говорящий одно и тоже слово - вот она решается VOSK-API и описана в статье. И еще, скоро будет CUDA! И это снова часы работы по тестированию. Но я очень и очень рекомендую.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Как научить бабушку писать мемуары на самоизоляции с помощью VOSK-API. «Речь в текст» спешит на помощь

Комментарии 4

Публикации

Истории