Pull to refresh
7
0
Александр Денисенко @AlexanderDenisenko

Speech Recognition

Send message

Я просто видел пару презентаций распознавания эмоций по речи … и там всегда написано про 99%+

На заборе тоже много чего написано. Поделитесь конкретными статьями или продуктами? Я бы с радостью почитал

Из опенсурса есть репа с нашим датасетом Golos, языковой и акустической моделью, можете посмотреть: https://github.com/sberdevices/golos

И посвящённая им майская статья на Хабре для пояснения: https://habr.com/ru/company/sberdevices/blog/559496/

Добрый день! В архивах есть jsonl-файлы, содержащие аннотацию

Добрый день!


  1. Эти записи получены со смартфонов, никаких особенных ограничений мы не накладывали
  2. В датасете есть отдельные tsv-файлы для 100/10/1 часов и 10 минут. Это сделано, например, для того, чтобы погонять пробные эксперименты и быть уверенным в своих пайплайнах перед запуском обучения на всём датасете
  3. Нет, мы никак не используем информацию об ударении

Количество уникальных голосов — тысячи, мб есть 10 тысяч.
Неа, такие эксперименты не проводили

Обученная модель, которую мы выложили в открытый доступ, это модель распознавания речи (ASR, Speech-To-Text).
Если хочется слушать книжки — то можно обучить на этих данных свою Text-To-Speech модель — хотя это может быть нетривиально, ведь тут большое количество разных спикеров. Либо можно попробовать TTS-модель от Сбера на https://sberdevices.ru/smartspeech/

Ну почему же вы отрезаете часть предложения? Оно выглядело так ;)


На текущий момент это самый большой корпус аудиозаписей на русском языке, размеченный вручную
Конечно, мы пробовали системы автоматической транслитерации — хотя и в основном для других целей, нежели для генерации точной транскрипции на кириллице. Качество нас не устроило, на таком было бы не сделать хороший ASR-датасет, мы хотим иметь максимально чистый датасет. Нас интересует в первую очередь транскрипция именно того, что произнесено на аудиозаписи. Если речь заходит о музыкальных исполнителях — то ни у какой системы автоматической транслитерации нет шансов, нужно слушать аудиозапись.
Следующие исполнители/песни как экстремальный пример: 24kGoldn, 6lack, xo tour llif3.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity