Comments / Profile of AlexanderDenisenko / Habr

Александр Денисенко @AlexanderDenisenko

Speech Recognition

Profile Publications 1Comments 8Bookmarks

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке

AlexanderDenisenko Feb 8 2023 at 17:02

Я просто видел пару презентаций распознавания эмоций по речи … и там всегда написано про 99%+

На заборе тоже много чего написано. Поделитесь конкретными статьями или продуктами? Я бы с радостью почитал

Look

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

AlexanderDenisenko Apr 1 2022 at 15:27

Из опенсурса есть репа с нашим датасетом Golos, языковой и акустической моделью, можете посмотреть: https://github.com/sberdevices/golos

И посвящённая им майская статья на Хабре для пояснения: https://habr.com/ru/company/sberdevices/blog/559496/

Look

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko Jun 4 2021 at 13:35

Добрый день! В архивах есть jsonl-файлы, содержащие аннотацию

Look

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko Jun 1 2021 at 17:22

Добрый день!

Эти записи получены со смартфонов, никаких особенных ограничений мы не накладывали
В датасете есть отдельные tsv-файлы для 100/10/1 часов и 10 минут. Это сделано, например, для того, чтобы погонять пробные эксперименты и быть уверенным в своих пайплайнах перед запуском обучения на всём датасете
Нет, мы никак не используем информацию об ударении

Look

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko May 28 2021 at 16:17

Количество уникальных голосов — тысячи, мб есть 10 тысяч.
Неа, такие эксперименты не проводили

Look

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko May 28 2021 at 15:10

Обученная модель, которую мы выложили в открытый доступ, это модель распознавания речи (ASR, Speech-To-Text).
Если хочется слушать книжки — то можно обучить на этих данных свою Text-To-Speech модель — хотя это может быть нетривиально, ведь тут большое количество разных спикеров. Либо можно попробовать TTS-модель от Сбера на https://sberdevices.ru/smartspeech/

Look

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko May 27 2021 at 16:40

Ну почему же вы отрезаете часть предложения? Оно выглядело так ;)

На текущий момент это самый большой корпус аудиозаписей на русском языке, размеченный вручную

Look

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko May 27 2021 at 16:36

Конечно, мы пробовали системы автоматической транслитерации — хотя и в основном для других целей, нежели для генерации точной транскрипции на кириллице. Качество нас не устроило, на таком было бы не сделать хороший ASR-датасет, мы хотим иметь максимально чистый датасет. Нас интересует в первую очередь транскрипция именно того, что произнесено на аудиозаписи. Если речь заходит о музыкальных исполнителях — то ни у какой системы автоматической транслитерации нет шансов, нужно слушать аудиозапись.
Следующие исполнители/песни как экстремальный пример: 24kGoldn, 6lack, xo tour llif3.

Look