snakers4 Nov 5 2019 at 10:28

Огромный открытый датасет русской речи версия 1.0

2 min

18K

Open source*Open data*Machine learning*Sound

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Кратко об Open STT v1.0

Более 20 000 часов (изначально мы ставили себе планку в 10 000 часов) аудио русской речи, 2.3 Tb данных (в формате wav, в формате .mp3 конечно меньше);
Большое разнообразие доменов: начиная с аудио, записанных на профессиональный микрофон, заканчивая телефонными звонками:

Домен	Аннотация	Фразы	Часы	GB
Радио	Alignment	8,3М	11,996	1367
Публичная речь	Alignment	1,7M	2,709	301
Youtube	Субтитры	2,6М	2,117	346
Книги	Alignment/ASR	1,3М	1,632	180
Звонки	ASR	695K	819	91
Другие датасеты	TTS, начитывание	1.9M	835	95

Более детально со статистикой можно познакомиться в репозитории проекта.

Теперь данные можно скачать на высокой скорости как в .wav(mono, 16KHz, int16) формате через торрент, так и по прямой ссылке в .mp3;
Добавили небольшой вручную размеченный валидационный датасет (18 часов) для 3х основных доменов;

Мы приложили максимум усилий для повышения качества разметки:

Усовершенстовали модель для алайнмента новых доменов;
Использовали более качественные и тонко настроенные STT-модели для алайнмента;
Улучшили алгоритм нормализации цифр и латиницы;
Постепенно переразмечаем/убираем "грязные" данные из прошлых версий;
Вылечили ряд детских проблем датасета таких как:
- "Болтающиеся" одиночные буквы в начале и конце предложений;
- Низкий выход алайнмента вследствие низкого качества моделей;
- "Правильная" работа со знаками препинания во время алайнмента;
(Скоро!) Появятся настоящие лейблы для спикеров;

Для каких задач может пригодиться наш датасет?

Распознавание речи;
Синтез речи;
Денойзинг, устранение шума в аудио;
Идентификация голоса;
Разделение дикторов;

Как планируем развивать датасет в дальнейшем?

Улучшить / перезалить существующие датасеты, почистить разметку;
Опубликовать модели для распознования речи и постпроцессинга;
Добавить разметку со speaker id. Для части новых доменов есть готовая разметка, но есть также идея добавить спикеров и в старые датасеты;
Возможно переключиться на другие языки;
Возможно добавить несколько новых доменов;

Подробнее познакомиться с новыми доменами можно в репозитории

Only registered users can participate in poll. Log in, please.

А вы пользовались версией 0.5 (или более ранней версией) датасета?

7.45% Да12

68.32% Нет, первый раз слышу110

14.29% Нет, хотел воспользоваться, но не получилось23

9.94% Зачем вообще нужен такой датасет? / Мне нерелеватно16

161 users voted. 34 users abstained.

Tags:

Hubs:

If this publication inspired you and you want to support the author, do not hesitate to click on the button