Даниил Гребенкин @dangrebenkin
NLP/ASR исследователь
Информация
- В рейтинге
- Не участвует
- Откуда
- Новосибирск, Новосибирская обл., Россия
- Зарегистрирован
- Активность
Специализация
Специалист
Python
Linux
Natural language processing
Sound processing
Software development
Спасибо за интересное сравнение) После прочтения у меня возникло два вопроса:
1) а что подразумевалось под моделью alpha_cephei? Насколько мне известно, AlphaCephei - это компания, которая создала систему VOSK и различные модели распознавания речи для разных языков (https://alphacephei.com/vosk/models). Если под "vosk" подразумевалась скорее всего vosk-model-ru-0.22, то что такое "alpha_cephei"?
2) будете ли вы выкладывать ваш тестовый датасет на какой-нибудь удобный открытый ресурс типа huggingface? Было бы интересно потестировать модели типа wav2vec2 на нем и подумать над результатами)
1. Мне нравится идея взять три открытых датасета из open_stt и вычислить WER на них, это будет хорошим дополнением для последнего раздела. Также мне нравится идея @bond_005 об аугментации первоначальной выборки с VoxForge шумом, попробую реализовать и эту идею.
2. End2End подходы я планировал сравнить в будущем, в этой же статье я хотел понять, насколько Kaldi лучше/хуже справляется со своими задачами чем наиболее известные системы, такие как CMU Sphinx и т.д. Возможно стоило рассмотреть и другие подходы, я не ожидал, что к этому будет такой интерес. Постараюсь, по возможности, дополнить и эту тему.
Я думал у нас с Вами конструктивный диалог, но Вы перешли на оскорбления и ложь.
Если в Вашей «тусовке» принято в таком стиле вести диалог, то я очень рад. Рад что не состою в этой «тусовке».