Комментарии / Профиль dangrebenkin / Хабр

Даниил Гребенкин @dangrebenkin

NLP/ASR исследователь

Профиль Публикации 1Комментарии 7Закладки 9

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

dangrebenkin 3 ноя 2022 в 09:44

Спасибо за интересное сравнение) После прочтения у меня возникло два вопроса:
1) а что подразумевалось под моделью alpha_cephei? Насколько мне известно, AlphaCephei - это компания, которая создала систему VOSK и различные модели распознавания речи для разных языков (https://alphacephei.com/vosk/models). Если под "vosk" подразумевалась скорее всего vosk-model-ru-0.22, то что такое "alpha_cephei"?
2) будете ли вы выкладывать ваш тестовый датасет на какой-нибудь удобный открытый ресурс типа huggingface? Было бы интересно потестировать модели типа wav2vec2 на нем и подумать над результатами)

Посмотреть

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

dangrebenkin 9 окт 2019 в 18:29

Юрий, спасибо за отзыв)
1. Мне нравится идея взять три открытых датасета из open_stt и вычислить WER на них, это будет хорошим дополнением для последнего раздела. Также мне нравится идея @bond_005 об аугментации первоначальной выборки с VoxForge шумом, попробую реализовать и эту идею.
2. End2End подходы я планировал сравнить в будущем, в этой же статье я хотел понять, насколько Kaldi лучше/хуже справляется со своими задачами чем наиболее известные системы, такие как CMU Sphinx и т.д. Возможно стоило рассмотреть и другие подходы, я не ожидал, что к этому будет такой интерес. Постараюсь, по возможности, дополнить и эту тему.

Посмотреть

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

dangrebenkin 9 окт 2019 в 12:32

На Ваш вопрос ответил не только я, но и мой коллега.
Я думал у нас с Вами конструктивный диалог, но Вы перешли на оскорбления и ложь.
Если в Вашей «тусовке» принято в таком стиле вести диалог, то я очень рад. Рад что не состою в этой «тусовке».

Посмотреть

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

dangrebenkin 9 окт 2019 в 06:12

2. Вы правы, но модель Николая Шмырева была обучена на аудиозаписях с YouTube-роликов и мне было интересно, как она себя покажет в качестве модели широкого профиля в сравнении со средствами Google и Yandex. Однако, как я уже упоминал в конце статьи, Kaldi это конструктор, можно обучить и свою модель, настроить ее на определённый словарь и получить другие результаты.

Посмотреть

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

dangrebenkin 9 окт 2019 в 06:05

1. С wav2letter и другими end2end системами распознавания речи планирую сравнение в будущем.

Посмотреть

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

dangrebenkin 9 окт 2019 в 05:53

arheops, а Вы можете, пожалуйста, скинуть ссылку на исследование качества распознавания Google API и Kaldi на зашумленных записях?

Посмотреть

Почему Kaldi хорош для распознавания речи? (обновлено 25.12.2019)

dangrebenkin 8 окт 2019 в 21:49

Насколько я знаю, Николай Шнырев использовал в качестве обучающей выборки аудиозаписи с YouTube-роликов, а не VoxForge.

Посмотреть

Информация

Специализация