Комментарии 24
Отличная Новость, Так Держать, Ребята!
Так сделали же — https://www.silero.ai/tag/our-speech-to-text/
Механизм расчета метрик тут аналогичен описанному в статье, которую вы нашли.
Для английского мы ещё нормализовали частые вещи типа that is и that's и так далее, тк нет унификации ращметки. Для немецкого пробовали без числительных тк результаты гугла не очень оказались — но разница была маленькая.
А насчёт лучших результатов — я довольно подробно расписывал в своих статьях на The Gradient все детали по этому поводу и какие там реально иетрики.
По сути к сожалению результаты премиум модели Google говорят что вы скорее всего стали жертвой маркетинга евангелистов / корпораций / академиков которым надо оправдать освоение бюджета. Sad but true. Tldr — оверфит на один датасет и общая генерализуемая модель — это разные фрукты.
Прунинг не делали ещё. Дальше планируем прунингом как раз и улучшением архитектуры.
А в чем вообще смысл такого сжатия?
Меньше места, быстрее, есть меньше compute?
Я до конца не разобрался — в современных реалиях хоть как-то коррелирует ли прунинг с продом
А квантизация — это продовая тема
и на сколько 50 мегабайтная медленнее 20 мегабайтной? и какая абсолютная производительность (до порядка)?
50 в 2 раза быстрее чем 200
20 не сделали ещё
подробнее тут https://www.silero.ai/stt-system-speed-quantize-final/
Собирайте нетривиальный датасет (не просто common voice). Отдельно собирайте вал сеты
Можно будет добавить в список моделей но наверное без ЕЕ версии
github.com/laboroai/LaboroTVSpeech
Мы опубликовали современные STT модели сравнимые по качеству с Google