Комментарии 23

Можете посмотреть прошлые сравнения. Если коротко — то мы сначала сравнивали все что можно, а потом оставили только системы которые хорошо работают из коробки на всем или генерализуются

Отлично! А можно уточнить насчет метрики WER? Иногда применяется некая постобработка, например, распознанные слова меняются на другие с учетом их вероятностей и т.д. Эта метрика обычно применяется уже на финише, когда все последующие обработки применены? Или же проверяется «чистое» распознавание без обработок?… просто в статье о метриках указаны довольно большие проценты ошибок. Мне казалось, что уже достигнуты намного лучшие результаты)

Механизм расчета метрик тут аналогичен описанному в статье, которую вы нашли.


Для английского мы ещё нормализовали частые вещи типа that is и that's и так далее, тк нет унификации ращметки. Для немецкого пробовали без числительных тк результаты гугла не очень оказались — но разница была маленькая.


А насчёт лучших результатов — я довольно подробно расписывал в своих статьях на The Gradient все детали по этому поводу и какие там реально иетрики.


По сути к сожалению результаты премиум модели Google говорят что вы скорее всего стали жертвой маркетинга евангелистов / корпораций / академиков которым надо оправдать освоение бюджета. Sad but true. Tldr — оверфит на один датасет и общая генерализуемая модель — это разные фрукты.

Насчет лучших результатов понятно. А насчет постобработки? Вот давайте на примере. Есть правильный текст «мама мыла раму». Модель распознала по голосу «мама мыла рану» (вывод 1) При этом вероятность «рану»=0.30, а «раму»=0.29. Следующая модель (постобработка) учитывая контекст, заменяет посл. слово и выдает «мама мыла раму» (вывод 2). Метрика WER проверяется для «вывод 2» или «вывод 1»?

Если вопрос о том поступаем ли мы также как раньше было модно репортить результаты на Imagenet (по 5 кропам) — то нет — всегда берется верхняя гипотеза, а не топ-N.


В остальном — wiki в репозитории и статья выше по идее содержат всю информацию.

До 50Mb сжимали квантизацией и прунингом? И как дальше планируете ужать до 20? За модели спасибо!

Прунинг не делали ещё. Дальше планируем прунингом как раз и улучшением архитектуры.

Меньше места, быстрее, есть меньше compute?
Я до конца не разобрался — в современных реалиях хоть как-то коррелирует ли прунинг с продом


А квантизация — это продовая тема

и на сколько 50 мегабайтная медленнее 20 мегабайтной? и какая абсолютная производительность (до порядка)?

И ещё вопросик. На youtube Гугл иногда включает возможность создания субтитров, распознавая «на лету». Иногда они распознают и песни на русском, но качество там не очень. А ваша модель может распознавать слова песен? Например, какой процент ошибок будет на этой песне? (текст там есть в комментариях)

Чтобы сделать такое надо решить 4 задачи


Детекция голоса (VAD) уже решена
Выделение голоса
Подавление шума
Распознавание


Все они решаются если сам спич пока нигде — то производные от него задачи ещё дальше


Но денойз не так сложно сделать, в скорых планах есть

Господа, а для распознавания японского кто что может посоветовать, желательно не облачного?

Собирайте нетривиальный датасет (не просто common voice). Отдельно собирайте вал сеты
Можно будет добавить в список моделей но наверное без ЕЕ версии

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.