Как стать автором
Обновить

Комментарии 24

Отличная Новость, Так Держать, Ребята!

Ребятушки, сделайте на русском, а?
Я правильно понял, что именно ru модели закрыты?

Да

Можете посмотреть прошлые сравнения. Если коротко — то мы сначала сравнивали все что можно, а потом оставили только системы которые хорошо работают из коробки на всем или генерализуются

НЛО прилетело и опубликовало эту надпись здесь

Механизм расчета метрик тут аналогичен описанному в статье, которую вы нашли.


Для английского мы ещё нормализовали частые вещи типа that is и that's и так далее, тк нет унификации ращметки. Для немецкого пробовали без числительных тк результаты гугла не очень оказались — но разница была маленькая.


А насчёт лучших результатов — я довольно подробно расписывал в своих статьях на The Gradient все детали по этому поводу и какие там реально иетрики.


По сути к сожалению результаты премиум модели Google говорят что вы скорее всего стали жертвой маркетинга евангелистов / корпораций / академиков которым надо оправдать освоение бюджета. Sad but true. Tldr — оверфит на один датасет и общая генерализуемая модель — это разные фрукты.

НЛО прилетело и опубликовало эту надпись здесь

Если вопрос о том поступаем ли мы также как раньше было модно репортить результаты на Imagenet (по 5 кропам) — то нет — всегда берется верхняя гипотеза, а не топ-N.


В остальном — wiki в репозитории и статья выше по идее содержат всю информацию.

До 50Mb сжимали квантизацией и прунингом? И как дальше планируете ужать до 20? За модели спасибо!

Прунинг не делали ещё. Дальше планируем прунингом как раз и улучшением архитектуры.

А в чем вообще смысл такого сжатия?

Меньше места, быстрее, есть меньше compute?
Я до конца не разобрался — в современных реалиях хоть как-то коррелирует ли прунинг с продом


А квантизация — это продовая тема

и на сколько 50 мегабайтная медленнее 20 мегабайтной? и какая абсолютная производительность (до порядка)?

НЛО прилетело и опубликовало эту надпись здесь

Чтобы сделать такое надо решить 4 задачи


Детекция голоса (VAD) уже решена
Выделение голоса
Подавление шума
Распознавание


Все они решаются если сам спич пока нигде — то производные от него задачи ещё дальше


Но денойз не так сложно сделать, в скорых планах есть

Господа, а для распознавания японского кто что может посоветовать, желательно не облачного?

Собирайте нетривиальный датасет (не просто common voice). Отдельно собирайте вал сеты
Можно будет добавить в список моделей но наверное без ЕЕ версии

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории