snakers4 17 сен 2020 в 19:48

Мы опубликовали современные STT модели сравнимые по качеству с Google

2 мин

Big Data*Машинное обучение*Развитие стартапаЗвук

Технотекст 2020

+36

Комментарии 24

vindy123 17 сен 2020 в 20:15

Отличная Новость, Так Держать, Ребята!

aamonster 17 сен 2020 в 22:07

Может, перевод? :-D
("английское" написание заголовков)

DrBulkin 17 сен 2020 в 20:23

Ребятушки, сделайте на русском, а?

snakers4 17 сен 2020 в 20:43

Так сделали же — https://www.silero.ai/tag/our-speech-to-text/

interprise 17 сен 2020 в 21:21

Я правильно понял, что именно ru модели закрыты?

snakers4 18 сен 2020 в 06:37

Да

Barnaby 18 сен 2020 в 01:09

https://www.silero.ai/russian-stt-benchmarks-update2/

Жаль нет сравнения с https://github.com/alphacep/vosk-api

snakers4 18 сен 2020 в 06:39

Можете посмотреть прошлые сравнения. Если коротко — то мы сначала сравнивали все что можно, а потом оставили только системы которые хорошо работают из коробки на всем или генерализуются

-1

НЛО прилетело и опубликовало эту надпись здесь

snakers4 18 сен 2020 в 09:01

Механизм расчета метрик тут аналогичен описанному в статье, которую вы нашли.

Для английского мы ещё нормализовали частые вещи типа that is и that's и так далее, тк нет унификации ращметки. Для немецкого пробовали без числительных тк результаты гугла не очень оказались — но разница была маленькая.

А насчёт лучших результатов — я довольно подробно расписывал в своих статьях на The Gradient все детали по этому поводу и какие там реально иетрики.

По сути к сожалению результаты премиум модели Google говорят что вы скорее всего стали жертвой маркетинга евангелистов / корпораций / академиков которым надо оправдать освоение бюджета. Sad but true. Tldr — оверфит на один датасет и общая генерализуемая модель — это разные фрукты.

НЛО прилетело и опубликовало эту надпись здесь

snakers4 18 сен 2020 в 09:20

Если вопрос о том поступаем ли мы также как раньше было модно репортить результаты на Imagenet (по 5 кропам) — то нет — всегда берется верхняя гипотеза, а не топ-N.

В остальном — wiki в репозитории и статья выше по идее содержат всю информацию.

averkij 18 сен 2020 в 08:59

До 50Mb сжимали квантизацией и прунингом? И как дальше планируете ужать до 20? За модели спасибо!

snakers4 18 сен 2020 в 09:08

Прунинг не делали ещё. Дальше планируем прунингом как раз и улучшением архитектуры.

tzlom 18 сен 2020 в 09:26

А в чем вообще смысл такого сжатия?

snakers4 18 сен 2020 в 09:49

Меньше места, быстрее, есть меньше compute?
Я до конца не разобрался — в современных реалиях хоть как-то коррелирует ли прунинг с продом

А квантизация — это продовая тема

tzlom 18 сен 2020 в 13:54

и на сколько 50 мегабайтная медленнее 20 мегабайтной? и какая абсолютная производительность (до порядка)?

snakers4 18 сен 2020 в 14:05

50 в 2 раза быстрее чем 200
20 не сделали ещё
подробнее тут https://www.silero.ai/stt-system-speed-quantize-final/

НЛО прилетело и опубликовало эту надпись здесь

snakers4 18 сен 2020 в 09:12

Чтобы сделать такое надо решить 4 задачи

Детекция голоса (VAD) уже решена
Выделение голоса
Подавление шума
Распознавание

Все они решаются если сам спич пока нигде — то производные от него задачи ещё дальше

Но денойз не так сложно сделать, в скорых планах есть

jedecuz 18 сен 2020 в 11:50

Господа, а для распознавания японского кто что может посоветовать, желательно не облачного?

snakers4 19 сен 2020 в 06:43

Собирайте нетривиальный датасет (не просто common voice). Отдельно собирайте вал сеты
Можно будет добавить в список моделей но наверное без ЕЕ версии

akreal 15 мая 2021 в 03:50

Датасет такой вот есть:
github.com/laboroai/LaboroTVSpeech

tumikosha 18 сен 2020 в 22:58

Мы — это кто?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Мы опубликовали современные STT модели сравнимые по качеству с Google

Комментарии 24

Публикации

Истории