Как стать автором
Обновить
258.62
SberDevices
Создаём умные устройства

Русский жестовый язык: первое место в американском бенчмарке

Время на прочтение2 мин
Количество просмотров2.8K

Нейросети для распознавания жестового языка, созданные командой компьютерного зрения RnD CV в SberDevices научились лучше всех в мире распознавать американский жестовый язык!

Такой результат был достигнут благодаря нашему датасету русского жестового языка (РЖЯ) Slovo, который недавно мы выложили в открытый доступ. Публичная версия датасета содержит тысячу классов жестов суммарным объемом в 20 тысяч HD+ видео, записанных большой группой экспертов. Датасет и обученные на нем модели нейронных сетей бесплатны и выложены в открытый доступ. Это самый большой открытый и разнородный датасет РЖЯ в мире. Оказалось, что предварительное обучение нейронных сетей на датасете Slovo позволило модели хорошо обобщиться и стать основой для распознавания не только РЖЯ, но и других жестовых языков, в частности американского.

Для замера качества работы моделей в задаче распознавания американского жестового языка используется бенчмарк, основанный на датасете WLASL-2000. Датасет представляет собой набор видео, на каждом из которых присутствует человек, показывающий один жест из двух тысяч слов американского жестового языка.

В начале 2023 года первую позицию заняла модель с названием NLA-SLR, которая описывает идею распознавания жестового языка на основе не только самих видео, но и семантики слов. Мы же считаем, что помимо экспериментов с архитектурами, залог качественного обучения модели — большой, качественный и разнообразный набор данных. Мы провели большой пул экспериментов на связке Slovo + WLASL-2000 и получили лучшую метрику.

Метрика Top-1 на датасете WLASL (paperswithcode benchmark)
Метрика Top-1 на датасете WLASL (paperswithcode benchmark)

Мы смогли побить все модели в бенчмарке WLASL-2000 (и его меньших вариациях), используя классическую архитектуру mVITv2-S (small) и ряд некоторых трюков в процессе обучения сети, и заняли первую строчку по метрике точности Top-1 Accuracy (результат на small версии: 0.633). На данный момент это лучшее решение задачи в мире. Модель под кодовым названием SignFlow-A мы выложили в открытый доступ, которую можно бесплатно скачать в нашем репозитории.

На этом мы не останавливаемся. Скоро мы расскажем о новых достижениях. Следите за новостями.

Теги:
Хабы:
Всего голосов 13: ↑13 и ↓0+13
Комментарии0

Другие новости

Информация

Сайт
sberdevices.ru
Дата регистрации
Дата основания
2019
Численность
501–1 000 человек
Местоположение
Россия
Представитель
Дмитрий Головин