Comments / Profile of sxdxfan / Habr

Павел Сухачев @sxdxfan

Руководитель разработки систем машинного обучения

Profile Publications 1Comments 8Bookmarks 1

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

sxdxfan Oct 6 2021 at 21:32

По поводу удаления записей из общего сравнения - разработчики специально привели два исследования, в первом как раз учитывались пустые ответы как 0 слов, и WER автоматически приравнивался к 100 на таких записях.

Естественно, такой вклад сильно портит статистику для некоторых систем распознавания речи, второе исследование приведено с целью сравнить системы без этого вклада.

Look

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

sxdxfan Oct 6 2021 at 21:27

Добрый вечер!

Общая продолжительность датасета - 2 часа 42 минуты, короткие записи длятся порядка 1-3 секунд, средние - 4-6 секунд, длинные - 7-10 секунд. Каждая фраза является некоторой законченной репликой. По количеству записей и произнесённых слов в каждой реплике вы можете ориентироваться по заголовкам табличек.

Look

Ультимативное сравнение систем распознавания речи: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

sxdxfan May 27 2021 at 16:57

Также просто для информации: этот демо сервис работает на AWS инстансе типа t3a.2xlarge, и к нему подключен t.me/voicybot, который тоже генерирует какую-то постоянную нагрузку, пусть и не очень высокую

Look

Ультимативное сравнение систем распознавания речи: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

sxdxfan May 27 2021 at 16:50

На звонках гораздо лучше работает модель 8000, некорректно тестировать модель одного домена на другом

Look

Ультимативное сравнение систем распознавания речи: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

sxdxfan May 27 2021 at 16:44

Как разработчик сервиса «Ашманова» хочу заметить, что доступ к веб интерфейсу закрытый, сам сайт исключительно демонстрационный, крутится на CPU, не предполагает нагрузки. Документация есть, клиентам мы её направляем, на сайт не успели её выложить, поддержаны протоколы wss, gRPC, MRCP обеих версий.

snakers4 Вы сравнивали в бенчмарке обе демонстрационные модели, 8000 и 16000?

Look

Open Source распознавание речи SOVA

sxdxfan Oct 15 2020 at 13:47

Мы не обращались за лицензией и не использовали ваш датасет, мы собирали свой с помощью компаний партнёров из колл-центров и бота Voicy.

Мы предоставляем доступ к нашему решению всем потенциальным партнёрам, чтобы они могли опробовать как REST API решение, так и потоковое с gRPC или на веб сокетах, в зависимости от потребностей клиента. Мы открыты к совершенствованию моделей и кастомизации под заказчиков, это в любом случае повышает качество распознавания. Наши текущие акустические модели вполне хорошо себя показывают «из коробки», языковые же периодически расширяем новой лексикой. Любые доработки, естественно, согласовываются с заказчиком.

Look

Open Source распознавание речи SOVA

sxdxfan Oct 15 2020 at 13:37

Свой DL фреймворк мы начали разрабатывать ещё до появления PyTorch и TensorFlow, и изначально он создавался не с целью решения частной задачи (ASR), а как раз потому что в то время не было достаточно удобных фреймворков. Его использование позволяет нам гибко подстраиваться под частные задачи и проводить оптимизацию с вычислительной точки зрения. Не смотрите, что в открытом репозитории всего 9 коммитов, на то это и публичный репозиторий, плюс решение выложить свои наработки было принято совсем недавно. Собственный фреймворк может быть очень мощным инструментом, в частности когда речь идёт о запуске на каком-нибудь экзотическом железе, поддержки которого у PyTorch/TF просто нет.

По поводу бенчмарков — мы готовили специально данные из источников, никоим образом не имеющих ничего общего с данными, на которых обучались (помимо того, что это тоже были «записи с пользовательских устройств» и из «колл-центра», при этом колл-центр имел свою узкую тематику, к которой мы не готовились). Если под «доменом» имеются в виду как раз условные «звонки» и «записи с микрофона», то да, мы затачивали модели на эти два домена, как наиболее интересные для нас в коммерческом плане.

Я согласен с утверждением по поводу того, что сложно создать универсальную качественную модель на все домены, поэтому мы пошли по пути подготовки отдельных моделей для разных доменов. Тем более что пока к нам никто не обращался с просьбой распознавать кучу доменов сразу одной моделью.

Будем рады сравнить со всеми и ваше решение для русского языка, если предоставите доступ или выложите модели!

Look

Open Source распознавание речи SOVA

sxdxfan Oct 15 2020 at 12:44

Пока для релиза подготовили только русский, с английским работаем, но ещё не готовы показывать.

Look