Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Статьи Посты Новости Авторы Компании

vsile 5 ноя 2021 в 03:54

Распознавание речи в Telegram «на лету»

2 мин

10K

Мессенджеры*Go*Голосовые интерфейсы*

Задача распознавания голосовых сообщений в Telegram уже давно не новая. На эту тему написано много статей, разработано немало Telegram-ботов. С некоторыми решениями я ознакомился во время работы над функцией распознавания голосовых напоминаний для бота @RemindMegaBot и заметил, что в этих решениях используется не всегда оправданный подход:

Для распознавания речи аудиофайл загружается на диск.

Возникает справедливый вопрос — неужели нельзя обойтись без записи файла на диск? Ведь это освободит операционную систему от лишних операций и сократит время обработки данных!

Почему же разработчики используют именно такой подход?

perevalov_a 3 ноя 2021 в 15:35

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

4 мин

1.6K

Поисковые технологии*Семантика*API*Машинное обучение*Голосовые интерфейсы*

Одним из важных шагов, используемых людьми в поиске ответа на вопрос, является понимание того, какой именно тип ответа устроит автора. К примеру, на вопрос: "Который час?", мы ожидаем услышать ответ с типом "время", а на вопрос "Где родился Иван Петров?" -- ответ с типом "населённый пункт". То же самое верно и для вопросно-ответных систем (Question-Answering, QA), целью которых является поиск ответа на фактографические вопросы. В данной статье я представлю модуль определения ожидаемого типа ответа на вопрос (Expected Answer Type, EAT), который способен определять не только один класс, но и строить иерархию классов в качестве прогнозного значения. Модуль предоставляется как в виде веб-интерфейса (UI) так и в виде RESTful API. Данная функциональность позволяет конечным пользователям получать предсказания типа ответа для 104 языков, видеть достоверность прогноза и оставлять обратную связь. Кроме того, API позволяет исследователям и разработчикам интегрировать EAT-классификацию в свои системы.

Dino_the_dinosaur 19 окт 2021 в 14:13

Обзор методов улучшения речи и шумоподавления: от классики к SotA

10 мин

12K

Блог компании МТСАлгоритмы*ЗвукNatural Language Processing*Голосовые интерфейсы*

Всем привет! Меня зовут Оля Яковенко, я разработчик в MTS AI, занимаюсь задачами по автоматической обработке сигналов. В частности, на данный момент я исследую различные подходы шумоподавления для последующего распознавания речи, и сегодня я хотела бы поделиться с вами обзором и некоторыми находками на эту тему.

neuroonet 16 окт 2021 в 03:25

Синтезированные ИИ голоса актеров позволяют обходиться без иностранной озвучки

3 мин

Блог компании Neuro.netИскусственный интеллектБудущее здесьГолосовые интерфейсы*

Перевод

Следующий фильм или ТВ-шоу, которые вы будете смотреть, могут оказаться "работой" искусственного интеллекта. Представьте, что актеры Голливуда, Болливуда или любых других студий говорят на родном для вас языке в любом из новых фильмов или шоу. На самом деле, это вполне реальная история, вот только голоса могут не принадлежать человеку - все это дипфейки, правда, не мошеннические, а созданные самими киностудиями с использованием ИИ.

Уже сейчас видео- и голосовые дипфейки вполне сносно копируют оригинал А в ближайшем будущем эти технологии станут еще более совершенными. Компании смогут получать копии голосов актеров, говорящих на самых разных языках. И это будут не лишенные выражения "голоса" вроде современных цифровых агентов, а очень реалистичные голоса, снабженные эмоциями. Цифровые актеры смогут плакать, смеяться, бормотать - причем максимально близко к оригинальной озвучке.

stanislav_as 5 окт 2021 в 11:00

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

8 мин

11K

Блог компании НаносемантикаМашинное обучение*Искусственный интеллектЗвукГолосовые интерфейсы*

Всем привет! Я руковожу «Наносемантикой», сегодня хотел бы поделиться с вами результатами нашего сравнения сервисов распознавания речи (ASR). Мы собрали и разметили тестовый датасет на русском языке, прогнали через сервисы ASR, проанализировали результаты работы разных вендоров, собрали основные выводы.

Получилось интересно, подробности в статье.

Sber 27 сен 2021 в 18:37

Как мы сделали доступными все технологии Сбера на единой платформе: итоги первого года работы SmartMarket

7 мин

4.3K

Блог компании СберПрограммирование*Интерфейсы*IT-компанииГолосовые интерфейсы*

Год назад, в сентябре 2020 года команда SberDevices выпустила семейство виртуальных ассистентов Салют. В семействе три персонажа — Сбер, Афина и Джой. Они доступны на умных устройствах Sber, устройствах под управлением Салют ТВ и в мобильных приложениях СберБанк Онлайн и Сбер Салют.

Вместе с этим запуском мы запустили первую версию платформы SmartMarket. С инструментами SmartMarket внешние разработчики и бизнес получили возможность создавать приложения для виртуальных ассистентов Салют.

Иван Смирнов, руководитель NLP-Platform и SmartMarket рассказывает, как мы собрали вместе инструменты и технологии Сбера и к чему удалось прийти за год.

-3

snakers4 13 сен 2021 в 14:37

Последние обновления моделей распознавания речи из Silero Models

2 мин

Big Data*Машинное обучение*Развитие стартапаNatural Language Processing*Голосовые интерфейсы*

quality_growth

Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.

В этот раз мы можем порадовать вас:

Как большими, так и маленькими моделями;
Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;

Читать дальше →

+11

neuroonet 2 сен 2021 в 20:52

Голосовые ИИ-технологии: 3 перспективных направления, которые постепенно меняют мир

4 мин

3.4K

Блог компании Neuro.netНаучно-популярноеИскусственный интеллектБудущее здесьГолосовые интерфейсы*

Перевод

Системы, которые способны выполнять рутинные операции вместо человека, помогают поддерживать глобальную экономику. Собственно, они делают это десятилетиями — такие системы работают на благо цивилизации давно. Но что насчет систем, которые могут общаться и взаимодействовать с пользователем? Если говорить о полноценном общении, то пока что его нет, причина здесь одна — наша речь слишком сложная.

Каждый, кто пробовал взаимодействовать с цифровыми ассистентами вроде Alexa и Siri, видел и ощущал разницу между «общением» с ними и полноценным разговором с человеком. Но прогресс не стоит на месте. В ближайшем или не очень будущем продвинутые ИИ-собеседники обязательно появятся, ведь к этому все и идет. В целом, эта технология способна изменить мир. Под катом — обсуждение трех инновационных технологий, которые стимулируют развитие всей отрасли.

Читать дальше →

APPKODE 31 авг 2021 в 09:23

Учиться на ошибках: 3 кейса, которые научили нас грамотно проектировать VUI

7 мин

1.5K

Интерфейсы*Usability*Искусственный интеллектГолосовые интерфейсы*

Привет! Меня зовут Юля Мицкевич, я операционный директор команды дизайна и разработки разговорных продуктов TORTU компании KODE.

Наша команда уже более 3 лет занимается проектированием и разработкой VUI: от чат-ботов и телефонных систем до виртуальных ассистентов. Мы помогаем бизнесу обрести свой голос. Активно участвуем в проектировании навыков для Сбера, Тинькофф, HeadHunter, Mail.ru Group, Delivery Club и других крупных компаний. Также развиваем профессиональное сообщество: ведём Telegram-канал 'Hey Voice!'

В июне этого года я выступала на Conversation – крупнейшей конференции по разговорному AI, где рассказала, как организовать процесс разработки VUI так, чтобы избежать дорогостоящих ошибок и двойной работы. Делюсь опытом нашей команды, которая узнала много нового о себе и голосе, когда впервые начала заниматься VUI.

Tkinai 25 авг 2021 в 10:00

Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица

7 мин

2.8K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектГолосовые интерфейсы*

Сегодня на рынке изобилие умных домашних устройств. Часто они становятся своего рода центром дома – инструментом, к которому обращаются домочадцы с разными задачами: узнать погоду, найти фильм, заказать еду или такси. Некоторые сценарии платные, и проводить оплату хочется, с одной стороны, быстро и удобно, без лишних телодвижений – чтобы не нужно было брать в руки телефон, заходить в онлайн-банк, вводить реквизиты или коды из пуш-уведомлений. А с другой стороны, хочется безопасности и защищённости, чтобы ребенок, например, не заказал ящик мороженого без ведома взрослых. Мы в SberDevices занялись вопросом персонализированных оплат на наших умных устройствах и придумали, как это сделать с помощью распознавания лица и голоса пользователя. В области лицевой биометрии нашим технологическим партнёром стала команда VisionLabs.

AviPaperno 19 авг 2021 в 10:00

Светодиодная матрица: управляем домашним уютом с помощью голоса

10 мин

11K

Блог компании SberDevicesРазработка под Arduino*Умный домDIY или Сделай самГолосовые интерфейсы*

Туториал

Сейчас стало достаточно модно украшать свои дома с помощью светодиодов. Обычной светодиодной лентой, даже с голосовым управлением, уже сложно удивить кого-либо. Но очень часто забывают, что, расположив светодиоды в виде квадрата или прямоугольника, можно создать что-то похожее на многопиксельный экран. С его помощью можно оживить обстановку в помещении, например отображать на нём прогноз погоды или просто весёлые картинки...

Сегодня и мы попробуем сделать что-то такое, а также добавим управление голосом с помощью виртуальных ассистентов Салют.

Поехали!

+10

The_HardWare_guy 29 июл 2021 в 14:47

Как устроена аппаратная часть SberBox Top: разбираем девайс

5 мин

14K

Блог компании SberDevicesПроизводство и разработка электроники*ГаджетыУмный домГолосовые интерфейсы*

За последние два года команда SberDevices запустила серийное производство нескольких устройств: ТВ-приставки SberBox, смарт-экрана SberPortal, ТВ-медиацентра с умной камерой SberBox Top. Последний значительно расширил функциональность такого типа устройств за счёт камеры, микрофонной матрицы и акустики, а также виртуальных ассистентов на борту. С помощь SberBox Top можно смотреть фильмы и ТВ-каналы, видео в интернете, слушать музыку, заказывать доставку продуктов, управлять умным домом. АI-камера позволяет играть в игры с распознаванием жестов, устраивать AR-спектакли с детьми, проводить видеовстречи на большом экране, заниматься фитнесом. Устройство объединяет в себе возможности смарт-экрана и умной колонки. Взаимодействовать с ним можно с помощью голоса, жестов и пульта. Чтобы использовать девайс, нужно только подключить его к телевизору или монитору – любому устройству отображения с HDMI. (Многие функции при этом доступны и без использования экрана.) И, конечно, нужен интернет.

Все эти возможности нужно было уместить в довольно компактный корпус, обеспечив нужную производительность, и при этом не допустить перегрева.

Давайте разберём наш гаджет и посмотрим, как устроена его аппаратная часть.

Поехали!

neuroonet 29 июл 2021 в 02:39

Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров

3 мин

4.6K

Блог компании Neuro.netАлгоритмы*Искусственный интеллектБудущее здесьГолосовые интерфейсы*

Перевод

Голосовые агенты становятся все совершеннее, буквально каждый месяц появляются новые интересные наработки. Одна из них — немецкий проект по созданию детектора лжи для колл-центров. Речь идет о создании системы, которая может с высокой степенью вероятности определить, говорит звонящий в колл-центр абонент правду либо же пытается приврать/приукрасить свои утверждения или скрыть намерения.

Система базируется на специфическом дата-сете, сформированном из аудио-записей нескольких десятков преподавателей и студентов. Добровольцы участвовали в дебатах, обсуждая острые темы вроде смертной казни и платного обучения, а произносимые речи записывались на диктофон. О результатах проекта — под катом.

Читать дальше →

+12

neuroonet 24 июл 2021 в 01:00

ИИ в качестве актера озвучки звучит очень по-человечески. И цифровых агентов уже можно нанять

6 мин

9.6K

Блог компании Neuro.netМашинное обучение*Искусственный интеллектБудущее здесьГолосовые интерфейсы*

Перевод

Голосовые агенты становятся все более совершенными. Мы уже рассказывали о том, насколько хорошо они понимают собеседника-человека и способны воспроизводить речь. Использовать цифровых агентов можно не только в качестве «сотрудника» колл-центра, но и в качестве актеров озвучки/дубляжа. Хороший пример — работа компании WellSaid Labs, о которой и рассказывается в этой статье.

Компания WellSaid Labs на своем сайте уведомляет посетителей, что у нее в запасе «восемь новых цифровых актеров озвучки». Тобин «энергичен и проницателен». Пейдж «уравновешенна и выразительна». Ава «отточенная, уверенная в себе и профессиональная».

Каждый цифровой агент использует голос реального актера, конечно, с согласия последнего. Теперь компании могут лицензировать эти голоса, чтобы рассказывать обо всем, что нужно бизнесу. Они просто вводят текст в голосовой движок, и на выходе получается четкий аудиоклип с естественным звучанием.

+10

nkarpov 22 июл 2021 в 13:37

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Простой

5 мин

7.6K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*Голосовые интерфейсы*

Туториал

Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и других банковских сервисах. Я расскажу, как обучил модель распознавания речи, используя Common Voice и недавно открытый датасет Golos. Ошибка распознавания составила от 3 до 11 % в зависимости от типа тестовой выборки, что очень неплохо для открытой модели.

Не так давно наша команда подготовила и опубликовала общедоступный датасет Golos. Почему встал вопрос об обучении и публикации акустической модели QuartzNet? Во-первых, чтобы узнать, какую точность достигает система распознавания речи при обучении на новом датасете. Во-вторых, обучение само по себе ресурсоёмкое, поэтому сообществу полезно иметь в открытом доступе предобученную модель на русском языке. Полная версия статьи опубликована на сайте arxiv.org и будет представлена на конференции INTERSPEECH2021.

APPKODE 13 июл 2021 в 17:19

Как стать крутым VUI-дизайнером: пошаговое руководство

8 мин

4.4K

ДизайнГолосовые интерфейсы*

Впервые люди познакомились с голосовым ассистентом 10 лет назад, когда Apple презентовала Siri. Тогда никто не ожидал, что voice tech станет движущей силой инноваций. Высокий спрос привёл к тому, что компании начали активно развивать экспертизу в проектировании голосовых интерфейсов и искать специалистов, которые в этом разбираются.

Делимся опытом нашей VUI-команды TORTU и рассказываем, как попасть в индустрию, прокачать свой скилл и стать крутым VUI-дизайнером.

neuroonet 13 июл 2021 в 11:45

Голосовой ИИ: технологии под капотом цифрового агента

5 мин

3.6K

Блог компании Neuro.netАлгоритмы*Машинное обучение*Голосовые интерфейсы*

Привет, Хабр! Сегодня мы предлагаем поговорить про так называемый голосовой искусственный интеллект и про технологии, которые делают его «умным». Кроме того, поговорим и о «магии» нашей голосовой платформы — о том, что позволяет голосовому агенту вести нормальную беседу с человеком.

Технологии достигли настолько высокого уровня, что даже профессионалы, которые занимаются разработкой голосовых технологий, зачастую затрудняются отличить робота от человека. Кстати, эта статья подготовлена по выступлению СТО Neuro.net Игоря Десятникова на Tech Week 2021. Если не хочется читать статью — вот видео, если же нужны подробности, то все самое интересное — под катом.

+14

cointegrated 2 июл 2021 в 14:35

Лучшие навыки Алисы и советы от их разработчиков

8 мин

47K

Программирование*Разработка игр*Интерфейсы*Яндекс API*Голосовые интерфейсы*

Я уже довольно давно разрабатываю навыки для Яндекс.Алисы, но пока не создал ни одного популярного. Недавно мне стало интересно: а какие навыки становятся самыми популярными, и кто те люди, которые их создают? Чтобы ответить на этот вопрос, я проанализировал каталог Алисы и опросил 20 разработчиков, чьи навыки набрали наибольшее количество оценок "пять". Похоже, что к их советам стоит прислушаться.

+15

Barrayar 1 июл 2021 в 18:55

Игровые навыки у голосовых помощников

6 мин

2.3K

Блог компании VKГаджетыГолосовые интерфейсы*

Любая технология, ставшая популярной, чему-то этим обязана. Одной из причин популярности голосовых помощников стали так называемые игровые навыки — умение играть с пользователями. Давайте поговорим о современном состоянии этой отрасли, чем интересны голосовые навыки и как они могут развиваться в ближайшем будущем.

+16

u53r 29 июн 2021 в 11:39

Капсула Мини: разбираем новую умную колонку

2 мин

15K

Блог компании VKГаджетыГолосовые интерфейсы*

Привет, Хабр! В моей прошлой статье я разбирал умную колонку Капсула с Марусей на борту. Недавно мне в руки попала еще не вышедшая новая версия. И мне уже не терпится посмотреть, что же у нее внутри! А также сравнить с Капсулой, которую я разбирал ранее. Сегодня новая колонка уже вышла официально, и я могу опубликовать свой разбор. Итак, приступим.

Читать дальше →

+29

1 2 ...

5 6

8 9 ...

12 13

Голосовые интерфейсы *

Распознавание речи в Telegram «на лету»

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

Обзор методов улучшения речи и шумоподавления: от классики к SotA

Синтезированные ИИ голоса актеров позволяют обходиться без иностранной озвучки

Истории

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

Как мы сделали доступными все технологии Сбера на единой платформе: итоги первого года работы SmartMarket

Последние обновления моделей распознавания речи из Silero Models

Голосовые ИИ-технологии: 3 перспективных направления, которые постепенно меняют мир

Учиться на ошибках: 3 кейса, которые научили нас грамотно проектировать VUI

Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица

Светодиодная матрица: управляем домашним уютом с помощью голоса

Как устроена аппаратная часть SberBox Top: разбираем девайс

Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров

Ближайшие события

ИИ в качестве актера озвучки звучит очень по-человечески. И цифровых агентов уже можно нанять

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Как стать крутым VUI-дизайнером: пошаговое руководство

Голосовой ИИ: технологии под капотом цифрового агента

Лучшие навыки Алисы и советы от их разработчиков

Игровые навыки у голосовых помощников

Капсула Мини: разбираем новую умную колонку

Вклад авторов