Как стать автором
Обновить
1.11

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

«Oh no! code» или как создать голосового помощника без единой строчки кода с помощью VoiceBox

Уровень сложности Простой
Время на прочтение 10 мин
Количество просмотров 1.9K

В последнее время на меня практически из каждого утюга льется реклама различных курсов по no-code разработке, в которой радостно рассказывают, что программировать скоро сможет каждый и это светлое будущее человечества. Но так получилось, что я хоть и не разработчик, но свой путь к азам программирования начал с учебника по Turbo Pascal 7. Поэтому на no-code я смотрю с некоторым подозрением. 

Я решил изучить данный вопрос, как всегда, посмотрев на него с необычной стороны.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

«Яндекс ТВ Станция» и «Яндекс ТВ Станция Про» поступили в продажу

Время на прочтение 6 мин
Количество просмотров 18K

22 августа 2023 года в открытую продажу поступили два новых устройства «Яндекса» с «Алисой»: «Яндекс ТВ Станция» и «Яндекс ТВ Станция Про».

Читать далее
Всего голосов 19: ↑15 и ↓4 +11
Комментарии 16

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 5.5K


Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.


В этот раз мы сделали следующее:


  • Ускорили все v4 модели в 3-4 раза;
  • Существенно повысили качество синтеза в 8 kHz;
  • Обновили и пересобрали нашу модель для русского языка;
  • Обновили модель для 9 языков народов Индии с 17 голосами;
  • Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
  • Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
  • Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);
Читать дальше →
Всего голосов 32: ↑32 и ↓0 +32
Комментарии 15

Когда робот тебя обманывает

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.6K

Многие пользователи до сих пор не представляют, что ИИ-боты могут лгать. Причем не случайно дезинформировать человека, а лгать преднамеренно, что может быть задумано разработчиками. И проблема здесь в том, что после того как пользователь узнает о том, что робот ему солгал, у него может полностью пропасть доверие к ИИ. 

Читать далее
Всего голосов 4: ↑2 и ↓2 0
Комментарии 2

Истории

Как мы научили Алису реагировать на быстрые команды

Время на прочтение 9 мин
Количество просмотров 17K

Голосовые ассистенты активируются «по имени» — это всем привычно. Но как быть, если нужно несколько раз повторять команду из одного слова? Например, чтобы настроить музыку, говорить каждый раз «Алиса, громче» и «Алиса, дальше» утомляет. Кроме того, в некоторых сценариях важна скорость выполнения действия: например, когда нужно включить свет в комнате. 

Для таких случаев мы научили Алису распознавать быстрые команды — то есть те, для которых её не нужно звать по имени. Достаточно просто сказать «громче», «дальше» или «включи свет». И в этой статье я расскажу, что из себя представляет новая функция, как мы её разрабатывали, с какими сложностями столкнулись. А ещё немного поговорим про распознавание и свёрточные модели.

Дальше!
Всего голосов 31: ↑31 и ↓0 +31
Комментарии 51

Как подружить Asterisk с потоковым распознаванием от Яндекс SpeechKit через EAGI и Python

Время на прочтение 3 мин
Количество просмотров 2.9K
До этого самого времени, я никогда не писал код на Pyhton и Node JS. И поэтому мне было очень сложно скрестить эти системы. И поэтому решил написать об этом пост, так как готовых примеров в Яндексе нет за исключением MRCP про которого было немало нелестных отзывов от пользователей этой системы, но пруфы в данное время предоставить не могу. Я решил не пользоваться этим костылем и изобрести велосипед на костылях сам. Для этого мне в помощь прослужила сама документация с Яндекса и некоторые примеры с StackOverflow.
Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 1

Ума палата: Алиса, Маруся и другие

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 6.2K

Если вы до сих пор не пользуетесь голосовым помощником, то вы лишаете себя множества полезных возможностей. Мы не станем рассказывать о том, как облегчают жизнь Siri, Алиса или Google Assistant, для этого у нас имеется воображение. Все, что вы можете представить об этих человекоголосых роботах уже реализовано, или будет доступно в обозримом будущем. Сегодня мы расскажем о российских голосовых помощниках

Читать далее
Всего голосов 29: ↑27 и ↓2 +25
Комментарии 30

Meta* Voicebox: голосовой генеративный ИИ, которого боится сама компания

Время на прочтение 6 мин
Количество просмотров 5.3K

Пару недель назад Meta* представила ИИ-модель Voicebox, которая генерирует и редактирует устную речь. Они говорят, что это очередная революция в сфере генеративных ИИ. Модель не только создает речь в точном стиле и голосе любого человека по короткому образцу, но также умеет автоматически удалять шум, поправлять оговорки, понимать контекст. Авторы проекта охарактеризовали Voicebox как «прорыв в моделях речевого ИИ» и «самый универсальный ИИ для генерации речи».

В нашем распоряжении оказался документ с подробностями о реализации этого проекта. Спешим ознакомить с ним вас.

Читать далее
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 2

Нейросеть «Жириновский» — на что способна новая нейросеть от Наносемантики

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 18K

Не так давно компания «Наносемантика» представила свою новую нейросеть - «Жириновский», способную на синтез текста, синтез речи, и компиляцию всего указанного в видеоряд (Lip Sync).

И в статье специалисты компании продемонстрировали возможности «Жириновского», задав несколько вопросов из разных сфер жизни, в которых проект может быть задействован в будущем.

Читать далее
Всего голосов 50: ↑15 и ↓35 -20
Комментарии 43

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 5.6K

Всем привет! Меня зовут Антон Ермилов, я руковожу командой разработки эффективных моделей машинного обучения в Yandex Cloud. Самый популярный среди наших ML-сервисов — Yandex SpeechKit, сервис распознавания и синтеза речи. В SpeechKit мы уже создали модели распознавания речи для 10 европейских языков, турецкого и казахского, а также модели синтеза речи для пяти языков. Недавно мы добавили узбекский язык. 

В этой статье я расскажу на примере узбекского, как мы добавляем новый язык в сервис: как создаются технологии синтеза и распознавания речи, как мы обучаем модели, какие встречаются сложности.

Читать дальше
Всего голосов 31: ↑29 и ↓2 +27
Комментарии 13

Адаптивный синтез речи вместо типичного ИИ: что это, для чего и как работает

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 1.4K

Некоторые клиенты Voicebox хотят, чтобы бот говорил особенным голосом. Что ж, раз нужно — значит, можно, и скоро адаптивный синтез будет доступен для всех. Пока же мы экспериментируем с голосами в тестовом режиме, и кое-чем я хочу поделиться с вами в этой статье.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 3

Создаем бота: какая ответственность лежит на проектировании разговорных интерфейсов

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 2.3K

Привет, Хабр! Меня зовут Юля, и я дизайнер диалоговых интерфейсов в команде Just AI. В этой статье я расскажу о том, какая ответственность возложена на этап дизайна, как сценарий бота помогает в процессе разработки, о принципах эффективной сценарной работы и о подводных камнях подхода «проектирую сразу в коде».

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 3

Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models?

Уровень сложности Простой
Время на прочтение 1 мин
Количество просмотров 33K

Увидел новость про виртуального помощника "Валеру", которого только что презентовала РЖД. Судя по голосу, взят наш голос aidar из репозитория silero-models … опубликованный под некоммерческой под лицензией CC BY-NC-SA.

Обсудить
Всего голосов 224: ↑206 и ↓18 +188
Комментарии 198

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн

Внутри MajorDom v1.0 — Разбираем архитектуру новой системы умного дома

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 3.5K

В предыдущей статье я рассказал о том, как возникла идея создания умного дома. Теперь я хочу более подробно рассмотреть архитектуру первой версии этой системы.

МажорДом состоит из нескольких ключевых компонентов: девайсы, хаб, облако, мост, мобильное приложение и голосовой ассистент.

Девайсы обеспечивают управление физическими устройствами в доме. С помощью радиомодулей и протокола "Мерлин", они обмениваются данными, получают команды от хаба и отправляют ему события.

Читать далее
Всего голосов 6: ↑0 и ↓6 -6
Комментарии 2

MajorDom v1.0 — От голосового помощника к умному дому

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 2.7K

Статья на английском / read in english

В 2019 году я впервые узнал про возможность распознавания и синтеза речи на языке python. Гугл ассистент, сири, кортана и другие ассистенты тогда были еще более ограниченными и беспомощными, чем сейчас. О добавлении своих команд речи не шло от слова совсем. Тогда я и загорелся идеей создать своего голосового помощника, который не будет уступать даже Джарвису Тони Старка.

Читать далее
Всего голосов 5: ↑1 и ↓4 -3
Комментарии 1

Как сделать голосового бота техподдержки и не разочароваться?

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 2K

Привет, Хабр! Меня зовут Алексей Борщов и я занимаюсь проектированием голосовых диалоговых систем в компании Just AI. Как вы уже догадались по заголовку, речь сейчас пойдет о процессе создания голосового бота техподдержки, который может быть использован как для внутрикорпоративной, так и для внешней (клиентской) поддержки. И начнем мы с очевидного вопроса – а зачем он вообще нужен?

Читать далее
Всего голосов 4: ↑2 и ↓2 0
Комментарии 0

Адаптация языковой модели vosk

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 7.2K

Приветствую, Хабр. В данной статье хочу рассмотреть процесс добавления слов в языковую модель vosk'а (vosk - библиотека для распознавания речи, в основе которой kaldi).

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 11

«Что нам стоит „Капсулу“ построить?» — как мы создавали VK Капсулу Нео

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 4.2K

Многие подсознательно воспринимают умные колонки как что-то несложное в разработке. «Ну правда, что там такого: динамик, микрофон, светодиоды да Wi-Fi». Мы в VK захотели создать инновационный продукт, и в итоге прошли интересный путь от идеи до выхода на рынок нашей малышки для всех и каждого — VK Капсулы Нео. С виду вполне типичная умная колонка таит в себе технологические решения, которые в будущем постараются повторить в своих продуктах другие компании. 

Меня зовут Борис Каганович, я директор по разработке и производству умных устройств в VK. В этой статье я расскажу о том, как появилась идея создать колонку и какой путь мы прошли от идеи продукта до его реализации.

Читать далее
Всего голосов 38: ↑31 и ↓7 +24
Комментарии 23

Собака лает — ветер носит, или решил ли Bark синтез речи?

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 5.8K

Время от времени мне в личку присылают посты с телеграм-каналов, специализирующихся на "ИИ" хайпе. Обычно такие посты сопровождаются весьма сомнительного качества журналистикой, мол задача X теперь уже решена и мы были облагодетельствованы.

В этот раз мне прислали ссылку на репозиторий Bark, который является некой интерпретацией статьи VALL-E от известной корпорации добра. В частности их репозиторий обещает:

Синтез на всех популярных языках от английского до китайского;

Возможность GPT-style управления выдаваемым аудио;

Возможность дикторов "говорить" на иностранных языках;

Войс-клонинг "этичненько" залочен;

Всё это в высоком качестве как у современного нейросетевого синтеза и в "риалтайме", с моделями "более 100M параметров";

Давайте разберемся так ли это.

Давайте!
Всего голосов 23: ↑23 и ↓0 +23
Комментарии 7

Как одно агентство голосового робота попробовало

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.8K

Возможно вы знаете, что у нас кадровое агентство по подбору программистов. Сегодня расскажу наш опыт того как мы решили использовать высокие технологии совместно с маркетингом на пользу агентству. Речь пойдёт о голосовом роботе, с типа искусственным интеллектом.

Во‑первых, 2022год был наполненным различными событиями, с вытекающими потребностями и задачами. Например, иностранные заказчики персонала, внезапно взволновались и начали разрывать контракты. Часть росссийских компаний попали под прямые и косвенные санкции и начали резать косты. Но компании нужно как‑то жить, поэтому нужно искать заказчиков.

Факт второй — то что кадровых агентств в России поубавилось, правда как и много чего другого... Единственную статистику которой я могу оперировать в цифрах — это статистика по Новосибу. Как‑то смотрел что у нас в 2019–2021года, на весь Новосибирск было около 100–120 кадровых агентств, а в СФО примерно 300 — 400. А вот на апрель 2023 в Новосибирске, из живых боюсь что осталось порядка 20, ну плюс минус ещё 10, а в СФО не более 100 агентств. И похоже что подобная картинка наблюдается по России.

Жить хочется всем, а жить хорошо хочется ещё больше, поэтому нужны клиенты. Если сидеть на попе ровно, не искать заказы, то скорее всего ещё живые агентства разберут заказчиков которые до тебя могут не дойти. Вот и поддавшись «осенним позитивным» настроениям, мы решили по активничать.

Как вы поняли, история началась в сентябре 2022года. На меня вышла компания которая предоставляет таких голосовых «ботов». Поразмышляв, и заплатив порядка 50тыс руб за сборку робота и первоначальный бюджет на звонки — взялись за работу.

Читать далее
Всего голосов 10: ↑1 и ↓9 -8
Комментарии 14

Вклад авторов