Как стать автором
Обновить
7.47

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Может ли синтез речи обмануть систему биометрической идентификации?

Время на прочтение3 мин
Количество просмотров4.4K

Под одной из наших недавних статей на Хабре я упомянул исследование, подробно рассматривающее вопрос "обмана" коммерческих систем биометрической идентификации с помощью открытых инструментов по клонированию голоса. Завязалась дискуссия на тему "стоит ли бояться, что ваш голос украдут".

Естественно, исследование четкого однозначного ответа не дает, но скорее говорит, что на пути злоумышленников в первую очередь встает несовершенство систем клонирования голоса, количество и качество записей полученных мошенниками, акценты и прочие несовершенства мира. Проценты "обмана" при наличии ряда таких затруднений там не впечатляющие.

Так уж получилось, что один из наших заказчиков, заказывал у нас голос для синтеза … как раз с целью сделать пен-тест коммерческой системы биометрической идентификации. Не могу назвать (и даже не знаю) вендора этой системы, но заказчик это довольно крупная и известная фирма (они попросили не упоминать какие-либо названия).

Короткий ответ на вопрос из заголовка - да, причем весьма успешно. Длинный ответ - скорее всего вам этого бояться не следует. Постараюсь объяснить почему. Поехали.

И почему?
Всего голосов 5: ↑4 и ↓1+3
Комментарии13

Добавляем голосовое управление на русском языке в VR-проект

Время на прочтение5 мин
Количество просмотров3K

Тема виртуальной, дополненной реальности, метавселенных набирает обороты. Но что это такое, как должно выглядеть, как этим пользоваться, никто толком пока не знает. Однако, как в своё время переход от десктопных приложений к мобильным, миграция в VR принесёт и новые паттерны взаимодействия с пользователем. Да, в виртуальной реальности уже можно «потрогать» предметы, но этого недостаточно для полноценного решения пользовательских задач. Кажется, что голосовое управление в VR станет ещё более актуальным, чем в мобильных устройствах — в виде, например, голосовых команд или ввода текстовых данных. 

Ниже опишу пошагово, как можно добавить голосовое управление на русском языке в VR-проект.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии1

Золотое правило MVP: как расставлять приоритеты в разработке голосовых навыков

Время на прочтение4 мин
Количество просмотров1.7K

Привет, я Никита Муренький, лид команды разговорных продуктов KODE. Мы разрабатываем голосовых ассистентов и чат-ботов. Моя команда занимается проектированием и аналитикой, отвечает за пользовательский опыт и развитие продукта.

Если вы создаёте сложные разговорные продукты с нуля, то важно определить, какие сценарии (интенты) разрабатывать в первую очередь. Для этого есть один простой лайфхак, о котором я сегодня расскажу.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

«Смартфон и его команда» или скрываем номер звонящего и управляем вызовом с помощью MTT API

Время на прочтение14 мин
Количество просмотров2.2K

Пофантазируем на тему современных тимуровцев. Мне кажется, что в 2022 это должны быть ребята, которые сделают убойное мобильное приложение для бабушек. Теперь осталось найти для наших тимуровцев достойную задачу.

Итак, представим, что у нас есть собирательный образ персонажа — Бабушка. Да, да именно вот такая прям бабушка с большой буквы, которая всегда напечет пирожков и отсыпет карманных денег в придачу.

Мы так сильно любим Бабушку, дедушку и вообще всех людей на свете, что хотим сделать для них самый удобный и безопасный сервис заказа товаров по телефону.

Естественно, в рамках нашей статьи мы не будем «выдумывать» целый сервис, но попробуем сделать систему общения с персоналом интернет-магазина удобной и защищенной от кражи персональных данных недобросовестными исполнителями. А поможет нам в этом Telecom API от компании MTT.

Сегодня мы с вами:

- используем API, для умной переадресации вызова;

- скроем номер звонящего, от некоторых сотрудников сервиса;

- разберемся с добавочными номерами;

- сделаем аудио сообщения из строки текста;

- обработаем вызовы REST API на сайте с помощью PHP;

- напишем на Kotlin простенький макет приложения для звонка.

Читать далее
Всего голосов 4: ↑2 и ↓20
Комментарии2

Как 1С и голосовой робот МТТ помогли автоматизировать уведомления клиентов в клинике

Время на прочтение14 мин
Количество просмотров1.8K
«Здравствуйте, Вы записаны на завтра, 5 июня 2022 года, на прием к стоматологу, в 10:05. Вы придете на прием?».

Пожалуй, каждый из нас, в той или иной форме получал подобный звонок от оператора колл-центра клиники. На фоне другие операторы кликают клавишами, доносится гул их голосов. Усталым голосом оператор отрабатывает скрипт, кладет трубку. Полезный звонок, надо поставить напоминание в телефоне, предупредить коллег, что с 10 до 11 будешь не на связи.

Такие звонки достаточно просто автоматизировать, обрабатывать и отслеживать. Мало того, с точки зрения комфортной беседы, исполнение такого скрипта роботом с простыми вариантами ответа — «Да», «Нет», «Оператор» — создают более привлекательное впечатление о бизнесе, который инициирует звонок. Приятным голосом, за короткое время, вы получаете полезное сообщение, что может быть удобнее?
Читать дальше →
Всего голосов 3: ↑1 и ↓2-1
Комментарии6

Теперь наш синтез на 20 языках

Время на прочтение7 мин
Количество просмотров12K

hero_image


В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много других фишек.


В этот раз мы добавили:


  • 1 высококачественный голос на русском языке (eugeny);
  • Синтез на 20 языках, 174 голоса;
  • В список языков входят 5 языков народов СНГ: калмыцкий, русский, татарский, узбекский и украинский;
  • В список языков входят 5 вариаций на тему романо-германских языков: английский, индийский английский, испанский, немецкий, французский;
  • Также в список языков входят 10 языков народов Индии;
  • Новую значительно улучшенную модель для простановки ударений и буквы ё со словарем в 4 миллиона слов и точностью 100% (но естественно с рядом оговорок);
  • Все модели наследуют все "фишки" прошлого релиза, кроме автоматической простановки ударений для языков отличных от русского;

Пока улучшение интерфейсов мы отложили на некоторое время. Ускорить модели еще в 3+ раза мы тоже смогли, но пока с потерей качества, что не позволило нам обновить их прямо в этом релизе.


Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →
Всего голосов 65: ↑63 и ↓2+61
Комментарии24

Как с помощью Python создать приложение для расшифровки речи в реальном времени

Время на прочтение6 мин
Количество просмотров18K

Научить ИИ разговаривать шёпотом — непростая задача даже сегодня. Но мы покажем, насколько простыми стали распознавание и транскрипция речи, по крайней мере, на поверхности. Интересно? Тогда добро пожаловать под кат.

Читать далее
Всего голосов 12: ↑8 и ↓4+4
Комментарии15

Разработка навыка для «Алисы» на основе Google Keep заметок

Время на прочтение4 мин
Количество просмотров3.7K

На данный момент я активно пользуюсь приложением Google Keep для управления заметками на смартфоне. Для покупок в магазине достаточно удобно пользоваться заметками вида "чеклист", о которых и пойдет речь ниже.

Как правило для покупок в магазине используется один и тот же набор наименований. Если заполнить такой список, то в последующем при добавлении новых пунктов будут отображаться подсказки по уже добавленным, что достаточно удобно.

Казалось бы причем тут Алиса... так вот еще удобнее было бы добавлять такие пункты покупок в список, используя голосовой помощник от Яндекса.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии6

«А поговорить?» или делаем звонок для подтверждения заказа в интернет магазине с помощью МТТ VoiceBox

Время на прочтение17 мин
Количество просмотров2.6K

Экономическая ситуация нынче нестабильная, лишних денег у людей нет. И вот значится обратились ко мне товарищи со словами: "Ты же когда-то там сайты делал, помоги разобраться". После такой просьбы пришлось мне сдувать пыль вековую с постаревших связей нейронных, да бубен шаманский доставать.

Но не переживайте, эта статья не о том, как я спустя 12 лет снова сел ковырять сайты на PHP. Всё это банально и писать об этом на Хабр я бы не стал.

А вот, что мне действительно было интересно, так это поковыряться в настройках голосового бота. Никогда раньше с таким не сталкивался и настолько меня это увлекло, что по горячим следам начал писать статью.

Вы готовы загибать пальцы?

Итак, сегодня мы с вами:

Настроим сценарий голосового бота для подтверждения интернет заказа.

Одним глазом взглянем на API для управления ботом и отправим пару запросов через Postman.

Добавим пару кастомных действий в WooCommerce, чтобы робот вместо оператора разными голосами подтверждал заказ.

Читать далее
Всего голосов 7: ↑4 и ↓3+1
Комментарии14

Альф, переведи мне на телефон миллион рублей

Время на прочтение14 мин
Количество просмотров7.6K

Или нюансы тестирования и разработки голосового помощника в банковском приложении.

А нюансов достаточно. Например, однажды мы тестировали модуль Яндекса, который закрывает звёздочками нецензурные слова в диалоге с голосовым помощником. Он работает в нашем приложении Альфа-Мобайл с октября 2021 и его зовут Альф (Alf). Он умеет оплачивать счета, переводить на телефон и озвучивает курс доллара голосом Геральта — Всеволода Кузнецова. 

В статье мы расскажем как устроен голосовой помощник, как мы тестируем его навыки (даже после лечения зубов), зачем нужны автотесты для проверки работоспособности голосового помощника и где они находятся в пирамиде тестирования, что такое сенситивы и для чего используем нейросеть CAILA (спойлер: от неудобных вопросов).

Читать далее
Всего голосов 29: ↑22 и ↓7+15
Комментарии22

Голосовые ассистенты. Краткий обзор

Время на прочтение4 мин
Количество просмотров11K

Сегодня существуют множество текстовых каналов связи (почта, месседжеры, социальные сети и др.), но  пользователь иногда отдает предпочтение обычному звонку для передачи большого количества информации. А что будет, если он не дозвониться? Как правило, он пытается позвонить еще раз. И если звонящему это не удается, то он может просто забыть передать необходимую информацию или передать ее со значительной задержкой.

И вот здесь  на помощь приходит голосовой ассистент, который не только может пообщаться с абонентом, но и перевести его сообщение в текст и выслать конечному абоненту.

Конечно, данный инструмент нужен не всем, но если у человека высокая голосовая нагрузка или него расписан день по минутам, что нет времени на ответ на звонок, то голосовой ассистент – отличный помощник.

Сейчас абоненту мобильной связи доступны следующие голосовые ассистенты:

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии9

Настольный клиент для Yandex Speechkit text2speech на коленке

Время на прочтение3 мин
Количество просмотров3.6K

Вчера понадобилось мне записать голос для голосового (IVR) меню. Решил воспользоваться голосами от яндекс.облака, тем более что они теперь все высококачественные, и от человеческого неотличимы. Но как бы это сделать поудобнее, чтобы не надо было потом редактировать и конвертировать? Казалось бы, можно воспользоваться демкой на странице описания, но во первых там есть ограничение длины текста, во вторых она дает сохранить только запись в формате ogg, и в третьих иногда добавляет в запись рекламу. Оно и понятно в общем то, эта демка предназначена для показа технологии а не для коммерческого использования.

Резюме - надо получать записи как положено, через api, тем более что оно простое и понятное, только небольшая сложность с авторизацией. Но то что оно несложное не значит что им можно легко и просто с нуля воспользоваться, нужен хоть какой то интерфейс.

Беглый гуглёж ничего не принес, только несколько малопонятных проектов на гитхабе.

Уже думал быстренько наваять какой нибудь свой веб-интерфейс но тут вспомнил что есть Postman. Для тех кто не в теме - это замечательная программа для тестирования любых api интерфейсов.

Под катом - как настроить Postman для преобразования текста в речь.

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии3

Ирина, голосовой помощник. Продолжение

Время на прочтение7 мин
Количество просмотров19K

— Слушай, она меня на кухне не слышит.
— Ну да, далековато. Давай дополнительный микрофон протянем.
<покупается 5 метров кабеля>
— О, классно!
— ...
— Теперь в комнате не работает.

Это продолжение статьи Ирина — опенсорс русский голосовой помощник. Offline-ready - про голосового помощника, не зависящего от крупных корпораций. Расскажу, что улучшилось за два месяца с момента прошлой статьи.

TL;DR> Отлажен клиент-сервер с несколькими микрофонами/машинами; можно командовать по всему дому. Сделан Телеграм-клиент. Несколько новых голосов (TTS). Обработка голоса в контексте (можно делать голосовые игры). Интеграция с Home Assistant. И ЕЩЁ больше плагинов и документации.

Ладно, рассказывай, что нового
Всего голосов 43: ↑41 и ↓2+39
Комментарии24

Ближайшие события

Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

Время на прочтение8 мин
Количество просмотров47K

hero_image


В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.


Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:


  • Снизили размер модели в 2 раза;
  • Научили наши модели делать паузы;
  • Добавили один высококачественный голос (и бесконечное число случайных);
  • Ускорили наши модели где-то примерно в 10 раз (!);
  • Упаковали всех спикеров одного языка в одну модель;
  • Наши модели теперь могут принимать на вход даже целые абзацы текста;
  • Добавили функции контроля скорости и высоты речи через SSML;
  • Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
  • Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).


Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →
Всего голосов 158: ↑157 и ↓1+156
Комментарии100

Уход Google из России — контрольный выстрел в голову технологий страны?

Время на прочтение4 мин
Количество просмотров105K

За последние два месяца сфера технологий в России претерпела множество изменений. Крупные корпорации, да и в целом бизнес IT выходит из страны так стремительно, что порой кажется, что это невозможно, ведь уходят даже такие столпы, которые инвестировали в нашу страну больше, чем во все остальные вместе взятые. И вот одной из немногих в этом списке стоит корпорация добра -- Google. Сразу отмечу, что статья будет ориентирована на технологии и эту часть, политическую сторону вопроса обсуждать не будем. Все данные и предположения являются точкой зрения автора и направлены на обсуждение картины, которую пока никто описывать не хочет.

Россия для Google или Google для России?

Так уж повелось, что часто иностранный бизнес в нашей стране использовал ее только как площадку продаж, не инвестируя в разработки и локализацию сервисов. В качестве примера можно привести Apple, которая выжимала рынок по-максимуму, но новые технологии не привносила в страну или делала этот "напоследок".

Модель Google здесь была буквально наоборот: компания приносила и инициировала самые передовые технологии именно в нашу страну. О чем же речь?

Бесконтактные платежи в России

Именно Google одной из первых в нашей стране в начале 2017 года запустила бесконтактную оплату платежей Android Pay (Google Pay), доступную как на смартфонах, так и на умных часах. До 2021 года Россия была одной из 8 стран мира (наряду с США, Великобританией и т.д.), где эта технология работала на умных часах.

В середине 2021 года Google pay первым в мире (за пределами США) получил поддержку эмуляции транспортных карт "Тройка" и записи их в телефон (подробнее здесь).

Читать далее
Всего голосов 240: ↑189 и ↓51+138
Комментарии679

А как настроен ваш умный дом? Homekit, Яндекс дом, голосовые сценарии, web интерфейс с управлением и аналитикой

Время на прочтение6 мин
Количество просмотров10K

Давно я думал о внедрении системы умного дома в свою квартиру, сравнивал технологии и контроллеры, читал обзоры, и когда подошел момент делать электрику в квартире решил остановиться на беспроводной технологии Z-Wave - большой ассортимент производителей и совместимых устройств, шифрование данных, возможности по интеграции. Задачи были простые: управление освещением, теплым полом, радиаторами отопления, кондиционером для летнего времени года, защита от протечек воды, смарт замок на входную дверь и базовая система безопасности.

В качестве основной системы выбрал контроллер с ПО Z-Way на основе платы расширения RaZberry 7 Pro.

Плата позволяет мини-компьютеру Raspberry Pi управлять оборудованием умного дома Z-Wave. Есть встроенная интеграция с HomeKit, Яндекс Алисой, Google Home и понятный web интерфейс. Совместим с Raspberry Pi 1/2/3A/3B/3A+/3B+/4B и даже возможно подключить к Orange Pi.

Нужно только установить ПО Z-Way. Я использовался имеющийся у меня Raspbery Pi 3b+.

Читать далее
Всего голосов 14: ↑13 и ↓1+12
Комментарии15

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

Время на прочтение3 мин
Количество просмотров59K

Бот конвертирует голосовые сообщения на русском языке в текстовый формат, также работает с загруженными одноканальными аудиофайлами. Его можно использовать даже в групповых чатах. В основе решения — технологии SmartSpeech от SberDevices.

Читать далее
Всего голосов 17: ↑16 и ↓1+15
Комментарии36

Собственный голосовой помощник off-line

Время на прочтение12 мин
Количество просмотров13K

Microphone вектор создан(а) storyset - ru.freepik.com

Никогда не был любителем голосового интерфейса, но пробовал дома и Amazon Echo, и Алису. Все-таки очень долго это и недостаточно надежно - произносить фразу и думать потом - правильно ли меня поняли и всё ли сделано, как я хотел.
Но после прочтения статьи и, главное, обсуждений после нее я пришел к выводу, что есть варианты, когда это правда удобно. Собственно, самым ярким мне показался пример с кухонным таймером - не хочется грязными руками что-то трогать - голосовой интерфейс тут идеален. А попробовав приложение и почитав код коллеги @janvarev я понял, что современные средства распознавания уже вышли на очень приличный уровень и легко подключаются в проекты с открытым кодом. Дальше стало интересно сделать что-то более удобное и более стабильно работающее (без обид, но проект "Ирина" у меня не весь заработал при вменяемых затратах времени и настроек там меньше, чем мне хотелось бы).

Читать далее
Всего голосов 14: ↑14 и ↓0+14
Комментарии8

Как создать своего бота: 4 способа для новичков и профи

Время на прочтение18 мин
Количество просмотров82K

Чем выше спрос на разговорные интерфейсы, тем больше решений на рынке для разработки ботов. Но не всегда понятно, какое выбрать — речь даже не про конкретный продукт или вендора, а про сам инструмент. Например, можно купить уже готового бота, заказать разработку, сделать все своими силами в конструкторе, с помощью фреймворка или диалоговой платформы. Мы подготовили подробнейший гайд по основным способам создания бота.

Читать далее
Всего голосов 8: ↑7 и ↓1+6
Комментарии7

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

Время на прочтение17 мин
Количество просмотров21K

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью. 

Читать далее
Всего голосов 5: ↑3 и ↓2+1
Комментарии1