Как стать автором
Обновить
5
Седов Артём @SedovArtemread⁠-⁠only

Пользователь

Отправить сообщение
Если вы про акустическую модель, то мы занимаемся ей сами. Пока раскрывать все карты мы не хотим.
У нас очень хорошие отношения с отечественной компанией СТЭЛ. Их распознавание речи мы совместно адаптировали под наше железо и наши цели. Качество еще не измеряли, так как полностью устройство не собрали. Сейчас измерять качество нет смысла и необходимости.

Предвижу ваш вопрос и поясню от чего зависит качество распознавание.
Во-первых, необходимо качественно получить звук с помощью массива микрофонов. Эта часть системы соединяет несколько каналов воедино, обрабатывая звук, усиливая человеческий голос и подавляя шумы.

Затем обработанный звук отправляется системе распознавания. Здесь есть аспект: мы используем множество языковых моделей — это называется контекстное распознавание речи, когда знание темы реплики позволяет сузить языковую базу.
Получается, что качество распознавания зависит от совместной работы массива микрофонов, виртуального собеседника (для определения контекста диалога) и «пучка» систем распознавания.

Чтобы повысить качество распознавания звука с массива микрофонов, записывается акустическая модель: необходимо в разных условиях записать большое количество дикторов на разных расстояниях. Тогда распознавание речи приспосабливается к тому звуку, что будет слать массив. Дальнейшее адаптация системы к конкретному пользователю происходит очень быстро.

В данный момент мы только занимаемся акустической моделью для массива микрофонов и создаем множество языковых моделей. По каждой из них качество распознавания может варьироваться, т.к. они отличаются объёмом. Т.е. качество зависит от конкретной языковой модели.
Мы говорим про Лекси, правильно?)

Суть дополнительных приборов заключается в удаленной связи с Лекси. 1. Это может быть прибор типа «ухорот» (сами мы их производить не будем, а продавать — возможно), который слушает, передает звук на борт Лекси и отвечает его же голосом. С помощью таких приборов Лекси сможет локализовать свое общение с говорящим, определяя в какой он комнате. 2. Это может быть телефон. Через приложение можно будет просто позвонить Лекси или написать.

API для открытия заготовленных URL тоже планируем.

Озвучивание текста с возможностью прерывания Лекси вопросом — делаем.
Или управление горячими клавишами при работе в фотошопе ;-)

Насчет взаимодействия с мониторами. Есть идея, например, выводить визуальную информацию по запросу типа «Открой эту новость», «Включи скайп», «Скачай фильм» и т.д.
Да. Но в данной таблице я рассмотрел ассистентов, которые представлены как самостоятельные. У них есть рад преимуществ перед другими.
Синтез на видео олпенсорсный. На этом прототипе новый голос не стоит. Тот голос, который есть сейчас мы будем еще раз переделывать.
Это совершенно другой сегмент (мобильные голосовые помощники). Про них сравнительная таблица составляется.
Ответ готовит проект Лекси. Лекси умеет накапливать информацию о пользователе: его предпочтения (фильмы, книги), день его рождения, и т.д. Мы вводим понятие «модели пользователя», которую каждый Лекси будет заполнять. Модель пользователя – это, по сути, таблица со знаниями о пользователе. Там должны быть имя, возраст, пол, интересы. Информация о родственниках.

Соответственно, возникает и связи между моделями: Вася – отец Коли, Аня – жена Васи.

Модель пользователя влияет на поведение Лекси: на ее же основе реализована рекомендательная система.
Да, верно. Общение нельзя назвать свободным. Когда мы решали эту проблему в проекте Лекси, мы частично ее решили комбинированием тематических баз и технологии систем рекомендаций.
А ведь Паша всегда так внимательно расспрашивал о здоровье Ксении Федоровны
Картинка была взята с гуглапоиска по картинкам.
Добавил 7-ми минутное видео с Imagine Cup 2015
Дополнил пост материалом из отчетного поста Сколково. Ссылочки тоже добавил.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность