WSN3 29 янв 2017 в 20:54

Джарвис снова в деле

4 мин

54K

DIY или Сделай сам

Из песочницы

+23

Комментарии 55

Xandrmoro 29 янв 2017 в 22:41

Наверняка, каждый мечтает о своем голосовом ассистенте

Но ведь голос (и вообще текст на естественном языке) — самый неудобный способ управления?

tmin10 29 янв 2017 в 23:38

Нужно, чтобы мысли читал! Ну а пока технологии так далеко не шагнули, нужно предугадывание желаний пользователя с возможностью ручной коррекции.

Bluefox 30 янв 2017 в 11:27

Очень даже удобно. Я реально пользуюсь управлением светом.
https://www.youtube.com/watch?v=U-6_s7yuGQE&t=28s

Nikobraz 29 янв 2017 в 22:53

А я хочу нормальный нейроинтерфейс для клавиатуры

tmin10 29 янв 2017 в 23:38

В идеале нужен нейроинтерфейс как в матрице: чтобы отключить тело и полностью перейти в VR.

dron_k 30 янв 2017 в 00:22

Чтобы там набирать на клавиатуре.

Kirsch 30 янв 2017 в 08:49

noonv 30 янв 2017 в 11:01

Пока текущие возможности и технологии по набору текста при помощи нейроинтерфейсов сильно уступают в скорости набора.

kernel24 30 янв 2017 в 00:20

Чего уже мелочиться, зачем вам это бренное тело, всех в матрицу :)

Jogger 30 янв 2017 в 00:57

>Наверняка, каждый мечтает о своем голосовом ассистенте

Только если он будет комплектоваться телом-андроидом. Я совершенно не представляю, зачем мне голосовой помошник, который не может ничего сделать. Большинством функций умного дома, как по мне, куда удобнее рулить с графического или текстового интерфейса. Вот попробовал я Кортану — ну, поигрался немного, но так и не придумал ей практического применения. Может быть об этом и мечтают люди, у которых нет навыка работы с клавиатурой (хотя опять же, в большинстве случаев хватает навыков работы с мышью или тач-панелью), но зачем такой помощник гикам — ума не приложу.

toteKopf 30 янв 2017 в 01:32

Не всегда, например, мне просто лень что-то тыкать на планшете (на планшете это будет несколько нажатий, проще уж воспользоваться обычным выключателем), когда я захожу домой, проще голосом сказать свет. И далее остальные применения, по той же схеме. Можно взглянуть на это иначе — кому как удобнее.

Jogger 30 янв 2017 в 01:36

Опять же, мне проще щёлкнуть выключателем, чем что-то вслух произносить. И намного быстрее. И шансов что мою команду неправильно распознают чуток поменьше. И ложных срабатываний почти нет (разве что если спиной заденешь). Нет, ну пожалуй если у кого-то квартира большая, а выключатели расположены неудобно, и зайдя в комнату до выключателя надо идти — может и удобно, я ж не знаю. Но как-то слишком много условий чтобы писать «каждый мечтает».

НЛО прилетело и опубликовало эту надпись здесь

gsaw 30 янв 2017 в 10:35

Я Алексу прошу
* Включить музыку пока готовлю
* Включить/выключить свет на кухне если руки заняты
* Включить/выключить монитор (на нем нет физической кнопки)
* Включить/выключить свет в зале когда мы на диване телек смотрим к примеру
* Поставить таймер на N минут
* Узнать погоду
* Включить/выключить группу приборов
* Включить отопление

В самом начале еще всякую ерунду типа «сколько лет Путину» или «какое расстояние до солнца» спрашивали. Но быстро надоело. Так да, если выключатель в пределах пары метров, то проще им щелкнуть, чем выговаривать фразу, которую надо еще правильно сформулировать. Но все же Echo dot стоит потраченных 50 Евров, хотя и нервирует иногда, своей тупостью.

НЛО прилетело и опубликовало эту надпись здесь

gsaw 30 янв 2017 в 11:50

нет конечно, к сожалению русского нет и я думаю никода не будет. Вся надежда на google home. Google Assistent уже понимает русский, письменный, а голосовое управление еще нет.

Nikobraz 1 фев 2017 в 06:51

(del)

BurlakovSG 31 янв 2017 в 15:08

Включить/выключить свет в зале когда мы на диване телек смотрим к примеру

А как успехи с распознаванием голоса при работе какого-либо фонового звука?
Так же хотелось бы услышать ответ на этот вопрос от автора статьи.

gsaw 31 янв 2017 в 17:25

Про Алексу. Если тишина, то голос не надо повышать, можно обычным тоном говорить. Если в соседней комнате работает телевизор, то это распознованию практически не мешает. Если в той же комнате (у меня это кухня) булькает к примеру кофеварка или работает вытяжка то приходится повышать голос. Иначе либо не понимает, либо «делает вид», что ничего не услышала. Если телевизор сделать совсем громко, то приходится громко говорить. Если алекса сама музыку воспроизводит, то достаточно, что бы она услышала свое имя, она тут же приглушает звук. У меня зал по соседству с кухней, из зала я тоже могу отдавать комманды, правда приходиться повышать голос и глушить телевизор.

В принципе неплохо работает, иногда есть какие то непонятки. Некоторые слова упорно не хочет понимать, возможно потому, что я на иностранном для меня языке говорю. Хотя в логе видно, что предложение поняла. Говорю к примеру «включи монитор», она все распознала, видно в логе, но все равно переспрашивает, какой девайс я имел ввиду. Если тут скажу «монитор» она его включает. Я обошел эту проблему переименовав монитор в «компьютер». Стала понимать слету, даже шепотом.

Но вот из-за таких непоняток невольно начинаешь повышать голос и говорить как робот. У меня такое чуство, что проблема не в распозновании речи как таковой, а понимании семантики.

НЛО прилетело и опубликовало эту надпись здесь

spc 30 янв 2017 в 09:39

По моему личному мнению, с вероятностью в 99,9% такого не будет в ближайшие не знаю сколько лет. А то, может и никогда не будет.

Поэтому только условные сценарии, которые более-менее покрывают потребности обитателей. Ну либо мириться с приличным количеством ошибок, если полагаться на некое подобие искусственного интеллекта, который пытается силой своего скудного разума пронзить привычки человека.

tmin10 30 янв 2017 в 10:49

Ну почему. Главная проблема точного детекта людей в квартире. Если решить её (например продвинутыми датчиками движения, может даже какие-то примитивные 2д лидары), то можно запустить систему в режим обучения, чтобы она изучила привычки людей и потом старалась их воспроизводить. Раз учат нейронки водить авто, то и угадывать, что если я захожу в комнату и там темно, то нужно включить свет уже не сложно.

spc 30 янв 2017 в 11:05

И вот я снова становлюсь занудой. Собственно, здесь (на ГТ) каждый, кому не лень, говорит, что то, что мы называем умным домом, это не умный дом.

Вот и я соглашусь: сейчас дома автоматические. А вот до умного нам как до Марса пешком.

Предположим, вы обклеите все датчиками и даже поставите камеры, которые будут (вместе с другим железом) распознавать пол и возраст каждого. Но вот ситуации:

а) Вы приходите домой один
б) Вы приходите домой с известной дому дамой
в) Вы приходите с неизвестной дому дамой
г) Вы приходите домой с известной дому дамой, которой неизвестно, что в пункте в) вы приходили домой с неизвестной дамой
д) Вы приходите домой с известной дому дамой, с которой романтика уже закончилась

Как дом будет понимать кого как встречать, ну или хотя бы кому какой свет — где поярче, где потише? Вот поэтому я и говорю, что пока что можно базироваться только на сценариях, которые более-менее учитывают общие алгоритмы поведения.

tmin10 30 янв 2017 в 11:44

А зачем прямо идеально чтобы реагировал? Он должен кпредугадывать что-то несложное, остальное можно и руками подкрутить, благо это довольно редко. Т.е. грубо говоря работать на простых кейсах, которые покроют 90% времени: включить свет по приходу, сопровождать движение по коридорам их подсветкой, вечером закрыть жалюзи, утром их открыть, согласуясь с будильником.

spc 30 янв 2017 в 11:49

Повторюсь, там вон выше пишут «любой умный дом». Вот именно поэтому.

НЛО прилетело и опубликовало эту надпись здесь

spc 30 янв 2017 в 12:11

Я вижу вы с новой спутницей?

Вот это как раз глупый дом )

Xandrmoro 30 янв 2017 в 16:59

Отчего же глупый? Просто говорить это надо по нейроинтерфейсу или, хотя бы, микронаушнику :)

Akronix 30 янв 2017 в 10:04

PIR датчики влепили и работает)

НЛО прилетело и опубликовало эту надпись здесь

hzs 30 янв 2017 в 08:33

В принципе, ничего не мешает сделать Джарвиса для обычного ноутбука.
Ты за ноутом, микрофон на расстоянии максимум метра.
Команды типа «Включи новости/музыку», «зайди на Гиктаймс/Баш/ещё-куда-нибудь».

imm 30 янв 2017 в 08:36

Команда «б**ь» отменяет последнее действие?

AllexIn 30 янв 2017 в 10:01

Я вот чего не понимаю:
телевизор, музыкальая система, вентиляция — все эти штуки являются частью системы умного дома.
Почему нигде не внедряют систему распознавания голоса для умного дома, которая из звукового потока убирает известыне ей звуки?
Звук из телевизора мешает распознавания? Да нет проблем, просто уберите из входного потока звук телевизора. У вас же есть доступ к звуковому потоку телевизора.

tmin10 30 янв 2017 в 10:50

Звук-то не идеально будет идти в микрофоны, стоит учитывать переотражения от стен, поглощение и прочее.

НЛО прилетело и опубликовало эту надпись здесь

gsaw 30 янв 2017 в 16:47

Я вот думал — пульт ду на e-Ink, с гироскопом и может быть с компасом. К примеру настроить несколько схем. Для выключения света две кнопки, для телевизора много специфичных кнопок, для управления жалюзями тоже две кнопки и может быть контрол для диммера. А потом выбрать схему для лампочки, направить пульт на лампочку и зафиксировать положение гироскопа и компаса. Так же с телевизором и окном. Потом направил на телек, пульт сам включит схему с кнопками для телефизора. Направил вверх на лампочку и автоматически активируется схема для управления лампой.

Конечно это будет работать, если пульт всегда только на одном месте будет использоваться. У меня по крайней мере так. Грубо направления лево — окно, прямо — телевизор, вверх — лампа должно быть достаточно для выбора лайоута.

НЛО прилетело и опубликовало эту надпись здесь

w1nterfell 31 янв 2017 в 13:27

Надо сделать звуковую отвертку!

НЛО прилетело и опубликовало эту надпись здесь

noonv 30 янв 2017 в 11:05

Расскажите подробнее про качество распознавания. Какой процент ложных срабатываний?

Bluefox 30 янв 2017 в 11:30

Вот бы видео посмотреть, как это работает. Если тормоза (дольше 2 секунд), то пользователю надоест ждать.

kazenniy 30 янв 2017 в 12:25

Яндекс предоставляет бесплатно говорите? А в условиях использования SpeechKit Cloud пишут: «Для знакомства с технологией предусмотрен бесплатный тестовый период — 1 месяц с момента отправки первого запроса на сервер.

Чтобы продолжить использовать SpeechKit Cloud после этого, необходимо заключить договор. Можно приобрести пакет (фиксированное количество запросов в месяц) или оплачивать запросы по факту.

Стоимость лицензии зависит от количества обращений и в среднем составляет 400 рублей за 1000 запросов.»

WSN3 30 янв 2017 в 14:50

Yandex SpeechKit Cloud — платный продукт. Тем не менее мы даём возможность использовать его бесплатно, если Ваш проект подходит под одну из этих категорий:
— для личного использования (система «Умный дом», персональный ассистент, робот, голосовое управление ПК);
— образовательный (для подготовки диплома, реферата или обучения студентов);
— благотворительный (направленный на помощь людям с ограниченными возможностями).
При этом Ваш сервис должен отправлять к серверу Яндекса не более 1000 запросов в сутки. Если Вы рассчитываете, что запросов будет больше, сообщите нам об этом на voice@support.yandex.ru.

Segmentq 30 янв 2017 в 15:21

То-то я думаю, в воздухе витает устойчивый запах яндекса, и действительно — реклама собственной персоной :)
А вообще была тут как-то статься аналогичная только с сервисом гугла.

jhonyxakep 30 янв 2017 в 19:33

Как вариант использовать встроенный в Google Chrome и Chromium голосовой движок. Он работает локально и умеет в непрерывное распознавание. Из минусов конечно сам Chrome, он тяжелый для Малинки.

Для полноценного использования можно реализовать с помощью Electron, там тоже работает распознавание

nIx0iD 17 янв 2018 в 13:01

Смущает только ограничение в 3 секунды. Я делал для android-а, там он слушает, пока продолжаешь говорить. Уже год прошел — никак не дорабатывали этот момент?

nIx0iD 19 янв 2018 в 14:07

Ошибка в коде кстати:

'arecord -B --buffer-time=1000000 -f dat -r 16000 -d 3 -D plughw:1,0 send.wav'

Либо -B лишнее, либо --buffer-time

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Джарвис снова в деле

Комментарии 55

Публикации

Истории