Как стать автором
Обновить

Комментарии 67

Можно как то подсказать Алисе что она отвечает не в тему если она отвечает не в тему?
Может есть всякие контрольный фразы типа «За базаром следи!» или «Ты тупая?». И она запускает переучивание на последнюю фразу.
В диалоге можно поставить палец внизи выбрать причину некоректности ответа.
Там есть кнопка — «Ответ не соответствует запросу»
Этим вроде как занимаются ребята в Яндекс Толоке

Можно дизлайк ей поставить, если ответ не понравился

Можно нажать на «палец вниз» в приложении.

Алиса, попробуй миелофон)

Много компонентов

Когда будет колонка с Алисой?
Хотя есть и положительные моменты:
Чем дышат рыбы?
— Водой
Сколько ног у многоножки?
— 750

При этом:
Чему равна площадь круга?
— Давайте поищем!
Крупнейшая река в Сибири?
— Найдётся всё!
Сколько клавиш на клавиатуре?
— Ищу для вас ответ!
Кто изобрёл таблицу Менделеева?
— Сейчас найдём!
Очень информативно…

* Язык шаблонов вам не кажется переусложнённым? 30 длиннющих строчек для одного малюсенького шаблона. Может, поэтому у вас их так мало?
** Были идеи разнести логику и тексты? Какой-нибудь отдельный банк с вариациями ответов?
*** Python, да ещё с надстройкой — не слишком медленно для такой системы?

Что касается остальных вопросов:
* Я специально выбрал для слайдов сложный шаблон, чтобы проиллюстрировать всю мощь шаблонизатора. На практике большинство шаблонов выглядит как «В Москве сейчас {{form.temparature}} градусов»
** Ну, в шаблонах по большому счету нет логики, только тексты.
*** Нет, мы без особых проблем держим весьма немаленькую нагрузку. Весь действительно CPU-intensive код (например, применение нейросетей) написан не на питоне и вызывается через обертки.
«Дата основания Петербурга» — это ошибка классификатора интентов :( Починим

А над полнотой базы фактов мы, конечно, постоянно работаем.
Йес :)

Сколько стоит размещение рекламного интента в алисе?
Вроде: "- Алиса, какой самый лучший на свете банк?"?
Меня вполне устроит вариант «Алиса, как подключить интернет в Лобне?»
странно почему некто не спросил про взаимодействие с другими приложениями. Очень интересно сможет ли Алиса когда нибудь поставить мне будильник?
Поддержу вопрос. Для старта было бы отлично, если бы Алиса умела включать фонарик / таймер / писать сообщения и отмечать даты в календаре на телефоне.
Было бы неплохо в будущем увидеть Алису и в IoT в роли центра управления умным домом, например.

А озвучивание текста (если сравнивать русский) безусловно лучшее из всех голосовых помощников. Татьяна Шитова узнаваема).
вы хотите слишком много от набора шаблонов написанных ручками. причем каждый шаблон выстрадан не по одному месяцу наверняка. я честно говоря вообще не понимаю в чем смысл хайпа, подобная система собирается за пару месяцев силами любителя.

Мне кажется тут ошибка таргетирования кейсов использования на мобильниках и на компьютере. Приложение делается универсальное, а кейсы использования разные.
Для мобильника — да, хороший кейс спросить что-то быстро и получить голосовой ответ без необходимости искать телефон, разблокировать и запускать приложение.
А когда я работаю за компом — поиск информации не актуален. Мне в разы быстрее вбить руками одну строчку в браузер и получить исчерпывающий ответ с вариантами, чем сперва говорить "Привет, Алиса", ждать пока распознается, потом диктовать запрос, гадать распознается или нет и получать обрывочный ответ из первых 5 слов результата. За компом актуальны вещи которые надо делать не отрываясь от рабочего процесса — запустить фоном музыку (не только Яндекс.Музыку, но и standalone приложенный, причем одной командой сразу запустить на воспроизведение определённый плейлист — и фоном, без разворачивания принудительно окна и переключения фокуса), поставить напоминание/встречу, ответить на всплывшее сообщение в телеграме (опять же сразу, без переключения контекстов), озвучить пришедшую почту и т.п.

Про будильник первое что спросил, ответила что то вроде " Алексей обещал доделать к марту, но не сказал какого года"
Сможет. Обещаю.

А для TTS какую технологию используете? Wavenet или склеивание фонем? На сервере генерируется речь или на клиенте?

Вот это действительно интересно! Если в чем -то и был достигнут успех, то это в синтезе речи.
А вот это правда? pikabu.ru/story/alisa_takaya_umnaya_5673045 может и фейк конечно, но если не фейк, то странно что отличие в регистре одной буквы теряет взаимосвязь. Хотя может как раз и научилась нейросетка имена по большим буквам вылавливать, и при написании с маленькой буквы оно вообще по классификатору в имена не попадает.
Будете смеяться, но проблема была в том, что в базе ответов по ошибке была написана латинская «С» в слове «Сталонне». Мне всегда было интересно, о чем думал автор йцукен-раскладки, помещая русскую и латинскую С на одну и ту же клавишу.
Забавно, для обучаемой сети буквы это буквы, в прямом своём значении как абстракции, а для человека это не только абстракции конкретных букв но и визуальные образы, условная средняя яркость буквы, то как она выпирает из слова вверх или вниз. Получается в текущем виде Алиса никогда не поймёт картинки типа такой:
image
Я думаю, если будет потребность — такому её без проблем обучат. Распознавание ASCII графики — вполне реальная задача. Есть же уже кучу лет системы распознавания отсканированных текстов вроде FineReader.
Вообще, пользоваться Алисой пока невозможно как раз из-за того, что Алиса это fallback. На любой мало-мальски серьезный вопрос чат отправляет в Яндекс, а в случае с десктопным приложением это не только неожиданно, но и закрывает, собственно, чат с Алисой.

Поэтому помчавшись пару раз, идёшь искать сам и про Алису не вспоминаешь. Пока выглядит очень сыро.

Алиса смело отправляет меня в поисковик в ответ даже на несерьёзные вопросы. В итоге диалог с Алисой редко длится дольше 2-3 фраз.

Как я понимаю проблема Алисы в том, что у Яндекса просто нет ресурсов на массовую реализацию нейросети.
Например можно было бы реализовать поиск статьи по запросу в вики и выборка ответа из статьи вики. Вероятно плохо, но лучше чем ничего.
Почему нет, есть. Так оно и работает скорее всего. У них же есть технологии распознавания текста в свободной форме, и базу знаний наверняка составляли на основе анализа массы статей. Причём, что важно, не только из вики. Анализируются и профильные сайты. Например, на вопрос «земноводное, 5 букв» эта девушка ответит информацией со scanwordhelper.

Если ошибаюсь, надеюсь, hr0nix поправит)

Одно непонятно, почему база знаний Алисы не тождественна базе знаний поисковой строки? Сейчас получается так: Алиса посылает за ответом в Яндекс, а Яндекс уже выбрасывает колдунщика с быстрым ответом (вопрос о площади круга). Зачем так? Зачем поддерживать две базы?
К вопросу о разных базах знаний. Положил телефон рядом с ноутбуком:
Самая высокая гора?

> Она есть в приложении Яндекса на iOS и Android, а также в мобильном браузере и в виде отдельного приложения под Windows.
А приложение под Linux вы планируете сделать?

Все эти замечательные разработки становятся невостребованными, когда замечаешь, что Алиса подслушивает твои оффлайновые разговоры и Яндекс впоследствии выдает релевантную им рекламу. Я после этого попрощался с болтливой девушкой.


И (чтоб второй раз не вставать) — разработчики потратили время и нашли, видимо, действительно замечательное решение, чтобы Алису нельзя было удалить даже из списка процессов по Ctrl-Alt-Del (ведь завершить программу штатными средствами невозможно...), а надо ли оно голосовому помощнику?


(пишу впечатления по ранней версии, знакомиться с последующими — желания не возникло)

Нет, Алиса никого не подслушивает.

Если на секунду забыть про этическую составляющую вопроса, останется еще инженерная.

Например, на мобильном телефоне подслушивание очень быстро съест весь заряд аккумулятора из-за необходимости постоянно стримить речь на сервер распознавания. Я даже больше скажу, мы очень много инженерных усилий тратим на то, чтобы начинать слушать пользователя только в тот момент, когда мы на 100% уверены, что он обратился к Алисе, и, тем самым, экономить заряд аккумулятора. Пользователь, который удалил приложение из-за того, что оно разряжало его телефон, точно не принесет нам денег. А что мы ему прорекламируем на основе обрывков разговоров — это еще бабка надвое сказала.

Стоит также отметить, что нагрузка, которую создаст на сервера распознавания речи постоянный стриминг разговоров пользователей между собой, будет превышать нагрузку от использования Алисы на порядки. Другими словами, подслушивать — дорого. Есть намного более простые, дешевые и надежные способы понять предпочтения пользователя.

Но все любят теории заговора, я понимаю.

Ну как вы объясните, что я разговаривал с человеком по телефону, он интересовался фрилансингом, я посоветовал ему поискать в гугле "профессия программист фрилансер", и вскоре яндекс на ноутбуке выдал мне рекламу на тему профессии веб программиста и фриланса?


При том, что я фрилансю уже десяток лет и такой рекламы раньше не видел. Подозреваю, что вы не полностью владеете информацией на этот счет, и я далеко не конспиролог, ни в какие лунные заговоры не верю.

Дело не в любви к теории заговоров, а в чрезмерной агрессивности яндексных сервисов в сочетании с известными фактами о невидимом стуке. Я вот тоже регулярно смотрю на что-то яндексное из приложений и так же регулярно сношу, так как лезет яндекс в мою личную жизнь через мобильные приложения куда как наглее, чем я готов стерпеть. Nothing personal, как говорится.
Пользователь говорит: «Алиса, какую ожидать завтра погоду?»
...
В нем будет написано, что это интент погода, что погода нужна на +1 день от текущего дня, а где — неизвестно.

А если пользователь начал фразу в 23:59, а закончил в 00:03? Или в час ночи спросил?
Другими словами, как дела с обработкой граничных случаев в интентах?
Костыли на шаблонах или что-то более интеллектуальное?
Костыли aka бизнес-логика. Более интеллектуальные способы решения подобных проблем человечеству, боюсь, пока неизвестны.
НЛО прилетело и опубликовало эту надпись здесь
Я не из Яндекса, но работал в фирме, делавшей чат-боты по похожей технологии. Да, для отдельных языков были отдельные файлы шаблонов со своими правилами. Грамматика и построение предложений в разных языках отличается достаточно сильно чтобы не имело смысла пытаться натянуть разные языки на один шаблон.

Конечно от дублирования кода всячески пытались избавиться, всю независящую от языков логику выносили в джаваскрипт-методы, которые можно было звать из шаблонов. Но сами правила разбора и паттерны приходилось писать каждый раз заново.
НЛО прилетело и опубликовало эту надпись здесь
Порой такие перлы выдает. Скрины делать долго, но вот кусочек разговора.
Я: Ты любишь читать?
А: Обожаю
Я: Какие книги тебе нравятся?
А: Я родилась на улице Льва Толстого, поэтому испытываю к графу определенную слабость.
Я: Платоническую?
А: Не без этого.
Я: И какая его книга самая любимая?
А: Люблю книги с захватывающим сюжетом. Чтобы сначала ух, а потом ах, но в конце все хорошо. Например, трехтомник Кнута про алгоритмы. Особенно четвертый том.
Я: И что Кнут пишет в своем четвертом томе?
А: Получил.
Я: О чем Кнут пишет?
А: открываю яндекс
Я: Что тебе нравится в книгах Кнута?
А: 50 оттенков серого.
Я: Да что ты заладила про эти 50 оттенков?
А: Я ее читала.
Я: А получше что есть?
А: Ты читала ее?
Я: Нет, мне она не нравится
А: Почитай, тебе понравится.
Я: Точно нет
А: Не спорь с отцом.

Что? Говорите включить рекламу? По ходу она уже работает.
Там есть при регистрации «Вам уже есть 18?»?
Мы уже почти отучили Алису говорить о себе в мужском роде. Но иногда нет нет да и прорвется что-нибудь через все наши машинно обученные блокады.
«Болталка», выходит, не генеративная модель?
Выходит, нет.
Видимо генеративная модель им не подошла, т.к. она может в некоторых случаях вернуть полный бред, а это дискредитирует продукт. А выбор из заготовленных кандидатов (их конечно должно быть много) — это может ответ и не совсем в тему, но хотя бы согласованный вариант предложения на целевом языке.
Когда Алиса появилась впервые, её зачем-то назвали ИИ. Было конечно интересно. Первое, что я сделал — проверил её на интеллект нехитрым тестом:
Я: Дважды два.
А: Четыре.
Я: Прибавь два.
А несёт какой-то бред.

Суть теста такая, что любая интеллектуальная деятельность должна иметь контекст и память того, что было только что. У Алисы этого нет. В этой статье с интересом увидел, что оказывается есть, причём, если верить статье, используется повсеместно, вроде как любое произнесённое заполняет информацию в некоторой виртуальной «форме». И ещё эта, как её, анафора. Со второй попытки я сумел повторить пример с Эверестом из статьи, в первый раз моя фраза распозналась не совсем верно, и оно не сработало. Тогда я попробовал вызвать подобное поведение ещё хоть где-то. Не могу. Не выходит:
Я: Погода на завтра.
А: Завтра в Москве…
Я: А в Воронеже?
А: А ты где живёшь?

Короче, пока Алиса постоянно забывает нить разговора и не помнит даже предыдущей моей фразы, она в лучшем случае похожа на дауна. Человек, который не помнит предыдущей фразы ни своей, ни собеседника в реальной жизни производит пугающее впечатление.

Я думаю, что нужно сделать так, чтобы Алиса как раз всё-всё помнила и отвечала на вопросы только в контектсе предыдущих реплик. Пусть они забываются со временем (через несколько часов), пусть сбрасываются на специальные фразы типа «Так, давай всё с начала», но контекст забывать нельзя.

А болталка — прикольно, но совершенно бесполезно.
У нас, конечно, пока все не идеально с контекстом, и до ИИ нам пока далеко, но вот про Воронеж обидно было.

image

Ничего, Воронеж справится. Вот Вам хорошо. Хозяев Алиса слушает внимательно, а у меня забывает всё напрочь. Реакция на предыдущую фразу у меня бывает только если повторяю Ваши примеры. А у меня только так:


И ещё странно, что Алиса всё норовит в поиск послать. Пусть бы сама искала и озвучивала. Если не может от своего имени, то пусть отвечает типа «В этих ваших интернетах говорят ...»
Хотелось бы больше послушать про синтезатор речи, у Алисы он довольно неплохой.
Может, я вас немного разочарую, но «хайп» на Алису наблюдаю только среди детишек, которые радостно находят еще одно применение смартфону и могут часами «доставать» родителей найденными приколами Алисы. Взрослая аудитория после второй фразы, как правило, закрывает окно и в следующий раз открывает только когда совсем уж нет чего делать. Голосовое управление от Гугла удобнее, увы. Что в Алисе хорошего — точность распознавания голоса, тут да, почти всегда — точно, но вот дальнейшая реализация — на редкость бесполезная для меня, как пользователя.
крутая штука, ребенок постоянно балуется
ну как не стыдно
у хабра высокий уровень — ну кто нибудь с плюсами имнйти мужество
алиса это алекса гугла
и даже южный парк постебался
а уж про логистическую регрессию
греф купил яндекс — ему любопытно
ай все равно не опубликуют
мужчины — стыдно!
Больше всего меня в Алисе удивило качество генератора речи. Он лучше всех представленных на рынке (не удивительно, ведь она русскоязычная :)
И все равно.
А есть в планах выполнение каких-то сценариев? Вот я поставил Алису на компьютер, хочу чтобы Алиса запускала на моем компьютере команду если я попрошу. Помоему гораздо более нужная функция, чем голосом узнать погоду. Но найти упоминания об этом у меня не получилось.

А что такое «Толок» и как он работает? Если уже писали об этом — хоть бы ссылочку кинули… Интересно же.
Яндекс.Толока. Крауд-сорсинг наоборот: выполнение задач толпой за деньги.
Интересно узнать о том, как именно работает ASR Алисы. Есть ли предобработка на телефоне, или всё идёт потоком на сервер? Какая архитектура обеспечивает высокую скорость с хорошим качеством?

Удивительно, что купив Яндекс станцию с подпиской музыки от яндекса в подарок, Алиса не может включить конкретный плейлист…

Зарегистрируйтесь на Хабре , чтобы оставить комментарий