stanislav_as Mar 26 2015 at 11:05

Игорь Ашманов о будущем домашних роботов. Домашние роботы: накануне торнадо

23 min

17K

Доброго времени суток, Хабровчане!

Этим постом, который является переработанной отекстовкой выступления Игоря Ашманова в рамках конференции Skolkovo Robotics Conference 2015 в Гиперкубе «Сколково» 21 марта, проект Лекси (ВК, FB) открывает серию постов о проекте, используемых технологиях, собственных разработках и пережитом опыте команды. Данный пост является своего рода вступлением, кратким обзором отрасли и озвучивает читателю ряд актуальных вопросов.

К посту прикрепляем полное видео выступления:

Здравствуйте, меня зовут Игорь Ашманов. Я много лет (почти 30) занимаюсь разработкой программного обеспечения. Сейчас, в основном, всяких интернет-проектов.

Так получилось, что я связался с парой стартапов, парой проектов по роботам (прим.ред.: 1, 2). Я бы не хотел употреблять слово «инвестировать» в отношении стартапов по роботам, потому что, на мой взгляд, никаких инвестиций сейчас в этой сфере нет.

Вот, например, передо мной Дмитрий Гришин здесь говорил о том, что он инвестирует в стартапы по роботам. Он изучает рынок, как эти стартапы планируют зарабатывать, изучает бизнес-модели, аудиторию и так далее. Формально всё правильно, всё по венчурной науке. А мне лично кажется, что там все это инвестициями назвать нельзя. Это, на самом деле, просто вкладывание денег в собственное образование этого самого инвестора, в то, чтобы разобраться в рынке и понять, какие команды там есть, какие трудности, какие проблемы, где, что и так далее. Просто покупка знаний о существующей и будущей робототехнике. Потому что, на самом деле, в этой робототехнической отрасли, в той её части, которой вот я, в частности, занимаюсь – это домашние роботы, или роботы удаленного присутствия – там нет никакого рынка и ещё долго не будет. Нет бизнес-моделей и нет покупателей. Там пока вообще идёт речь не о рынке, а об одной некой очень важной, специальной вещи, про которую я сейчас расскажу.

Что такое искусственный интеллект

Начнём с уточнения общих понятий. Здесь все говорят про искусственный интеллект. Я пару слов про это скажу, чтоб мы говорили на одном языке. А искусственный интеллект – это то, что обязательно сейчас должно присутствовать в роботах.

Надо сразу оговориться, что есть два понимания искусственного интеллекта.

Первое — это бытовое, массовое, этакое голливудское понимание, это значит: антропоморфный робот, робот который, естественно, говорит, общается и так далее, при этом это кинетически, так сказать, способный робот, он двигается, может брать вещи, выполнять работу. У него обязательно есть осознание себя, эмоции, какие-то взаимоотношения с людьми, претензии к ним, любовь и всё такое. Ну и в дальнейшем, это, конечно, приходит к соперничеству с людьми, к захвату мира, к терминатору с оружием в руках и так далее.

Это голливудское представление о роботах довольно сильно формирует отрасль: те стартапы и те попытки сделать роботов, которые сейчас возникают. На самом деле, по моему, это полная ерунда, то есть это ну такая вот иллюзия, за которой люди в робототехнической отрасли гонятся так же, как в Пентагоне часто делают оружие, скажем, самолёты супернового поколения по итогам голливудских же фильмов об этих самолётах. Переусложнённые, слишком дорогие и не работающие по сути.

Там, в военной отрасли, конечно, всё происходит более цинично, потому что речь об очень больших деньгах. Заказывают блокбастер известному режиссёру про супер-гипер-мегасамолёт, невидимку, который зависает в воздухе и вытворяет разные трюки, потом приходят в Конгресс и говорят «Видели? Круто? А теперь дайте денег на это, у нас будет как в кино». И получается сверхдорогой самолёт, не решающий задач войск, да и обещанные трюки, в общем, выполняющий кое-как. Здесь та же самая история, с искусственным интеллектом.

Ну, а что значит искусственный интеллект с точки зрения разработчика? Вот я с 1983го года, то есть уже больше 30 лет, работаю в этой отрасли. Собственно, пришёл с Мехмата прямо в Отдел искусственного интеллекта Вычислительного центра Академии Наук работать, в 1983 году. Тем, кто этим ИИ занимается, известно более скучное определение ИИ: это такой пучок методов оптимизации, которые должны имитировать человеческие функции. Вот и всё. Причём, естественно, имитация человеческих функций происходит совершенно не так, как человек их выполняет. Понятно, машины, которые делают люди, и которые ездят быстрее, чем лошадь и летают быстрее птиц — не копируют лошадей и птиц. Они не перебирают ногами, самолёты не машут крыльями (по большому счёту, большинство из них, по крайней мере) и так далее.

Есть, конечно, направление искусственного интеллекта, которое заключается в том, чтобы понять, как работает мозг человека, и это повторить в металле и электронах. Это, на самом деле, маргинальное направление, и с моей точки зрения — тупиковое. Подробно объяснять нет времени, я просто скажу, что это моё личное мнение.

Таким образом, ИИ – это россыпь задач по имитации самых разных функций человека. Задачи создания компьютера, осознающего себя – среди них нет, по крайней мере у разработчиков, а не шарлатанов.

Ну вот, эти методы оптимизации (ну или там машинное обучение, как сейчас модно), они постепенно переводят часть задач имитации человеческих функций, часть этих функций, в категорию решённых задач. До того как задача ИИ решена, кажется, что в ней есть некая магия, волшебство. Как только эта задача решается, она теряет всю романтику, весь флёр романтичности, который её окружал. Например, скажем, 50 лет назад проверять правописание могли только очень культурные, образованные люди, учителя и так далее. Сейчас, понятно, об этом даже никто даже и не думает как об искусственном интеллекте. Везде эта функция есть, то же самое касается алгоритма Т9, который у вас в телефоне, то же самое касается поисковых машин и прочего. То есть как только задачи поиска картинок, распознавания мелодий в Shazam'е, антивирус, антиспам и так далее – а это все программы искусственного интеллекта, это все программы распознавания – как только они становятся повседневными, все забывают о том, что это искусственный интеллект. Для пользователей это просто как водопровод, вот есть какая-то полезная штука, она работает, и хватит о ней. Никто не думает о том что Т9, скажем, в телефоне — довольно сложная программа искусственного интеллекта. Подумаешь, слова подбирает. А там применены все те же самые хитрые методы, которые применяют для решения не решённых ещё задач ИИ.

Скажем, до конца не решена задача распознавания речи, хорошего распознавания любого диктора в зашумлённой аудитории или хотя бы в объёмной аудитории с расстояния, и так далее. К сожалению, не решена задача нормального синтеза речи, то есть синтезированную речь все ещё легко отличить от голоса человека, она пока звучит довольно дебильно и без интонации.

Машинный перевод пока нормально не сделан, с приемлемым качеством, как ни удивительно, хотя с него, вообще говоря, начинались все громкие обещания отрасли искусственного интеллекта, это такой Эверест для прикладной лингвистики. А их там два на самом деле, Эверест и К2, две вершины, вторая вершина — это диалог на естественном языке. И это тоже, в общем, пока ещё задача не очень решённая.

Вы все знаете онлайновые переводчики, которые есть в Гугле или Яндексе, которые страницы переводят; вы сами знаете, что они по сути не является переводчиком, это просто некое довольно корявое средство, помогающее понять смысл страницы на незнакомом языке. Переводить НА незнакомый язык с его помощью категорически не рекомендуется.

Распознавание смысла картинки (не поиск похожих, а тематическое тегирование) – не сделано.

Машинное зрение с приемлемым распознаванием трёхмерных сцен — нерешённая задача.

Поскольку все эти задачи не решены, они вот какую-то такую романтику ещё сохраняют, и кажется, что вот в том будущем искусственном интеллекте, в будущем роботе, который помощник человека, такой Джарвис или Пятница, они все будут решены, и это поражает воображение.

На самом деле, понятно, когда все это будет сделано, а рано или поздно это будет сделано и даже наверно робот будет хорошо имитировать человека, в этом никакой романтики уже, конечно, не останется. Все будут на это смотреть, как на нечто привычное, полезное и неинтересное, как на электронную таблицу или бронирование билетов через Интернет.

Я думаю, мы будем по-прежнему отличать робота от человека довольно легко; собственно, по-моему, даже здесь в Сколково будет делаться пара отечественных тестов Тьюринга, и можно будет посмотреть, как распознаётся робот, как отличается человек от говорящего робота (прим.ред.: Лекси тоже в нем участвует).

Мы говорим, таким образом, об имитации человеческих функций (возможно, совершенно какими-то другими, нечеловеческими методами), а не о том, что в машине заведётся разум. Я лично в это не верю. Это, на самом деле, для кинорежиссёров и журналистов. Можно обсудить, почему, но в другой раз. (прим.ред.: дорогой читатель, ждем твое мнение по этому вопросу в комментариях)

А теперь я хотел бы несколько общих слов сказать про робототехнику, ну и про домашних роботов.

Про домашних роботов

Есть такой исследователь Джеффри Мур, который написал несколько великолепных книжек про законы развития технологических отраслей вообще и технологических стартапов, в частности. Одна из них — это "Перепрыгивая пропасть". Может быть, кто-то из вас её читал. Очень рекомендую прочесть. А вторая, следующая его книга про то же — "Внутри торнадо". Он в ней вводит понятие «технологического торнадо», взрывообразного развития новой технологической отрасли. Такое «торнадо» на наших глазах возникало несколько раз, когда происходил огромный всплеск некой индустрии при появлении новой прорывной технологии. И там возникало сразу много пользователей, денег, производителей и так далее. Делались карьеры, рушились карьеры, делались состояния, менялся образ жизни миллионов и так далее.

Мы такие торнадо с вами видели несколько раз. Это, в частности, создание персонального компьютера, к которому приложили руку Джобс и Гейтс.

Затем, это — торнадо программного обеспечения, то есть модное в конце 80-х и начале 1990-х программирование, когда любая девушка считала, что это почетно — гулять с программистом. Затем в середине 1990-х произошел взрыв Интернета. Опять появлялись гигантские компании из ничего, на пустом месте, делались головокружительные карьеры и состояния, происходили громкие крахи и всё такое. Затем мы видели мобильники, но они были там, чуть-чуть в стороне от нас, айтишников. Ну а потом, вот, пожалуйста — смартфоны и планшеты.

Во всех этих случаях были общие процессы и закономерности. Самое интересное для нас – как выглядит состояние будущей отрасли «накануне торнадо».

Состояние «накануне»

Что происходит накануне такого торнадо? В первую очередь, это отсутствие всякого рынка, и самое главное — это туман в мозгах. Все чувствуют, что что-то готовится, но никто не знает, что. В частности, такая история была, когда персональный компьютер выходил на сцену. Вот Дмитрий Гришин сказал, что якобы Visicalc их вытащил всех и там какая-то из игр, но это, конечно, неправда. Он, к счастью, молод и не успел поучаствовать в этом торнадо. Я всё-таки успел захватить его конец, потому что начал в середине 80-х. Я тогда начал программировать проект правописания, который мы потом встроили в MS Word, примерно в 87-ом году, когда ещё первые персональные компьютеры только появлялись в Советском Союзе. Конечно, там не потому произошёл взрыв, что было создано какое-то конкретное приложение. А вот почему. Когда все это ещё делалось на коленке в разных гаражах, все эти люди знали друг друга, все они встречались на одних и тех же тусовках. Было там условно говоря, 17 моделей разных, несовместимых между собой компьютеров, некоторые из которых, например, не имели экрана или имели такой маленький зелёненький экранчик на светящихся проволочках, некоторые из них программировались путём верчения ручек, верньеров (не было клавиатуры и так далее).

Способ использования – основное условие торнадо

Что произошло? Почему началось это торнадо? Потому что кто-то (а это были довольно харизматичные люди, очень энергичные и так далее, вроде Джобса) предложили способ использования этого устройства.

Все решает, с моей точки зрения, способ использования. Что это такое? Я сейчас поясню. Способ использования — это то, что сделал Джобс со смартфонами. Смартфоны производились за несколько лет до того, как появился iPhone. Нокиа делала эти смартфоны в бесчисленных количествах. Я их покупал несколько раз. Они были довольно мучительные, ими было тяжело пользоваться. Некоторые из них были уже с тачскрином. Джобс по сути ничего не изобрёл, все элементы уже были изобретены и реализованы.

Это тоже один из признаков приближающегося торнадо, что технологии-то все уже есть.
Может, они не стандартизированы. Нет стандартных блоков, как сегодня говорили. Но, тем не менее, изобретать технологии не нужно.
Нужно их собрать вместе и сказать — вот эта штука, которая называется так-то, и вот так-то ее надо использовать.

Предложить, собственно, сценарий использования, парадигму. Я лично его называю «способ использования».
Надо дать пользователям эту концепцию, дать производителю направление развития. Тогда возникает рынок и пользователи. И тогда приходит и взрывается над головами технологическое торнадо. Понятно, что в робототехнике, в частности, в индустрии домашних роботов, с которыми я лично имею дело, этого ещё не произошло.

Вот ещё пример — автомобильная промышленность. Она была ровно в таком же состоянии «накануне», пока Форд не построил свой конвейер и не начал производить тот автомобиль, который мы знаем. На самом деле, автомобиль, который он производил, от современного автомобиля довольно мало отличается, по основным компонентам и функциям.

Тогда было, условно говоря, 300 гаражей по всему миру, где делали что угодно: двухколёсные, шестиколёсные самобеглые повозки, с лобовым стеклом, без него, с дверями, без дверей, с рулём, с джойстиком, с ручками какими-то, что угодно, с крышей, без крыши, с одним креслом, двумя, пятью и так далее. Что сделал Форд? Он предложил ту концепцию, которую мы знаем, то есть автомобиль, большинство элементов, которые сейчас в них есть.

И он её сумел навязать. То есть, на самом деле, для того, чтобы навязать способ использования, нужен не только сам приятный, понятный, очевидный способ использования вещи, представляющий собой достаточно заразный ментальный вирус, но нужна ещё харизма основателя и, наверное, ещё достаточно плотный посев этого вируса, чтобы плотность заражения была сразу большая.

У Форда это был просто конвейер, который выпускал очень много автомобилей по относительно невысокой цене. У Джобса тоже были такие возможности выпустить сразу много айфонов и очень сильно их прорекламировать.
И вот после этого, вот это вот облако самых разхнообразных уродцев… Я прошу прощения, что я не стал все это рисовать, тут все доклады с картинками. Но мне кажется, что умным людям и слов достаточно. Все это огромное разнообразие самых невероятных моделей самых невероятных устройств, все сжимаются в некий ствол очень похожих продуктов и бизнес-моделей, внутри которого и начинается настоящая конкуренция, настоящий бизнес и так далее.

Вот ещё пример — Интернет до Джима Кларка. Джима Кларка, может быть, никто из вас и не знает или знают не все, но это человек, который, собственно, и сделал Интернет. Он нанял автора первого некоммерческого браузера, сделал настоящий браузер, а именно Netscape Navigator, и вот после этого все взорвалось. Не до этого. Да, сам по себе Интернет уже рос достаточно быстро, как бурьян, уже был браузер Mosaic, но тем не менее интернет тем Интернетом, который мы знаем, сделал Джим Кларк (он вообще парень крайне необычный, он до этого сделал Silicon Graphics, который ответственен за все современные спецэффекты фильмов, которые мы знаем).
Соответственно, Калашников сделал штурмовые винтовки (assault rifles) тем, чем они сейчас являются и т. п.

Наверное, есть какие-то реальные, технические, финансовые, прагматические ограничения в том, какой способ использования вещи может быть навязан. Технически и финансово, наверное, делать шестиколёсный автомобиль менее выгодно, чем делать четыре колеса. Но тем не менее, общепринятый способ использования вещей очень часто странный (например, китайские палочки и иероглифы, галстуки или наручные часы), но просто он такой исторически и всё, и мы всем этим пользуемся, не задавая вопросов, почему.

Домашние роботы накануне торнадо

Я хочу поговорить про домашнего, персонального робота, и вот почему. Мне кажется, что вещи типа роботов удалённого присутствия или пожарных роботов, военных роботов или квадрокоптеров, или еще каких-то кинетических роботов, игрушек, — они нишевые, то есть настоящее технологическое торнадо в робототехнике разовьётся там, где будут вовлечены миллионы, а точнее – сотни миллионов пользователей.

Что это такое? Скорей всего, это будет какой-то персональный робот. Нам фантастика, Голливуд, а так же фантастические книжки уже показали, что это такое. Это какой-то робот, который живет с людьми, как дворецкий, как Дживс или Джарвис и во всем участвует в жизни семьи, в жизни человека и так далее. Небольшие взрывы будут происходить много где, вот сейчас уже происходит взрыв в области квадракоптеров, точнее, коптеров, управляемых/автономных и так далее. Но далеко не у каждого будет такой коптер. А вот персональный робот, так же, как персональный смартфон, в конце концов стремится к тому, чтобы быть у каждого; персональный компьютер тоже.

Значит, участвовать в торнадо с роботами, скорей всего, будет именно персональный робот. Такой персональный домашний робот будет у каждого или будет к этому стремиться. Вот там и произойдёт следующее торнадо. Это то, что по-английски называется «the next big thing», самая главная следующая штука.

Что сейчас? Мы видим как раз такое классическое состояние «Накануне», то есть туман в мозгах, никто не понимает что такое домашний робот, их очень много, они все какие-то ненужные, их всех одолевает проклятие пыльного угла.

Проклятие пыльного угла

Вот сколько я не видел роботов, которые покупают детям, себе домой мои знакомые, родные и я сам, на них всех лежит проклятие пыльного угла. Не позже, чем через неделю, две, этот робот оказывается разряженным в пыльном углу и им больше никто не занимается. Потому что скучно, потому что лень заряжать, потому что он не нужен.
Почему-то этот барьер до сих пор никто не преодолел: сделать робота, который держался бы хотя бы год.

Да, есть роботы-пылесосы, это очень нишевая штука и они есть у некоторых людей, которые очень любят порядок, и которым не лень выпутывать этого робота из проводов, заниматься им и так далее. Роботы-пылесосы живут относительно долго, но у большинства моих знакомых они точно так же попали в пыльный угол – просто через месяц-два, а не через две недели. Только очень занудные и тщательные люди имеют работающий робопылесос через год после покупки.

Но там есть интересный намёк, который показывает общее направление. Один мой партнёр по компании рассказывал:
«Вот сестра у меня тоже купила робопылесос; она говорит, что он, конечно, убирает, но самое главное, что бабушке теперь есть с кем разговаривать».

Надо понимать, при этом, что робопылесос вообще-то не разговаривает, он иногда противным голосом говорит что-то вроде: «Ошибка 502», когда запутался, или вообще не говорит, а пищит, когда запутался где-то или у него там что-то сломалось. То есть это бабушка с ним разговаривает. Когда бабушка одна дома, молодые ушли на работу и в садик, ей хочется с кем-то поговорить. Вот робот, он ездит, она ему, наверное, говорит: «Ох, ты мой маленький, запутался, сейчас, сейчас», она беседует с ним, есть о ком заботиться.

Ну и, конечно, раз нет предложенного и принятого массами покупателей способа использования, то нет индустрии и нет рынка. И не будет ещё долго, пока не будет предложен этот самый способ использования, когда все не скажут «Вот, вот это и есть робот, настоящий домашний робот.» Когда будет решён вопрос, а должен ли он быть антропоморфным. Я про это ещё скажу дальше. А должен ли он быть кинетически способным, то есть двигаться по квартире, или он может стоять на столе и не двигаться, когда будет понятно, говорит ли он, должен ли он распознавать речь и что у него внутри, но про это ещё чуть позже.

К сожалению, этот способ использования не предложен, именно поэтому я вначале сказал что, те средства, которые сейчас вкладываются в эту индустрию, это на самом деле не инвестиции, это плата за обучение, плата за исследования, плата за НИР, плата за то, чтобы вообще понять что там внутри, и каков может вообще быть этот способ использования домашнего робота.

Собеседник или помощник?

С домашним роботом имеется развилка на три дороги.

Первая — это разные нишевые применения. Понятно, что в конце концов в каждую микроволновку и стиральную машину будет встроен какой-то робот, говорящий. Уже сейчас вы можете видеть, что в некоторые платёжные автоматы в некоторых торговых центрах встраивается какая-то речь, и когда там в общем шуме ты платишь за телефон (я, правда, давно этого не делал, но, когда делал, слышал), там, оказывается, слабым, плохо слышным голосом этот автомат что-то тебе комментирует. Это такая известная в психологии вещь, называется «комментированное действие», очень важная штука для обучения и воспитания.

Этот «робот» что-то там комментирует, свои действия, но он, конечно, не распознает твою речь, это пока технически невозможно в таких условиях: обычно в шумном торговом центре ты тоже его почти не слышишь. В конце концов, конечно, вместо чтения инструкции по пользованию можно будет просто поговорить со стиральной машиной, я думаю. Либо с домашним роботом, который умеет управлять стиральной машиной, это и есть одно из следствий этой развилки, но, скорей всего, все производители будут в конце концов речевой блок во все свои устройства встраивать, особенно те устройства, которые посложнее, которые требуют разбираться в инструкции.

Как известно, возможностями даже простого видеоплеера люди пользуются примерно на 2-3 процента, никто не разбирается, что в нём есть ещё и вот когда смотрят на пульт с полусотней кнопок, большинство людей просто не понимают что там на кнопках написано и зачем они нужны. Вот если это можно заменить, то оно будет использоваться; последние умные телевизоры это уже пытаются заменить общением — они уже и голос понимают, жестами можно управлять, но в общем это будет во всей бытовой электронике. И в игрушках, я имею ввиду неваляшки всякие, плюшевые игрушки, обязательно будет речевой интерфейс — сейчас они уже говорят, часть из них даже есть уже. К сожалению, сейчас все настолько плохо сделано (китайцами, естественно), что и эти игрушки тоже попадают в пыльный угол.

Вторая возможность: домашний компаньон, то есть это собеседник, нечто говорящее, поддерживающее диалог (возможно, с секретарскими функциями).

Третий вариант: это домашний работник, антропоморфный андроид. Это то, что встречается в фантастике, то, что можно увидеть в книгах и фильмах Спилберга. Наверное, вы смотрели фильм «Искусственный интеллект». Нам показывают, как в доме живет на правах ребенка мальчик, очень похожий на человека, у которого, конечно, есть эмоции, проблемы с людьми и так далее. Мне кажется, это как раз технически сложная и не совсем нужная вещь.

Даже если это просто домашний работник, то от него будет требоваться физическая активность, он должен точно брать вещи, перемещаться среди мебели и по лестницам, уверенно распознавать трёхмерные сцены. К нему можно было бы добавить охрану, вызов специальных служб и тоже управление техникой. Лично у меня мнение однозначное: домашний андроид-помощник — это просто ошибка, это результат наведённой иллюзии из голливудских фильмов, это чудовищно трудно разработать и непонятно, зачем нужно.

То есть это стрельба из пушки по воробьям. Как я обычно говорю, если нужен робот-прислуга, проще взять робота удалённого присутствия, снабдить его манипуляторами и нанять филиппинку, которая за 10 тысяч километров будет всю эту работу делать, но при этом не нужно в этого робота встраивать чудовищно сложный искусственный интеллект, дорогие камеры и все остальное. И бояться, что он на кого-то наступит или что-то разобьёт, потому что ошибка в программе. А эта филиппинка не соблазнит мужа, не украдёт драгоценности и так далее, потому что она за 10 тысяч километров находится.

Таких неоправдавшихся иллюзий из фантастики есть довольно много. Известно, что во всех фантастических книгах и фильмах есть видеофон и все разговаривают с экранами, и сами себя показывают собеседнику. Как мы видим – технологии видеосвязи уже есть, а видеофон не прижился. Это была иллюзия. Ну так, кое-кто иногда пользуется скайпом. Но, скорее всего, видеофонов и не будет. Не потому, что связь плохая, видео некачественное. Все это уже есть и хорошего качества, хотя и дорого. А потому, что он не нужен.

Кому нужно, чтобы в доме все время люди смотрели, что ты делаешь? Очень многие люди выключают скайп не только потому, что он отвратительно работает с видео, а ещё и потому, что не хотят себя показывать. Просто разговаривают по скайпу, как по телефону. Выяснилось, что потребности в видеофоне, в общем-то, такой всеобщей нет, а во всех фильмах и во всех фантастических книгах она есть.

Мне кажется, что антропоморфные роботы из этой же категории. На самом деле, в них нет потребности.

Собеседник или помощник?

Что касается домашнего компаньона, там есть следующая развилка — это общение или помощь.
То есть или собеседник, для общения, для разговоров, с кем поговорить, как той бабушке. Или помощник, очень полезный, с секретарскими функциями, с деловыми и так далее, и так далее.

На самом деле, мы это можем видеть на существующих стартапах. Кто-то делает помощника на смартфоне и туда старается забить побольше функций, кто-то занимается поддержанием диалога на естественном языке.
Вот мы, например, занимаемся диалогом на ЕЯ. В стартапе Лекси стараемся его научить, в первую очередь, общаться.

Сейчас я ещё пару слов скажу про «за» и «против».

Помощник – за и против

С помощником есть проблема. Его не только трудно запрограммировать, потому что нужно кучу разъёмов делать к источникам данных. Проблема в том, что это — высокая ответственность. Ты на себя берёшь ответственность за точность информации, а её нельзя по-хорошему обеспечить. Например, подсоединяясь к разным сервисам в Интернете, ну либо ты должен с ними со всеми иметь очень жёсткий контракт (SLA) и поэтому платить много денег, либо ты имеешь информацию, которая может быть неточной или просто недоступной в этот момент, или ещё что-то.
Но основная проблема — в способе использования. Ведь есть уже опыт создания помощников типа Siri на Айфоне и другие такие же, довольно много делалось. Они все провалились, потому что они мучительные и нарушают привычные способы использования. Если ты хочешь зажечь лампочку, например, как тут мне объяснял кто-то, в умном доме через смартфон, тебе нужно секунд 10: разблокировать смартфон, запустить приложение, сказать ему «зажги лампочку», если он соединён с этой wi-fi лампочкой, он ее зажжёт.

Но ведь никто не смотрит в экран для того, чтобы с ним разговаривать. У нас есть «поколение больших пальцев». Оно уже сформировалось. Под него сделаны все удобные кнопки, все удобные движения. Совершенно непонятно, зачем нужен экран, в который ты и так уже втыкаешь, и при этом с ним ещё и разговариваешь.

В результате, большинство таких приложений оказываются в том же пыльном углу. Скачивают их много, Siri вообще стоит на любом айфоне. Про Siri они таких данных не дают, но, по слухам, так же как и у всех остальных, кто делает этих помощников, время их жизни — это полтора-два дня, примерно. Дальше ими не пользуются.

Устойчиво пользуются в тех случаях, когда у тебя есть только аудиоканал. Это автомобиль, например, когда руки и глаза заняты. Вот тогда ты, на самом деле, почти не смотришь на экран, когда заняты не только руки, но и глаза, ты должен смотреть на дорогу, и вот тогда эти штуки работают. Да, тут оно работает, но ведь это совершенно другое применение, и вообще говоря, видимо, аудиоканал – это и есть то, что должен захватывать собеседник, то есть в правильном способе использования он не должен иметь экрана. Вот, в частности, о способе использования первое такое более или менее разумное соображение – экран не нужен. Если ты должен смотреть в экран — тогда, извините, проще нажать на тачскрин или мышкой работать и так далее.

Эффект общения

Что касается виртуального собеседника, то вот почему я им занимаюсь. Я сделал несколько виртуальных собеседников еще в начале 2000-ых годов, очень простых, причем тогда мы еще использовали AIML — artificial intelligence markup language, который и сейчас используется группой энтузиастов вокруг профессора Richard Wallace. Это известный проект Alice.

Сейчас у нас свой язык. Я сделал компанию Наносемантика, которая делает роботов на заказ. Она даже уже прибыльная. Она делает всяких промоутеров, сотрудников тех. поддержки и так далее. Для деловых применений.

Так вот, тогда, в 2002 году, с нашими крайне простыми собеседниками произошёл очень интересный эпизод, который меня поразил: люди очень сильно переносили личность на этих собеседников, то есть они воспринимали их как личность даже зная, что это — робот. А многие тысячи людей проходили тест Тьюринга на этих собеседниках массово. То есть там были такие истории, когда люди писали в компанию, с этим роботом разговаривали: позови мне Васю, это мой сын, он у вас работает, если ты этого не сделаешь, я нажалуюсь твоему начальству, тебя уволят.
То есть мы видели такое многократно, мы же читаем диалоги.

Мы потом ещё сделали такой публичный сервис www.iii.ru, где можно было своего собеседника сделать. Там что-то в общей сложности под 2 миллиона их было сделано. И мы читаем диалоги. Довольно много людей разговаривают с этими собеседниками совершенно всерьёз. А когда мы такого собеседника встроили в ICQ, пока нас ICQ не забанил за гигантский трафик, там были сессии невероятной длины…

Средняя сессия была несколько сотен реплик, а максимальная была 1600 реплик. Это значит, что человек разговаривал 10-12 часов непрерывно. Причём этот собеседник не был «полезен», это был как раз такой балагур, офисный планктон, который разговаривает о том, что он хочет делать на выходных и так далее. Даже те, кто знали, что это — робот, все равно разговаривали с ним, потому что общение затягивает. Оно — заразительно. Матрица общения накладывается у человека на многое, в том числе, на коммуникацию с роботом. И это очень сильный феномен, который можно использовать.

Вот предыдущий докладчик говорил о визуальной коммуникации с помощью движения. Я не знаю, есть ли там этот феномен. Может быть. Может быть, если робот будет говорить языком тела, это тоже будет затягивать.

Но с речью, с текстом это точно так. Ответственность там ниже, чем у очень серьёзного помощника, потому что ты можешь разговаривать неформально, и, если ты не понял реплику, ты можешь сменить тему и так далее.
Опыт существующих систем общения таков, что виртуальные собеседники затягивают, но пока, они тоже в конце концов надоедают. Это потому, что у них слишком малая полнота. Это обстоятельство нужно чуть подробнее пояснить. Виртуальный собеседник — тоже система распознавания, как и поисковые машины. Но если в поисковой машине важна точность, то есть ранжирование в первой десятке, а полнота абсолютно не важна, потому что в Интернете всегда есть 10 миллионов страниц примерно про то, что вы спросили, то у виртуального собеседника — ровно наоборот. Точность у него всегда 100% — если он понял вопрос, то он отвечает всегда релевантно. А вот полнота очень важна, потому что разнообразие того, что человек может у него спросить, настолько велико, что никогда не удаётся это покрыть. Приходится такие концентрические круги строить от точного ответа к разумному.
Пусть, условно, инф (виртуальный собеседник) разговаривает про кредиты в банке (у нас в Наносемантике такие есть реально большие банки-клиенты). И тут его спрашивают про Путина: что он должен сделать?

Понятно, инф должен распознать, что это политика. У него не должно быть ответов про Путина (и потому что это и дорого, и неправильно с точки зрение бизнес-задач). Значит, инф должен сказать: знаешь, что, давай вернёмся всё-таки к твоей ипотеке, я про политику не разговариваю. То есть ответ, если он не может быть точным, должен быть разумным. Вот такую систему «разумных ответов» и распознавания тематик приходится выстраивать для того, чтобы покрывать все большие области, в которых у тебя нет ответа точного, но есть разумный ответ.

Понятно, что, скорее всего, правильно, чтобы виртуальный собеседник имел полезные функции. Я говорю о позиционировании: просто «помощник» должен очень сильно в эти полезные функции вгрызаться, но и виртуальный собеседник, конечно, должен какие-то «полезняшки» иметь. Он должен уметь отвечать, какая погода будет завтра, сколько времени, есть ли пробки и т.п. В общем, мой личный выбор, когда я стал во что-то вкладываться в робототехнике, это — собеседник (мы их называем инфами) с элементами помощника.

Проблемы разработки домашнего собеседника

Какие там проблемы с разработкой? Распознавание речи на борту. Большинство говорящих проектов, на самом деле, сидят на распознавании Nuance или на гугловском, к которым надо обращаться в сеть. Это обычно 3-4 секунды задержки, это невозможное время, никакого диалога не получается. Человек в это время начинает нервничать, задаёт следующий вопрос, он вообще пропадает неуслышанным или собеседник сбивается, начинает искать ответ на него, точнее, распознавание его…

Вообще, на самом деле, ситуация с распознаванием в мире очень плохая: почти всё захватил Nuance, это чудовищный патентный тролль, который всех пожирает, а дальше выкатывает огромные цены на все свои услуги. Ну вот сейчас Яндекс выпустил свое API, посмотрим. Есть ещё пара компаний в России, до которых Nuance просто не дотянулся. Надеюсь, что наше государство защитит от него, в конце концов.

Распознавание объёмного звука мало кто делает. На самом деле, одно дело, когда кто-то кричит Гуглу прямо в смартфон, а другое дело, чтоб тебя в комнате с любго направления и расстояния распознавали.
Потому что суть такого собеседника – захват адиоканала, чтобы ты мог проснуться, и, когда у тебя нет экрана под рукой, ты мог бы в воздух спросить то, что тебе нужно. Сколько времени? Как там погода? Или еще что-то. Есть ли у меня электронная почта?

Но, чтобы тебя распознали, условно говоря, нужно, чтобы либо был собеседник в каждой комнате, либо по дому в каждой комнате стояли интеллектуальные уши-рты от этого собеседника, а он бы стоял на кухне. Но, в любом случае, этот объёмный звук в более-менее таком домашнем объеме 3-5 метров, надо распознавать, а это — довольно серьезная проблема. Понятно, что надо узнавать собеседников, то есть хорошо бы распознавать, идентифицировать по голосу, независимо от того, как там кто охрип, чтобы его называть по имени и так далее.
А домашний робот, это значит — он имеет дело с семьёй, как правило, а не только там с одиноким гиком, который купил эту штуку, чтобы попробовать.

Понятно, что должно быть разнообразие общения, то есть игры, разные темы. Он должен перехватывать инициативу, то есть лингвистический интеллект должен быть довольно серьёзный. Нужна умная модель пользователя, то есть собеседник должен обучаться, он должен все больше узнавать о своих хозяевах, он должен запоминать что-то про них. Построение модели пользователя — довольно серьёзная теория, которую, на самом деле, мало кто знает, как делать. Мы сами тоже над этим сильно думаем, потому что как запоминать правильное, а забывать неправильное, как не переобучаться при этом — это довольно серьёзная штука.

Самообучение и самообновление, это я уже сказал, то есть, конечно, собеседник должен скачивать и обновления тоже, когда он видит сеть, но он, вообще говоря, должен работать и без сети — иначе в нём нет никакого смысла. Работа с Интернетом или всё на борту? Всё должно быть на борту с моей точки зрения, а Интернет нужен для скачивания обновлений.

Синтез речи и интонация, на самом деле, тоже пока не очень решённые задачи. Пока роботные голоса довольно паршивые, монотонные. Есть, кстати, очень неприятный эффект. Если вы когда-нибудь слушали чтение новостей, могли заметить очень интересный эффект у человеческого мозга. Я его замечал, когда мы делали синтез для словарей и для новостей ещё в 95-97 годах. Ты слушаешь чтение новости синтезированным голосом, и в определённый момент ты замечаешь, что ты не понимаешь ничего из того, что он читает. Ты слышишь, вроде бы, бряканье русской речи, и не можешь понять. Мозг внезапно сказал: «А, я понял, ты меня обманываешь, это не человек говорит, я отказываюсь это понимать.» Это реальный эффект. То же самое с письмами. Мы синтезировали текст письма. У нас был «Письмовник», который синтезировал письмо. Та же самая история: с некоторых писем глаз соскакивал, соскальзывал, не мог погрузиться. Мозг отказывается: он чувствует что-то неестественное, отказывается понимать. Поэтому нужна очень хорошая интонация, эффекты, которые дробят диалог на небольшие кусочки.

Короче говоря, способ использования всего этого ещё предстоит сформировать — что такое «домашний робот». Возможно, в нём будет какая-то динамическая активность — езда по дому и так далее. Возможно, должно быть машинное зрение, чтобы хотя бы распознавать хозяев или обнаруживать, что кто-то зашёл в комнату и молчит, чтобы самому начать с ним разговор. Может, надо распознавать домашних животных.

Функции дворецкого должны быть — управление техникой и всё такое. Гувернантка — простейшее обучение встроить в инфа совсем не сложно. Арифметика или ещё что-то, скорее всего, будет. Секретарские функции, например, «Передай жене, что я буду позже, но хлеба куплю». Аналог записок на холодильнике, конечно, должен быть. Автоответчик, будильник, наверное, надо в любом случае сделать. А физический помощник по дому – мне кажется, это нелепость. Это будет настолько дорого, что гораздо проще просто нанять бабушку.

Развлечение, кормление и выгул животных, скорее всего, будут нишевым бизнесом. Это будут какие-то специальные роботы, не имеющие антропоморфности и даже вообще интеллекта. Они должны иметь интеллект примерно на уровне животного.

Секс — это очень горячая тема. Я не думаю, что это в нашей нише и что это широко распространится. Наверное, будут какие-то куклы в секс-шопах с искусственным интеллектом, как в известном анекдоте, здесь я не рискну его рассказать. Скорее всего, это будет какая-то ниша, и это точно не будет внутри этого технологического торнадо.

Ну и антропоморфность у меня лично вызывает большие вопросы. Может быть, там будет тот же самый эффект переноса личности, но, в отличие от текста и даже голоса, подделывающиеся под внешность человека роботы пока вызывают отталкивание и шок. Так же, как обезьяна очень похожа на человека, но она всё-таки не такая, и она кажется уродиной. Если бы мы её пытались за человека принять, это был бы шок. Если бы увидели человека, очень похожего на обезьяну, это вызвало бы ощущение ужасного уродства. Мне кажется, что с роботами будет то же самое. В общем, я лично против антропоморфности, мне кажется, что это тупиковая ветвь.

Ждём или предлагаем

Вот и всё, что я хотел сказать. Мы ждём появления этого способа использования — его кто-то должен произвести, всем навязать. Это должен быть либо человек очень харизматичный, либо человек с огромными деньгами на рекламу. И вот тогда все построятся за ним свиньёй и будут производить примерно одно и то же и конкурировать внутри этой парадигмы.

А существующие усилия робототехников не пропадут – они будут использованы как нишевые применения или в русле общего развития, в центральном «стволе». Не пропадут также квалификация и накопленный опыт. Как говорится, «лишней работы не бывает».