zamesin Jul 10 2012 at 11:37

Новый подход к проектированию бесконтактных интерфейсов

10 min

6.8K

Это перевод оригинальной статьи New Design Practices for Touch-free Interactions

tfi_01

Сенсорные интерфейсы практически захватили развитые рынки, что повлекло за собой изменения ожиданий пользователей и взглядов UX-специалистов на человеко-машинное взаимодействие (Human-Computer Interaction, HCI). Теперь вслед за сенсорными интерфейсами в индустрию понемногу начинают проникать технологии бесконтактных жестовых и естественно-языковых взаимодействий (Natural Language Interaction, NLI). Распространение этих технологий обещает перемены в отрасли UX, начиная с эвристик, которыми мы руководствуемся, и заканчивая паттернами проектирования и конечными результатами.

Человеко-машинные интерфейсы: ждем перемен

Благодаря сенсорным интерфейсам взаимодействие пользователей с вычислительными устройствами стало более естественным и интуитивным. С повсеместным распространением сенсорных технологий стали появляться новые концепции взаимодействий. Усилиями корпораций Майкрософт и Apple соответственно бесконтактные жестовые и естественно-языковые (NLI) интерфейсы, дождавшись своего часа, теперь наконец начинают понемногу проникать в отрасль. Если эти технологии приживутся, то благодаря ним мы сможем сделать следующий шаг к созданию естественного пользовательского интерфейса (Natural User Interface, NUI).

Бесконтактные жестовые интерфейсы

Данная модель взаимодействия приобрела популярность благодаря сенсорам Kinect, созданным корпорацией Майкрософт для игровой платформы Xbox. Данные устройства затем были адаптированы для использования с компьютерами на базе ОС Windows и с устройствами Samsung Smart TV. Таким образом бесконтактные жестовые интерфейсы шагнули из компьютерных игр прямиком в повседневную жизнь.

В Kinect для Windows входит интересная функция, которая называется Near Mode. В режиме Near Mode пользователи могут использовать бесконтактные жесть для работы с ПК, сидя за ним, без необходимости вставать в полный рост. Технология бесконтактного жестового взаимодействия позволяет уменьшить количество элементов интерфейса в производительных приложениях, благодаря тому что с отображаемыми на экране объектами можно обращаться практически как с реальными физическими объектами. Также данная технология позволяет использовать компьютер в условиях, когда прикасаться к нему в силу каких-либо причин нежелательно, например на кухне или в операционной.

Естественно-языковое взаимодействие

Идея напрямую обращаться к компьютеру не нова, но именно успех приложения Siri для iPhone наконец вывел эту технологию на первый план в отрасли. Главным преимуществом естественно-языкового взаимодействия является то, что данная технология имитирует нашу с вами манеру общения, усвоенную каждым еще в раннем детстве.

Продуманные естественно-языковые интерфейсы не только придают взаимодействию человека и компьютера естественность: при речевом взаимодействии пользователь очеловечивает компьютер и воспринимает его как некоего члена социума. Благодаря этому дизайнеры и авторы контента получают колоссальные возможности для выстраивания по-настоящему глубоких взаимоотношений с пользователями.

Принципы человеко-машинного взаимодействия

С развитием технологий появляется все больше возможностей для улучшения процесса взаимодействия, однако не стоит забывать, что человеческие возможности небезграничны, и это относится к в том числе и к таким процессам. Шагая навстречу новым моделям взаимодействий, мы одновременно создаем систему знаний, благодаря которой UX-специалисты смогут воспользоваться этими моделями. В качестве теоретической базы выступают принципы человеко-машинного взаимодействия.

Согласно модели человеко-машинного взаимодействия, разработанной Биллом Верпланком (Bill Verplank), взаимодействие пользователя с любой системой состоит из трех компонентов — человеческих факторов:

эффективность восприятия информации: правильно ли мы воспринимаем сигналы системы;
принцип обработки информации: правильно ли мы понимаем и обрабатываем эти сигналы;
эффективность передачи информации: правильно ли мы вводим результаты обратно в систему.

Уделяя в процессе дизайна внимание этим трем элементам user experience, можно добиться улучшения всей системы. Перечисленные человеческие факторы могут послужить теоретической основой при прогнозировании и оценке новых эвристик и шаблонов дизайна интерфейсов.

Эвристики

Никто не отменяет уже хорошо нам известные эвристики. Однако стоит расширить их список для более эффективного использования технологий бесконтактного жестового и естественно-языкового взаимодействий. Приведем пару примеров таких эвристик:

Распознавание неточных жестов и ошибочных движений (эффективность передачи информации) — даже на поверхности экрана человеческая рука не способна воспроизводить жесты с предельной точностью, что уж говорить о жестикуляции в пространстве. Не стоит ожидать высокой точности жестов: в противном случае пользователь столкнется с массой ошибок. Необходимо установить разумные пределы точности и прощать пользователю незначительные ошибки.
«Личностные качества» системы должны соответствовать ее функционалу (эффективность обработки информации) — общаясь с неодушевленным объектом, люди машинально приписывают ему некие личностные качества. Полученные от данного объекта ответы помогают им сформировать более точный портрет этой «личности». Согласитесь, если бы производительные приложения вроде Excel или Numbers общались с нами в дружелюбной манере, пользоваться ими было бы куда как приятнее. Водители еще больше доверяли бы автомобильной навигационной системе, обладай она уверенным и строгим голосом. А, например, благодаря Siri пользователи теперь получают удовольствие от решения рутинных задач вроде ежедневного планирования — и все потому, что разработчики Apple запрограммировали в ней чувство юмора.
Не надо заставлять пользователя многократно повторять жесты или просто подолгу жестикулировать, если только это не является целью (эффективность передачи информации) — многократное повторение жестов или продолжительная активность изматывают пользователей. Растет мышечное напряжение, снижается точность — в итоге все это не самым лучшим образом сказывается на эффективности работы. Конечно, данная эвристика неприменима, если цель состоит в том, чтобы заставить пользователей упражняться.
Жестовые и голосовые команды должны быть уместными в контексте ситуации, в которой пользователь к ним прибегает (эффективность восприятия и передачи информации) — жестовые и голосовые команды прекрасно видны и слышны со стороны, и пользователь ни за что не станет ими пользоваться, если при этом он будет выглядеть нелепо. К примеру, если приложение предназначено для использования в офисе, то размашистые движения и выкрикивание странных команд будет довольно неуместно. С другой стороны, в контексте детской игры забавные жесты и команды могут оказаться весьма кстати.
Приглашения к действию должны быть понятными, а само взаимодействие — логичным и последовательным (эффективность обработки информации) — согласно исследованиям Джоша Кларка (Josh Clark) и Дэна Саффера (Dan Saffer), управление с помощью жестов более эффективно, чем с помощью элементов графического или сенсорного интерфейса, но при этом приемы такого управления менее очевидны для пользователей. То же самое касается и голосового управления. Использование жестов и голосовых команд в интерфейсе выводит человеко-машинное взаимодействие на новый уровень, и здесь ясность приглашений к действию и последовательность операций становятся важными как никогда.

Паттерны

С повсеместным распространением сенсорных интерфейсов появились вот такие библиотеки жестов в помощь дизайнерам, работающим над методами сенсорного взаимодействия. Не ограниченные двумя измерениями плоского экрана бесконтактные жестовые интерфейсы позволяют дизайнерам эффективно использовать третье измерение — глубину, а также движения тела.

Добавьте к этому голосовое управление — и вы получите практически неограниченные возможности: например, пользователь может одновременно контролировать один элемент системы посредством жестов, а другой — посредством голосовых команд.

Жесты для работы в режиме Near Mode (прямой ввод данных)

Изначально сенсор Kinect распознавал движения, производимые всем телом, но теперь благодаря наличию режима Near Mode в новой версии его функционал значительно расширился. Ниже приведены примеры жестов, которые можно использовать, сидя за ПК, с иллюстрациями из библиотеки жестов Think Moto:

Сдвиг, растягивание и сжатие: это базовые жесты бесконтактного управления, аналогичные жестам для работы с сенсорным интерфейсом.
Тяни-толкай: эти жесты можно использовать для приближения или отдаления объектов на экране.
Захват и отпускание: так как в жестовых интерфейсах для масштабирования элементов используются жесты сжатия и растягивания, описанные выше, то щипковый жест можно использовать для захвата объектов на экране. «Схватив» такой объект, пользователь может управлять им посредством вторичных жестов.
Поворот: в качестве примера вторичного жеста можно привести поворот. Благодаря тому что в бесконтактных жестовых интерфейсах к привычным двум измерениям добавляется третье, «схваченный» объект можно поворачивать, тем самым меняя его форму или положение (например, переворачивая карту или вращая куб).
Бросок: еще один вторичный жест — пользователь может «бросить» объект на экране, чтобы быстро переместить его подальше. Этот жест можно связать с удалением объекта либо с его перемещением в 3D-пространстве.

Считывание телодвижений (косвенный ввод данных)

Вдобавок к новым возможностям управления посредством жестов сенсор Kinect для ПК способен считывать прочие телодвижения пользователей, которые выдают их усталость или настроение. Например, более активная жестикуляция (скажем, более размашистые и резкие жесты) может быть расценена системой как знак того, что пользователь взволнован, и система корректирует свое поведение соответствующим образом. У пользователей, использующих производительные приложения, такое поведение может быть вызвано чувством неудовлетворенности, и система может попытаться помочь пользователю успокоиться.

Еще одним индикатором является точность жестов. Ленивые и неточные жесты пользователя могут быть расценены как признак усталости, и в таком случае система может выдать сообщение с предложением сделать перерыв в работе. Кроме этого, в зависимости от того, сидит ли пользователь за ПК или стоит в полный рост (хотя это и нельзя полностью отнести к косвенным признакам), можно делать доступными разные наборы функций.

Голосовое управление

Вследствие сложности естественных языков создание шаблонов для интерфейсов NLI является задачей более трудной, чем в случае с жестовыми интерфейсами. Тем не менее некоторые конструкции, присущие естественным языкам, можно использовать в качестве основы при создании таких шаблонов.

Начнем с того, что пользователи могут осуществлять голосовой ввод данных преимущественно двумя способами: задавая вопросы (и получая ответы от системы) и отдавая команды (что приводит к выполнению системой какой-либо операции). Далее, отдельные предложения можно разбить на фразы, каждая из которых является самостоятельной семантической единицей. Тому, что могут почерпнуть разработчики естественно-языковых интерфейсов из области лингвистики и коммуникаций, посвящен ряд публикаций, в том числе книга Speech Technology под редакцией Фэнга Чена (Fang Chen) и Кристины Йокинен (Kristiina Jokinen).

Результаты

При внедрении инновационных моделей взаимодействия едва ли не самым сложным этапом является общение с заинтересованными лицами, которые еще не успели хорошенько ознакомиться с нововведением. Визуализировать несуществующие вещи довольно затруднительно, так что UX-дизайнерам придется хорошенько подумать, каким образом донести нужную информацию.

Спецификации

Спецификации дизайна взаимодействий основываются на двух измерениях, которых им вполне достаточно. Однако для некоторых бесконтактных жестов могут потребоваться переменные вроде «расстояние до экрана» или «движение по оси Z», которые эффективнее визуализируются в 3D.

Речевое взаимодействие еще сложнее. Теперь, когда взаимодействие с системой в буквальном смысле становится диалогом, дизайнерам следует учитывать множество дополнительных факторов, например пользовательские интонации, акценты или выбор слов для одной и той же команды. В естественно-языковом интерфейсе такие вариации должны учитываться по максимуму.

Кроме того, появляется множество переменных, определяющих то, какой ответ система выдает пользователю. Интонация, выбор слов, модуляция, тембр — все эти и многие другие факторы влияют на то, как пользователь воспринимает систему.

Персоны

Благодаря голосовым функциям компьютеры становятся членами социума пользователя, и их «личности», воспринимаемые пользователем, являются крайне важным аспектом дизайна. К счастью, нам не требуется изобретать велосипед для решения этой задачи.

UX-специалисты уже давно используют образы пользователей для их классификации. Этот подход можно применить и к компьютерам, наделенным даром речи, для определения типа личности, которая моделируется системой. Создание таких образов облегчит работу вовлеченных в создание голосового интерфейса специалистов: копирайтеров, создающих сценарии, разработчиков кодировки для преобразования текста в речь, а также актеров озвучки.

Систему можно запрограммировать на эмпатию, настроив распознавание изменений в речи пользователя — волнения, раздражения или беспокойства. Если пользователь удручен чем-либо, распознавшая это система может переключиться с авторитетного, властного образа (демонстрирующего надежность и внушающего доверие) на образ заботливый и родительский (способный успокоить пользователя).

Прототипирование

Для эффективной реализации технологии распознавания телодвижений и речевых шаблонов пользователей необходимо не упустить ни одной детали и поддерживать четкий обмен информацией между заинтересованными лицами. Прототипы получают все большее распространении по той же причине, что и спецификации: лучше один раз увидеть, чем сто раз услышать. Это касается и тестирования приложений, и их разработки.

На данный момент нет такого ПО, которое позволило бы оперативно смоделировать бесконтактное жестовое взаимодействие Kinect; остается только загружать пакет SDK и самостоятельно создавать приложения. Для голосовых интерфейсов, однако, есть несколько бесплатных инструментов, таких как CSLU Toolkit, благодаря которым разработчики могут оперативно собрать голосовой интерфейс для моделирования и тестирования.

В общем, пока инструменты создания прототипов не станут достаточно быстрыми, гибкими и эффективными, мы обречены держаться корней и использовать проверенные инструменты: бумагу, демонстрационные материалы, раскадровки и «волшебника Оз».

Катись, колесо

Со времен электронных ламп и перфокарт компьютерные пользовательские интерфейсы претерпели множество изменений, каждое из которых сопровождалось появлением новых возможностей — и новых задач. Благодаря бесконтактным жестовым и естественно-языковым интерфейсам общение человека с компьютером становится гораздо более эффективным и… человечным. Если UX-специалисты собираются по полной использовать открывающиеся перед ними возможности, то им нужно следовать в этом же направлении.

Я верю, что мы все готовы к принятию этой новой парадигмы человеко-компьютерного взаимодействия, которая позволит нам приблизиться к нашим пользователям как никогда.

Автор: Brian Pagán

Прим. пер.: Эта статья ещё интересна в контексте 10-летия выхода на экраны фильма Minority Report, в котором был показан интересный концепт подобного интерфейса.

Tags:

Hubs: