20 February 2013

PixelTone: прототип графического редактора с голосовым управлением

Interfaces
В Мичиганском университете совместно с Adobe Research создали прототип графического редактора, управляемого голосом и жестами. Прототип, названный PixelTone, пока умеет делать лишь самые простые операции и жесты. Он понимает простые команды и ориентируется в описательных терминах вроде «верх», «низ», «ярче», «темнее». Кроме того, он может запоминать названия объектов и имена людей на фотографиях, что позволяет использовать команды вроде «Сделай Васю чуть контрастнее».



Такой комбинированный интерфейс может быть полезен на планшетах и телефонах, где просто нет места для многочисленных палитр и меню, и нет клавиатуры, чтобы воспользоваться горячими клавишами. Прототип будет представлен на конференции Computer-Human Interaction которая пройдёт в Париже с 27 апреля по 2 мая. А пока можно скачать PDF c описанием технологии.

Этот документ, подготовленный по всем правилам серьёзной научной публикации, пожалуй интереснее самого прототипа. При создании интерфейса учёные проанализировали сложившуюся в среде профессиональных фотографов и ретушеров систему общепринятых сокращений и аннотаций к фотографиям, а затем с помощью Amazon Mechanical Turk собирали статистику слов и выражений, которые используют непрофессиональные пользователи, чтобы описать желаемые изменения в фотографии.

Исследования юзабилити, проведённые после создания прототипа, показали, что голосовой интерфейс позволяет выполнять базовые операции по редактированию фотографий ничуть не хуже традиционного. Совместное использование голоса и прикосновений позволяет достаточно точно и уверенно интерпретировать нечёткие формулировки естественного языка вроде «здесь», «отсюда и выше». Как и в случае с клавиатурными сокращениям, требуется некоторое время, чтобы изучить и запомнить фразы, которые понимает программа, для чего могут понадобиться графические подсказки. Освоившись, пользователь может управлять редактором почти исключительно голосом и непосредственной манипуляцией на тачскрине.

Tags:PixelToneголосовое управлениераспознавание речиретушь
Hubs: Interfaces
+6
3k 6
Comments 4
Product Owner BI
from 150,000 to 270,000 ₽IT X100Remote job
Методолог
from 150,000 to 200,000 ₽ВСКМосква
Technical Lead
from 150,000 ₽YLabRemote job
Ресурсный IT-менеджер
from 80,000 to 120,000 ₽ENJOY PRORemote job
Top of the last 24 hours