Wirex corporate blog
Machine learning
Research and forecasts in IT
October 2018 2

Машинное обучение: схватка с комнатным слоном

Original author: Kevin Hartnett
Translation

Один — ноль в пользу человеческого мозга. В новом исследовании ученые-информатики выяснили, что системам искусственного интеллекта не удается пройти тест на зрительное распознавание объектов, с которым легко справится любой ребенок.

«Это качественное и важное исследование напоминает нам, что „глубокое обучение" на самом не может похвастаться той глубиной, которая ему приписывается», — говорит Гэри Маркус, нейробиолог из Нью-Йоркского университета, не связанный с этой работой.

Результаты исследования касаются сферы компьютерного зрения, когда системы искусственного интеллекта пытаются обнаружить и категоризировать объекты. Например, их могут попросить найти всех пешеходов в уличной сцене или просто отличить птицу от велосипеда — задание, которое уже успело прославиться своей сложностью.

Ставки высоки: компьютеры постепенно начинают выполнять за людей важные операции, такие как автоматическое видеонаблюдение и автономное вождение. И для успешной работы необходимо, чтобы способности ИИ к зрительной обработке как минимум не уступали человеческим.

Задача не из легких. В новом исследовании акцент ставится на изощренности человеческого зрения и сложностях при создании имитирующих его систем. Ученые проверяли точность системы компьютерного зрения на примере гостиной комнаты. ИИ справлялся хорошо, корректно определяя стул, человека и книги на полке. Но когда ученые добавили в сцену необычный объект — изображение слона, — сам факт его появления заставил систему забыть все предыдущие результаты. Внезапно она начала называть стул диваном, слона — стулом, а остальные объекты вообще игнорировать.

«Происходили самые разные странности, показывающие всю хрупкость современных систем обнаружения объектов», — говорит Амир Розенфельд, ученый из Йоркского университета в Торонто и соавтор исследования, которое он провел вместе с коллегами Джоном Тсотсосом, тоже из Йорка, и Ричардом Земелем из Университета Торонто.

Исследователи по-прежнему пытаются уточнить причины, по которым система компьютерного зрения так легко сбилась с толку, и у них уже есть хорошая догадка. Дело в человеческом умении, которого нет у ИИ, — это способность осознать, что сцена непонятна, и нужно рассмотреть ее повнимательнее еще раз.

Слон в комнате


Смотря на мир, мы воспринимаем ошеломляющее количество визуальной информации. Человеческий мозг обрабатывает ее на ходу. «Мы открываем глаза, и все происходит само собой», — говорит Тсотсос.

Искусственный интеллект, напротив, создает визуальные впечатления кропотливо, будто читая описание на языке Брайля. Он пробегает своими алгоритмическими кончиками пальцев по пикселям, постепенно формируя из них все более сложные представления. Разновидность систем ИИ, выполняющая подобные процессы, — нейронные сети. Они пропускают изображение через серию «слоев». По мере прохождения каждого слоя обрабатываются отдельные детали изображения, такие как цвет и яркость отдельных пикселей, и на основе этого анализа формируется все более абстрактное описание объекта.

«Результаты обработки предыдущего слоя передаются следующему, и так далее, как на конвейере», — объясняет Тсотсос.


Автор: Lucy Reading-Ikkanda/Quanta Magazine

Нейронные сети — эксперты по части специфических рутинных задач в области визуальной обработки. Они лучше людей справляются с узкоспециализированными заданиями вроде определения породы собак и другими сортировками объектов по категориям. Эти успешные примеры породили надежду на то, что системы компьютерного зрения вскоре станут настолько умны, что будут в состоянии управлять автомобилем в условиях многолюдных городских улиц.

Это также побудило экспертов исследовать их уязвимые места. За последние несколько лет исследователи предприняли целый ряд попыток имитировать враждебные атаки — придумывали сценарии, вынуждающие нейронные сети ошибаться. В одном из экспериментов ученые-информатики обманули сеть, заставив ее принять черепаху за ружье. Другая история успешного обмана состояла в том, что рядом с обычными объектами вроде банана исследователи поместили на изображение тостер, окрашенный в психоделические цвета.

В новой работе ученые выбрали тот же подход. Трое исследователей показали нейронной сети фотографию гостиной. На ней запечатлен мужчина, который играет в видеоигру, сидя на краю старенького стула и наклонившись вперед. «Переварив» эту сцену, ИИ быстро распознал несколько объектов: человека, диван, телевизор, стул и пару книг.

Тогда исследователи добавили объект, несвойственный подобным сценам: изображение слона в полупрофиль. И нейронная сеть запуталась. В некоторых случаях появление слона заставляло ее принять стул за диван, а иногда система переставала видеть те или иные объекты, с распознаванием которых до этого не возникало проблем. Это, например, книжный ряд. Причем промахи случались даже с объектами, находящимися далеко от слона.


На оригинале слева нейронная сеть корректно и с высокой уверенностью определила многие предметы, расположенные в набитой различными вещами гостиной. Но стоило только добавить слона (изображение справа), и программа начала сбоить. Стул в левом нижнем углу превратился в диван, стоящая рядом чашка исчезла, а слон стал стулом.

Подобные системные ошибки совершенно неприемлемы для того же автономного вождения. Компьютер не сможет управлять автомобилем, если не будет замечать пешеходов просто потому, что за несколько секунд до этого он увидел индейку на обочине.

Что касается самого слона, то результаты его распознавания тоже различались от попытки к попытке. Система то определяла его корректно, то называла овцой, то вообще не замечала.

«Если в комнате действительно появится слон, любой человек наверняка это заметит», — говорит Розенфельд. — «А система даже не зафиксировала его присутствия».

Тесная взаимосвязь


Когда люди видят нечто неожиданное, то присматриваются к этому получше. Как бы просто ни звучало «присмотреться получше», это имеет реальные когнитивные последствия и объясняет, почему ИИ ошибается при появлении чего-то необычного.

Лучшие современные нейронные сети при обработке и распознавании объектов пропускают через себя информацию только в прямом направлении. Они начинают с отбора пикселей на входе, переходят к кривым, формам и сценам, и делают наиболее вероятные догадки на каждом этапе. Любые заблуждения на ранних этапах процесса приводят к ошибкам в конце, когда нейронная сеть собирает воедино свои «мысли», чтобы угадать, на что она смотрит.

«В нейронных сетях все процессы тесно взаимосвязаны друг с другом, поэтому всегда есть вероятность, что любая особенность в любом месте может повлиять на любой возможный результат», — говорит Тсотсос.

Человеческий подход лучше. Представьте, что вам дали мельком взглянуть на изображение, на котором есть круг и квадрат, один красного цвета, другой — голубого. После этого вас попросили назвать цвет квадрата. Одного короткого взгляда может быть недостаточно, чтобы правильно запомнить цвета. Сразу приходит понимание того, что вы не уверены, и вам необходимо взглянуть еще раз. И, что очень важно, во время второго просмотра вы уже будете знать, на чем необходимо сконцентрировать внимание.

«Человеческая зрительная система сообщает: „Я пока не могу дать правильный ответ, поэтому вернусь назад и проверю, где могла произойти ошибка"», — объясняет Тсотсос, который развивает теорию под названием «Избирательная настройка», объясняющую эту особенность визуального восприятия.

Большинству нейронных сетей не хватает умения вернуться назад. Эту черту очень сложно спроектировать. Одно из преимуществ однонаправленных сетей в том, что их относительно просто обучать — достаточно «пропускать» изображения через упомянутые шесть слоев и получать результат. Но если нейронным сетям и следует «присматриваться внимательнее», им также нужно различать тонкую грань, когда лучше вернуться назад, а когда продолжить работу. Человеческий мозг легко и непринужденно переключается между столь разными процессами. А нейронным сетям необходима новая теоретическая база, чтобы они смогли делать то же самое.

Ведущие исследователи со всего мира работают в этом направлении, но и им требуется помощь. Недавно проект Google AI объявил о конкурсе по краудсорсу классификаторов изображений, умеющих различать случаи намеренного искажения картинки. Победит решение, способное однозначно отличить изображение птицы от изображения велосипеда. Это будет скромный, но очень важный первый шаг.

image
+13
5.5k 33
Comments 22
Top of the day