Нордавинд corporate blog
Algorithms
Image processing
December 2013 17

Соревнования по распознаванию изображений ImageNet 2013

В декабре 2013 завершились ежегодные соревнования по распознаванию визуальных образов ImageNet Large Scale Visual Recognition Challenge 2013 (ILSVRC2013), спонсируемые проектом ImageNet , который представляет собой огромную базу изображений. В настоящее время в базе имеется более 14 миллионов изображений.
Участники соревнований решали три задачи, описанные под катом.
Задача 1. Обнаружение на изображениях реальных сцен объектов, принадлежащих 200 различным категориям. В качестве обучающей выборки были представлены изображения, в которых для каждого изображенного на них объекта (из числа представленных 200 категорий) известен его класс и окаймляющий прямоугольник (пример такого изображения приведен на рисунке ниже).


Обучающая выборка для решения этой задачи состояла из 395909 изображений, а тестовая – из 40152 изображений. Метки классов и окаймляющие прямоугольники для объектов тестовой выборки известны только на этапе тестирования.
При оценке качества работы алгоритмов детекции учитывались правильно распознанные и локализованные объекты (площадь перекрытия известного окаймляющего прямоугольника и окаймляющего прямоугольника, предлагаемого алгоритмом для данного объекта изображения, должна быть более 50%). Если объект не был обнаружен на изображении или обнаружен более чем в одном экземпляре, то при оценке качества работы алгоритма это наказывалось.
В результате, победителями стала та команда, чей алгоритм достиг лучшей точности на большинстве категорий. На первом месте оказалась команда UvA-Euvision (объединенная команда университета Амстердама и компании Euvision). Она оказалась победителем в распознавании объектов 130 из 200 категорий. Второе место заняла NEC-MU (компания NEC совместно с университетом Миссури) c 25 категориями. Презентация результатов этой команды здесь.

Задача 2. Классификация объектов 1000 категорий. Обучающая выборка состояла из 1,2 миллионов изображений, а тестовая — из 150 тысяч изображений. Для каждого тестового изображения алгоритм распознавания должен выдать 5 меток классов в порядке убывания их достоверности. При подсчете ошибки учитывалось, соответствует ли наиболее достоверная метка с известной для каждого изображения меткой класса объекта, действительно присутствующего на изображении. Использование 5 меток задумано для того, чтобы исключить «наказание» для алгоритма в случае, когда он распознал на изображении объекты других классов, которые могут быть представлены в неявном виде (в качестве примера — см. рисунок ниже).


Победителем в решении этой задачи стал ученик Джефри ХинтонаМэттью Зайлер (Matthew Zeiler), второе место заняла команда NUS из Национального университета Сингапура, а на третьем – команда ZF, состоящая из Мэттью Зайлер и Роба Фергуса.
Мэттью Зайлер поставил перед собой задачу понять, что же именно влияет на качество распознавания при обучении сверточных нейронных сетей (Convolutional Neural Networks, CNN). Он разработал концепцию и технологию Deconvolutional Neural Networks для понимания и анализа работы свероточных нейронных сетей. Мэттью провел анализ нейронной сети – победительницы прошлогодних соревнований ILSVRC2012. В результате он выработал рекомендации для разработки структуры нейронной сети, которая и победила в задаче классификации 1000 категорий объектов. Для всех заинтересовавшихся: видео-презентация Мэттью Зайлера и сайт Мэттью Зайлера.

Задача 3. Классификация и локализация объектов тех же самых 1000 классов. Для каждого изображения алгоритм должен выдать помимо 5 меток класса объекта еще и окаймляющие прямоугольники для каждой метки предполагаемого класса объекта. В этой части соревнований было всего два участника: команда OverFeat – NYU, занявшая первое место (одним из участников этой команды был легендарный Yann LeCun), и команда VGG (Visual Geometry Group, University of Oxford), занявшая, соответственно, второе место. Необходимо отметить, что OverFeat – NYU в решении задачи 2 заняла только 4-ое место, а в задаче 1 ее результаты не были учтены, т.к. она использовала дополнительные, внешние, графические изображения при обучении своего классификатора. OverFeat – NYU в качестве классификатора также использовали сверточную нейронную сеть. Презентация этой команды здесь.
+18
12.5k 59
Comments 8
Top of the day