Pull to refresh
0

Распознавание образов, рассуждения

Reading time 3 min
Views 17K
В общем случае задача распознавания образов до сих пор не решена. Поэтому поговорим сначала о тех методах, которые в некоторых случаях все же позволяют находить отдельные объекты на изображении, а затем порассуждаем о будущем.

Человеческий глаз имеет несколько блоков, способных распознавать свойства изображения. Человек быстро выхватывает из окружающей реальности наборы объектов и классифицирует их. Какими критериями он руководствуется? Их не так много:
  • Быстро схватываются предметы искусственного происхождения, которые характеризуются неестественной геометрической правильностью: прямые или плавные линии, поверхности с плавным изменением цвета или более сложная фактура, информативность которой все еще гораздо ниже, чем информативность естественных объектов
  • При более углубленном анализе сцены выделяются повторяющиеся по свойствам области и области, в которых есть какие-то отклонения от нормы: полянка в равномерно-смешанном лесном массиве, более темное-зеленая листва на фоне светло-зеленой, мелкие листья на фоне крупных листьев, быстро колышущиеся ветки на фоне медленно колеблющихся стволов и т.п.
  • Этот анализ проводится сразу на нескольких масштабах: крупном, среднем, мелком, и в каждом масштабе замечаются наиболее характерные детали.

Базовые алгоритмы распознавания образов, в общем, копируют те же самые блоки:
— выделение контуров
— поиск заданных цветов, текстур
— линейные фильтры, реагирующие на какие-то конкретные элементы изображений
— выделение областей с высокой/ низкой информационной насыщенностью, четкостью деталей
И т.п.

К примеру, классическая задача о распознавании человеческой кожи на изображении в первом приближении решается так:
А) Выделяются цвета, которые потенциально могут быть человеческой кожей
Б) Проверяется текстура
В) Проверяется связность и достаточный объем выделенной области

Распознавание лиц, как правило, добавляет к этому реакцию на линейный фильтр, который выглядит вот так:
image
Кстати, проводились эксперименты, точно также новорожденный младенец выделяет лицо: это два темных круглых объекта, под которым есть вытянутый темный объект.

Резюмируя, существующие методы распознавания изображения обычно стремятся найти в объекте несколько характерных деталей, которые можно как-то алгоритмически описать, и за которые можно «зацепиться» при поиске объектов такого рода.

Теперь поговорим о будущем. Важной способностью человеческого мозга является возможность устанавливать ассоциативные связи между изображениями, т.е. он умеет определять, что они ПОХОЖИ. В процессе сравнения двух изображений человек обращает внимание на элементы изображения, о которых мы говорили раньше: пятна определенного цвета, геометрия форм и линий, информационная насыщенность, текстуры, реакция на простые фильтры. У каждого из нас еще в детстве в голове формируется большая база изображений с подписанными тэгами. При появлении нового кадра мы очень быстро находим подходящее изображение в нашей базе и «узнаем» его.

Однако неверным было бы считать, что в процессе поиска происходит подробное сравнение изображений по элементарным признакам – при том объеме базы, которая хранится в мозгу, для этого бы не хватило даже его колоссальных вычислительных ресурсов. Поэтому у нас в голове хранится символическое, семантическое, краткое описание всех объектов. «Палка, палка, огуречек, вот и вышел человечек», «стол – это большая прямоугольная доска на четырех ножках» и т.п. Изображение карты, на которой изображена черная черва, большинством людей распознается как пика.

Т.е. процесс человеческого распознавания изображений выглядит примерно так:
А) сцена описывается в некотором символическом виде (это может быть просто несколько предложений; т.е. изображение в 100 мегапикселей превращается в фразу из, скажем, 1000 байтов).
Б) символическое описание сравнивается с другими существующими символическими описаниями изображений в базе
В) наиболее подходяще соответствия «вспыхивают» у нас в сознании

Вот этой возможности описывать сцену в виде набора семантических конструкуций пока не хватает алгоритмам распознавания образов, хотя в этом направлении сейчас происходит очень интересная работа. В ряде частных случаев удается получить неплохие результаты, но внятного законченного решения я пока не видел.

В конце стоит упомянуть, наверное, нашумевший когда-то метод нейронных сетей. В академической среде в него очень верят, а в практических проектах он редко используется. Как выяснилось, нейронные сети довольно трудно настраивать и, к тому же, они плохо моделируют процессы человеческого мозга, а на это была большая надежда. Сегодня все больше задач, решаемых раньше с помощью нейронных сетей (таких, как предсказание будущего, распознавание рукописного текста, распознавание лиц и т.п.) поддаются эффективному решению с помощью других, более классических методов математики.
Tags:
Hubs:
+17
Comments 66
Comments Comments 66

Articles

Information

Website
www.gil-algorithms.com
Registered
Founded
2007
Employees
Unknown
Location
Россия