vikds Jan 21 2010 at 00:20

Эффективная сегментация изображений на графах

10 min

40K

Algorithms*

+162

Comments 48

UFO just landed and posted this here

vikds Jan 21 2010 at 00:53

Ни пуха, ни пера! =)

xgraph Jan 21 2010 at 01:04

Не знаю почему, но мне теория графов нравится :)

MYPABEU Jan 21 2010 at 01:36

Сочувствую. У меня в 9 утра экзамен по электротехнике…

Tails Jan 21 2010 at 02:21

Ну, а у меня — по основам теории управления...)

f0b0s Jan 21 2010 at 02:34

а у меня только консультация, по «Параллельному программированию»

sintez Jan 21 2010 at 03:13

а я закончил уже :p

+21

gxcreator Jan 21 2010 at 13:01

А у нас в квартире газ.

Zordhauer Jan 22 2010 at 06:38

Базы данных =) экзамен… через 3 часа

f0b0s Jan 22 2010 at 00:57

ну что, сдали?

Zordhauer Jan 22 2010 at 06:40

эм… с 23:51 по 6:40 (по времени комментатора 5:40) мало кто сдает/принимает экзамен =)

UFO just landed and posted this here

aNDREIQA Jan 21 2010 at 00:57

Спасибо, просветился) мне кажется еще бы описание алгоритма на каком-либо языке программирования не помешало.

vikds Jan 21 2010 at 01:04

Извинюсь… еле запостил статью в таком объеме. Чуть больше и Хабр «ни в какую». Потому и сократил статью. Пришлось урезать: практическое применение (кому интересно — сами найдут) и код.
Зато авторский source code прилагается: тут. Он очень сильно коррелирует с тем, что изложено в статье. Разобраться с ним — пару часов удовольствия. =)

sayn Jan 21 2010 at 01:08

можно как вариант написать вторую часть статьи, практическую так сказать. Хотя бы самые интересные моменты.

vikds Jan 21 2010 at 01:15

Варианты, которые первыми «пришли в голову»:

vikds Jan 21 2010 at 01:18

1. В статье уже 2009 (августа) года «An Efficient Parallel Algorithm for Graph-Based Image Segmentation» (статья) Karlsruhe University (Germany), дан вариант распараллеливания этого алгоритма, для более эффективного выполнения вычислений. Кому-то делать эффективный Computer Vision? Why not?
2. Благодаря тому, что алгоритм позиционируется как очень эффективный, почему бы не реализовать его на какой-нибудь мобильной платформе (КПК): тыцкнул в фото-фокусе на памятник, и камера сама навелась на памятник на весь экран или (если будет выполняться шустро на КПК) на какой-нибудь двигающийся объект – и он, оставаясь «выделенным» в квадратик, продолжает быть «отфотканным», пока не исчезнет за горизонт. Why not?
3. Так как сегментация (во всех алгоритмах) зависит от параметров, почему бы не научить алгоритм подстраиваться под загруженное изображение – допустим нейронной сетью. Загружена фотография автомобиля днем – выставляем для метода одни параметры, загружен ландшафт – другие, апартаменты – третьи. Это тоже сложная задача. И это сейчас стараются делать «за бугром». Наши студенты не хуже!!! Why not?
4. Wanna be a «bad guy»? Цифро-буквенные каптчи все еще достаточно распространенны. Можно взять цветную «зашумленную» каптчу, пройтись по ней размытием Гаусса, чтобы убрать мелкие пиксели, полосочки, потом сегментацией выделить все буквы. Применить на «толстых» буквах скелетонизацию (skeletonization: построение topological skeleton), убрать фильтрами артефакты и получить что-то примерно похожее на рукописный ввод. Далее – либо своей обученной нейронной сетью распознать буковки, или воспользоваться чем-то похожим на FineReader. Нам кажется, что так «можно грабить корованы…» (мем). Why not?

roller Jan 21 2010 at 04:05

3 — весьма интересно!

etl Jan 21 2010 at 08:42

Это бы заняло еще столько же места) Все и так отлично. Автору респект — достигнут баланс визуальной и текстовой информации + ссылки.

lena_sakhno Jan 21 2010 at 01:04

Поздравляю с Днем Рождения! =)

Поздравляю!

+16

vikds Jan 21 2010 at 01:14

Большущее СПАСИБО!!! =)) Очень приятно! =))

UFO just landed and posted this here

vikds Jan 21 2010 at 01:39

That's right! =)

Masterkey Jan 21 2010 at 08:11

так же можно заметить, что можно из растра сделать вектор!!!

Rafael_Delon Jan 21 2010 at 02:32

Можно ли это использовать в распознавании стерео/3D-изображений?

youROCK Jan 21 2010 at 02:38

Автор, расскажите, а Вы действительно считаете разницу между цветами как расстояние между векторами в пространстве RGB, или всё-таки привели этот пример для упрощения понимания ситуации? Ведь для цветового различия такая формула совершенно неприменима (я сам примерно тем же, что Вы, занимался когда-то, но недолго :)), и используется, как минимум, пространство XYZ.

ru.wikipedia.org/wiki/Формула_цветового_отличия
пример реализации преобразования RGB -> XYZ и RGB -> Lab

vikds Jan 21 2010 at 09:26

Большое спасибо!

Признаться честно, я не знал о таких подходах вычисления «разницы цвета». Обязательно ознакомлюсь. А в данной реализации (статье) авторы сделали упор на эффективность вычислений, потому и воспользовались формулами попроще.

KL7 Jan 24 2010 at 18:45

В оригинальной статье для цветных изображений авторы рекомендуют сперва проводить сегментацию по каждой RGB-компоненте (и получать таким образом три варианта «одноцветной» сегментации), а затем строить результат, объединяя два пикселя в один сегмент, если они были в одном сегменте более чем в двух «одноцветных» вариантах.
Они утверждают, что такая реализации показала лучшие результаты, чем однократное применение алгоритма к исходному изображению с вычислением расстояний в каком-либо цветовом пространстве.
В таком случае не возникает проблем с выбором цветового пространства.

youROCK Jan 24 2010 at 18:47

Интересно, хотя ИМХО можно попробовать использовать другие цветовые пространства, вместо RGB.

KL7 Jan 24 2010 at 18:57

Уже начал читать оригинал. Надо на каникулах хоть что-нибудь содержательное написать. Если удастся, можно будет попробовать Lab. Быть может авторы дальше RGB решили не углубляться. Они часто напоминают в статье, что «возможны варианты».

medvedew Jan 21 2010 at 03:20

Кубизм.

developer Jan 21 2010 at 03:39

утреннее чтиво, ночью не могу. Обещает быть интересным

roller Jan 21 2010 at 03:56

1) пирамидальные алгоритмы — это что то очень близкое к дискретному вейвлет-преобразованию в простейшей своей форме, а там ведь еще можно и шумы отсекать очень эффективно

2) с точки зрения взлома каптч сегментация изображения выглядит весьма интересной

Aquary Jan 21 2010 at 05:13

> P.S. Прошу сильно не пинать, это мой девятый пост на Хабре.

Да ты писатель-рецидивист!!! :)

Masterkey Jan 21 2010 at 08:19

такая сочная тема, нет он просто молодец!

Siddthartha Jan 21 2010 at 09:39

Хм. Вот если с нуля думать над задачей — решение с графами кажется очевидным, первого выбора. «Как-то так бы и делал» ведь правильно? А пирамидальный — это уже ммм… глубже копать. Почему же распространение и внимание авторов популярной библиотеки досталось именно пирамидальному методу?

KL7 Jan 21 2010 at 10:15

«В общем, пирамидальные – качество, описанные в статье графы – скорость.»

Вероятно создатели openCV предпочли качество. Ведь если не хватает мощности для выполнения алгоритма (в данном случае пирамидального), то можно попытаться улучшить вычислительную технику. А вот если не хватает качества самого алгоритма, то несмотря на его скорость и ваши вычислительные возможности, ничего уже не сделаешь (в глобальных масштабах).

shaman4d Jan 21 2010 at 15:39

Интересна реализация в коде.

Soulreaver Jan 21 2010 at 17:56

Ахаха, год назад защищал дипломную вот точно по этой теме, прога даже работала, могу поискать исходники.

Soulreaver Jan 21 2010 at 18:22

А собсна в статье есть ссылка на оригинальные исходники people.cs.uchicago.edu/~pff/segment/

Soulreaver Jan 21 2010 at 17:59

Автор где вы были два года назад! Я бы меньше парился над запиской для дипломной =) У меня дежавю прям.

0xBA0BAB Jan 21 2010 at 18:38

Осталось придумать еще один алгоритм, который сам подбирает идеальные настройки для описанного алгоритма :)

Levsha100 Jan 21 2010 at 22:13

Пошел искать мануалы по написанию плагинов к фотошопу.

KL7 Jan 24 2010 at 18:53

«segmentation(k, sigma, min)»
Похоже, что на изображениях параметры идут в другом порядке: sigma, k, min. Поправьте, если не затруднит. Пришлось немало времени потратить, думая, как же может сказаться на результатах величина k=0.7. Слишком уж мала она была, чтоб хоть как-то значительно изменить результаты сравнения сегментов. А оказалось, что 0.7 — это параметр для размытия по Гауссу.

vikds Jan 25 2010 at 11:49

Спасибо. Исправил.

IgorSkir May 20 2014 at 20:35

Я думаю данная статья даже спустя 5 лет остается актуальной. Особенно для тех, кто только начинает работать с алгоритмами автоматической сегментации. В связи с этим было бы очень не плохо вернуть часть «пропавших» изображений на их прежние места.

vikds May 21 2014 at 05:33

Возвращаю (залил на habrastorage) =)

IgorSkir May 21 2014 at 12:39

спасибо за вашу оперативность ;)

Show the best of all time