BOBO Oct 17 2010 at 13:46

Построение SIFT дескрипторов и задача сопоставления изображений

11 min

93K

Algorithms*

From sandbox

+74

Comments 49

yoihj Oct 17 2010 at 14:03

Единственное, что про SIFT должно бы сразу быть сказано, это то, что алгоритм запатентован и использовать его в коммерческих целях нельзя (без согласования с David G. Lowe).

BOBO Oct 17 2010 at 14:23

Да, действительно забыл, алгоритм запатентован и использовать его в комерческих целях без согласия правообладателя нельзя. Текст подправил.

yoihj Oct 17 2010 at 14:33

Отлично, только там еще «использосвание» поправьте.
Добро пожаловать, кстати :)
Да и замочек с топика лучше снять («доступен только подписчикам блога») — тогда больше людей прочитает.

BOBO Oct 17 2010 at 14:45

Спс за советы и поздравление))

oYASo Oct 17 2010 at 23:23

Да, отличное начало, так держать!

Sannis Oct 17 2010 at 16:12

А для некоммерческого использования? И, имхо, только на территории США и близких соседей.

BOBO Oct 17 2010 at 16:19

Насколько я знаю законы, то пожалуйста. Можно в учебных и исследовательскиф целях использовать. Лишь бы вы в тайне от автора профит не получали))

amarao Oct 17 2010 at 16:27

Алгоритм запатентован в США. В РФ патентов на алгоритмы нет.

BOBO Oct 17 2010 at 16:42

Получается, что у нас можно создавать коммерческий продукт, который может продаваться в том же США и не покупать лицензию у автора??? Если уж у нас поддерживается копираит, то исключительные права автора должны соблюдаться вне зависимости от того, где получен патент. ИМХО

janvarev Oct 17 2010 at 17:23

Насколько я понимаю, вы, продавая продукт в России не будете нарушать законодательство РФ.
Продавая продукт в США, вы будете нарушать законодательство США.

Право автора на алгоритм в США есть, а в РФ — нет.

BOBO Oct 17 2010 at 17:35

Не силен я конечно в этом, но продавая такой продукт, нарушаются не законы, а права установленные какими-то там международными конференциями или собраниями. Получается, что эти права международные, а то как их защищают законы — это уже дело какой-то конкретной страны. У нас в стране эти права защищщаются. Ведь для того, чтобы пользоваться виндой нужно купить лицензию, вне зависимости от того в какой стране вы ею пользуетесь, хотя написана она была черт знает где. Если что не так — правьте))

janvarev Oct 17 2010 at 17:47

Конкретно эти права (право автора на алгоритм) — не являются международными.

Права на книги, музыку, видео, программы защищаются международным образом; права на алгоритм (который суть идея того, как что-то делать) защищаются только в США.

Скажем так — если вы реализуете этот алгоритм сами, вас могут преследовать в США, но не в России.
Если вы используете библиотеку автора (суть программный код) без лицензии и разрешения, вас могут преследовать и в США, и в России.

amarao Oct 17 2010 at 17:51

Вы путаете патент и авторские права. Авторские права распространяются на код. Если вы код сделаете сами, то он ваш.

А с продажами в США — ну будут вас преследовать по американским законам. И? Если вы не будете иметь счетов на территории страны и не будете туда приезжать, в чём проблема-то?

BOBO Oct 17 2010 at 18:07

Спс, что просветили. Этот вопрос всегда оставался темноват. Теперь немного разобрался.

KOLANICH Feb 21 2012 at 15:41

В России ведь алгоритмы непатентуемы, а законодательство США на нас не распространяется.

AgentSmith Oct 17 2010 at 15:40

>следует обратится
tsya.ru

-3

Postsantum Oct 17 2010 at 15:54

Ей-богу, хуже первонахов уже.

stas_agarkov Oct 17 2010 at 23:04

пусть учатся! может хоть в ворд научаться вставлять перед тем как статью запостить

-3

BOBO Oct 17 2010 at 23:38

В Ворд вставлял, просто упустил из виду опечатку. Не думал, что это кому-то может навредить.
P.S.

может хоть в ворд научаться вставлять, перед тем как статью запостить

stas_agarkov Oct 18 2010 at 00:38

не обращайте внимания, я всегда идиотские комментарии оставляю
а статья крутая, че

-2

Invision Oct 17 2010 at 16:49

А почему именно разность гауссианов берется в качестве фильтра? Что особого в экстремумах этой разности?

BOBO Oct 17 2010 at 17:21

Вопрос хороший. Отвечу немного издалека.
Доказано, что точки экстремума масштабно-нормированного лапласиана гауссиана(LoG) дают наиболее устоичивые относительно масштаба точечные особенности (по сравнению с тем же детектором Харриса, который достаточно прост и широко распространен). Производная масштабно-нормирована, если она умножена на свой масштаб (sigma). В лапласиане присутствуют вторые производные, поэтому его масштабно-нормированная версия умножается на sigma^2.
Так же, существует уравнение диффузии, которое описывает масштабируемое пространство

Если производную аппроксимировать разностной, то получится следующее

Слева получается разность гауссианов, а справа LoG. Причем эта аппроксимация тем точнее, чем ближе k к единице. Кстати, исходя из величины k выбирается шаг с которым строятся изображения в пирамидах.

Valery35 Oct 18 2010 at 11:23

Получается что-то типа условия Куранта?

BOBO Oct 18 2010 at 12:18

Я так понял, вы про условие Куранта — Фридрихса — Леви?
Если да, то можно сказать что здесь что-то подобное. Настолько я помню, это условие накладывает ограничение на шаг, здесь же ограничения на шаг накладываются из эмпирических соображений. Эта формула скорее подходит больше как иллюстрация, нежели как принцип выбора величины шага.

Valery35 Oct 18 2010 at 18:08

Ага. Явные схему сразу напомнило.
Здесь по сути все равно приходится разумным образом учитывать изменчивость объектов.
Статья хорошая, спасибо!

sclv Oct 17 2010 at 19:10

потому что абсолютно не учитывается временной захват, если распознаваемый субъект движется.

red1ynx Oct 17 2010 at 19:21

А где-нибудь можно посмотреть код/реализацию?

BOBO Oct 17 2010 at 19:42

исходники на шарпе libsift, а здесь на плюсах и матлабе. На каком-то википодобном рессурсе видел сборник всех известных реализаций.

BOBO Oct 18 2010 at 07:37

нашел в заладках ссылку на этот ресурс

tunelix Oct 17 2010 at 19:54

Сделайте доброе дело — напишите статью в русскую википедию об этом замечательном алгоритме.

BOBO Oct 17 2010 at 20:03

Если честно, то просто не охото/нет времени. Придется переписывать и дописывать. А так предложение лестное)

noonv Oct 17 2010 at 20:03

Спасибо за статью!
Опередили меня — всё собирался выложить описание этого алгоритма :)

BOBO Oct 18 2010 at 13:00

ага видел ваш коммент, потому сам решил поспешить :)

Trial Oct 18 2010 at 00:45

Спасибо за статью. Не встречалось ли вам описание алгоритма с иллюстрациями на конкретных примерах, что дает каждый шаг? Математическое описание довольно тяжело дается, курс матанализа уже подзабылся :)

BOBO Oct 18 2010 at 07:24

Не встречалось, а что дает каждый шаг я вроде и так описал:

сначала через пирамиды находятся нужные точки
для отсеивания плохих точек делаются проверки
находиться направление особой точки, что в дальнейшем обеспечивает инвариантность относительно поворота исходного изображения
строится дескриптор

Если честно, то я даже не знаю как можно норм иллюсстрировать эти шаги. Вообще, по этои тематике есть только несколько статей на английском. У самого автора есть еще статьи, но они представляют собой либо промежуточные результаты, либо посвещены какому-либо одному этапу. На русском ни одной статьи (толковой) по этому алгоритму не встречал:)

BOBO Oct 18 2010 at 07:48

Могу посоветовать только англ wiki, обсуждение на RSDN и статью о точечных особенностях в общем.

Trial Oct 18 2010 at 11:17

Вы все здорово описали, для имплементации алгоритма этого вполне достаточно. Мне же интересно, почему и зачем делается каждый шаг. Например, у меня есть догадки, зачем строить пирамиду гауссианов и считать их разность, но если была бы иллюстрация как эта разность выглядит на реальной картинке и для какой точки достигается локальный экстремум, задумка автора раскрылась бы полнее. Опять же, подбор нужных коэффициентов k, N — требует практических экспериментов. Мне немного помогли разобраться иллюстрации в статье Yu Meng-а.
Видимо, остается один путь — поэкспериментировать с одной из реализаций.

Ещё заметил, что этот алгоритм неплохо ложится на нейросети (пространство масштабов, свертки, поиск экстремумов — все это можно поручить нейросети). Не попадались исследования в таком ключе?

BOBO Oct 18 2010 at 12:06

Пирамида гауссианов строится, чтобы по ней в дальнейшем считать направления ключевой точки и дескрипторы, а разности гауссианов для нахождения самих этих точек. Про DoG можно почитать и посмотреть результаты работы этого фильтра в Wiki. Чисто визуально DoG выделяет края, контуры обьектов, а его точки экстремума находятся в особо различимых местах(например, в углах, возле границ объектов и т.д.) Почему именно DoG, с чисто теоретической стороны я уже описал выше. А подбором коэффициентов занимался сам автор (похоже долго и упорно). В его статье много графиков зависимостей некоторых параметров, от входных данных, и рекомендаций по выбору значений этих параметров. Согласен, что у Yu Meng'а некоторые моменты описаны четче.
Насчет нейросетей, то я ничего по этому поводу не встречал. Правда, сама идея построения дескриптора взята автором (по его словам) из какой-то работы по изучению зрения приматов и построения мат модели неиронной сети, отвечающей за это дело (в статье есть упоминание, не помню только где, если сильно надо то поищу). Еще видел одну статью, в которой приводилась аппаратная реализация построения пирамид, для внедрения этого дела в робототехнику.

Trial Oct 18 2010 at 13:30

Спасибо, wiki помогло разобраться в DoG.

ymik Oct 19 2010 at 14:13

такая свёртка плохо работает для геометрически искажённыхх объектов — к примеру, для спутниковых снимков или для снимков на фишай

BOBO Oct 19 2010 at 16:20

Не совсем понял: сам механизм свертки или свертка с каким-то конкретным ядром?
Вообще никто и не говорил, что это идеально работает во всех случаях. Все равно спасибо за заметку:)

ymik Oct 19 2010 at 16:57

Сам механизм свёртки: гауссиан не инвариантен к линейным искажениям. Соответственно, свёртка, базирующаяся на вычленении AP(attraction point) только на основании анализа гауссианов при сильных геометрических искажениях будет лагать. Ну и беда с текстурированными изображениями — тоже, как это у вас в статье отмечено.

Apls May 11 2014 at 22:51

Не совсем понятно, где будет находиться сам пиксель ключевой точки внутри её окрестности?

BOBO May 12 2014 at 18:59

Похоже речь идет о последней картинке. Вопрос в том, как может ключевая точка находится в центре окна, т.е. «между» пикселями? Если да, то тут есть некоторая тонкость.
Во-первых, центр окна действительно находится «между» пикселями, но он не совпадает с ключевой точкой, а находится ближе всего к ней.
Во-вторых, он лежит ближе всего не к простым координатам ключевой точки, а к уточненным. Простые координаты — это те, которые найдены на пирамиде DoG, а уточненные координаты — это те, которые вычисляются с субпиксельной точностью по многочлену Тейлора. Поскольку простые координаты — целые числа, то непонятно какой из четырех «углов» их пикселя брать за центр окна. С уточненными координатами таких проблем не возникает, т.к. они вещественные.

Apls May 15 2014 at 17:24

Да, именно это я и хотел уточнить. Спасибо.

victor1234 Jun 15 2015 at 17:13

Подскажите хорошую реализацию на GPU, работающую под Linux, желательно OpenSource.

BOBO Jun 16 2015 at 07:07

Я уже давно этой темой не занимался, поэтому не подскажу. А вообще, если у вас не курсовая/диплом/..., то может будет лучше посмотреть на другие алгоритмы (хотя бы тот же SURF, для него и реализация на GPU в opencv есть). Все таки, Lowe со своей работой был в некотором смысле первопроходцем. С тех пор уже не мало времени прошло.

victor1234 Jun 16 2015 at 10:24

Вот это интересный вопрос. Я собираю свой пайп для sfm из bundle, cmpvs и т.д. Можно ли для этих целей заменить sift на surf, как вы считаете?

BOBO Jun 16 2015 at 11:39

Да кто его знает. Навскидку, я криминала не вижу. Но, пока не попробуешь — не узнаешь.

Show the best of all time