Lachezis 30 мар 2009 в 19:06

Простое сравнение изображений с помощью php

3 мин

26K

PHP*

+145

Комментарии 64

kolpeex 30 мар 2009 в 19:29

Круто!

MiniM 30 мар 2009 в 19:30

не полностью вникал в вычисление ключа, но при проверке схожести у вас проверяется сколько значений из первого ключа входят во второй, но не наоборот.

Для примера:
[1 1]&[0 1]=1
[0 1]&[1 1]=0.5

Как вариант могу предложить использовать функцию array_intersect

MiniM 30 мар 2009 в 19:38

причём применять функцию дважды с разным порядком элементов. а результат уже брать либо как среднее, либо как минимальное, это уже нужно на конкретных примерах выбирать.

Lachezis 30 мар 2009 в 19:45

Я набросал эту функцию только для примера, в основном использую средства MySQL для сравнения двух строк — гораздо быстрее и удобнее. )

P.S. Как это перенести в php?

MiniM 30 мар 2009 в 19:47

Не понял вопроса.

array_intersect — это функция php.

Lachezis 30 мар 2009 в 19:52

Я про imagediff.

MiniM 30 мар 2009 в 20:00

а как вы используете эти самы средства? Честно говоря, не совсем представляю как это можно сделать с помощью sql.

-1

Lachezis 30 мар 2009 в 20:10

Например FULLTEXT в MySQL, значения немного не такие, но вполне основательные.

MiniM 31 мар 2009 в 14:39

С FULLTEXT не работал, поэтому ничем не могу помочь.

yAnTar_yAnTar 31 мар 2009 в 00:43

Объясните подробнее, а то не понял, какая разница что с чем сравнивать.

MiniM 31 мар 2009 в 14:40

Разница в том, что если сравнивать image1 и image2, то получим один результат, а если сравнивать image2 и image1, то результат может оказаться другим.

MiniM 30 мар 2009 в 19:46

алгоритм интересен, но вот реализация хромает, имхо.
использование @ неоправдано, можно было обойтись такой инициализацией:
$average=array('red' => 0, 'blue' => 0, 'green' => 0);

не нравится изменения типов переменных: то average у вас массив, то уже число.

алгоритм можно упростить до такого:

  //Заполняем маску и вычисляем базовый цвет
  for($x=0;$x<20;$x++)
    for($y=0;$y<20;$y++)
    {
      $color=imagecolorat($zone,$x,$y);
      $color=imagecolorsforindex($zone,$color);

      //Вычисление яркости было подсказано хабраюзером Ryotsuke
      $colormap[$x][$y]= 0.212671 * $color['red'] + 0.715160 * $color['green'] + 0.072169 * $color['blue'];

      $average += $colormap[$x][$y];
    }

  //Базовый цвет
  $average /= 400;

Lachezis 30 мар 2009 в 19:47

Увы, писалось всё очень поздним вечером. За замечания спасибо, я подправлю с вашего разрешения.

MiniM 30 мар 2009 в 19:49

конечно, я не против — мы тут для того, что бы делиться решениями и опытом.

Yeah 30 мар 2009 в 20:15

В первом примере нет ничего удивительного. Сжимая изображение, вы получаете цветовое пятно. Вычисление «среднего цвета» напрямую зависит от того, какие цвета преобладают на картинке. Так как первое изображение без полутонов (я насчитал 7 цветов), то и вероятность, что уменьшение размера даст очень похожее цветовое пятно весьма высока.

В качестве примера предлагаю сжать два первых изображения, а потом отойти от монитора на большое расстояние (близоруким можно и не отходить) — изображения практически сольются.

Думаю, что автор мог бы значительно улучшить эффективность алгоритма, если бы не уменьшал изображение, а делил бы его на сетку и считал бы средние цвета для ячеек, а потом сравнивал бы. Можно также добавить туда приоритеты. Чтобы разделять, что схожесть в центре изображения важнее, чем по краям (хорошо для фотографий)

Lachezis 30 мар 2009 в 20:19

Дело в том, что данное решение скорее расчитано на быстрое сравнение двух изображений — т.е. заказчик хотел получать изображения похожие на загружаемое — сами понимаете, что уже при 1000+ картинок результат будет не впечатляющим, а посмотреть лишние два-три изображения совсем не проблема.
Думаю если найдется специфическая задача — можно будет и модернизировать.

Yeah 30 мар 2009 в 21:57

Я предлагал в расчете на следующее применение: картинки загружаются пользователем. При загрузке вычисляется некий хэш, сохраняется в базу. Затем можно выбирать из базы изображения похожие на заданное при помощи Stored Function из Mysql.
Если нужно сравнивать при загрузке с большим количеством, тогда да…

Lachezis 30 мар 2009 в 22:00

Я делаю точно так же, через некоторое время после загрузки крон вычисляет кеш, а затем уже ищет подобные.
В принципе мастабирование и выполняет роль «сетки», едиснтвенное отличие в том что я вычисляю не средний цвет, а среднюю яркость — это сделало возможным проверить пример номер 4.

P.S. Первоначально не понял замечания про разбиение, прошу прощения.

l2k 30 мар 2009 в 23:15

В этом случае, наилучшим результатом (быстрое сравнение) было написание алгоритма обработки на C (с использованием той-же GD).

Варианта 2:
1) Запуск как демона. (сканирование на предмет новых изображений) И автоматическое сравнение.
2) Запуск как отдельное приложение из PHP.

dab512 1 апр 2009 в 08:30

уменьшать изображение и находить средние цвета по регулярным ячейкам это по сути одно и то же, так что улучшения не будет

а чтобы увеличить вес центральной области — надо просто сжимать меньше а по краям брать для анализа не все пиксели

scrat 30 мар 2009 в 22:32

Просто, лаконично.

kalisha 30 мар 2009 в 22:35

в избранное!

demin 30 мар 2009 в 22:44

Наверное, похожий алгоритм работы у tineye.com

-7

qde5n1k 30 мар 2009 в 22:45

очень хорошая статья! взял на заметку!
но все же, кОрреляция!

Lachezis 31 мар 2009 в 15:37

Подправил.

Kastrulya 30 мар 2009 в 22:55

в мемориз. авось пригодится=)))

zaartix 30 мар 2009 в 23:05

я вот тоже подумал, только пока не представляю для чего :)

Kastrulya 30 мар 2009 в 23:18

на то он и авось ;)

galaxy 30 мар 2009 в 23:17

foreach($image as $bit)

if(in_array($bit,$desc))

$result++;

Я может не совсем врубился, но вроде у Вас в строках лежат тройки [координата X, координата Y, производное яркости], т.е. тройки уникальны и лежат по порядку. Имхо достаточно писать в строки яркости через пробел и просто сравнивать их потом.

Lachezis 31 мар 2009 в 15:38

Проблематично будет использовать ресурсы базы, но в «чистом» php так будет быстрее.

nord_ak 30 мар 2009 в 23:34

ИМХО для усовершенствования распознавания слегка модифицированных изображений, можно сигнатурить не так жестко (матрицей), а генерируя для изображения массив шинглов (по яркости, оттенку или контрастам, тут уж надо смотреть как эффективнее). По аналогии с алгоритмами нахождения плагиата в тексте. Таким образом можно быстро получать совпадения не только на целую картинку, но и частично повторяющую объект (например кроп или коллаж).

roller 30 мар 2009 в 23:47

я бы попробовал вычислить несколько ступеней дискретного вейвлет преобразования простейшего ( /2 ), фактически линейная интерполяция между соседними пикселями на каждом шаге, и сравнивал поэтапно начиная с матриц 2x2 потом 4x4 потом 8x8 впринципе тут все уже зависит от того, какая точность требуется

gorp 31 мар 2009 в 00:10

для моего сервиса, я использую похожий алгоритм, правда только 3х3 точки, что вполне хватает, тем более что при большом количестве фоток, там сейчас около 200 тыс., скорость поиска дубликатов очень важна

stfalcon 31 мар 2009 в 21:32

а как вы ищете дубликаты?

studentpm 31 мар 2009 в 22:23

При 3*3 можно просто искать совпадения.
В посте реализовано 20*20… тут точность выше но работать с результатом сложнее.

Lachezis 1 апр 2009 в 12:15

studentpm, честно говоря с 20 на 20 я переборщил, 10x10 должно хватить выше крыши.

subz 31 мар 2009 в 00:12

Сразу подумалось о видео: снимаем среднюю яркость каждого кадра из оригинала, строим зависимость этого показателя во времени и кладем распределение в индекс поиска. Ищем копии, снимая с изучаемого объекта аналогичное распределение и сравнивая с индексом.

Carry 31 мар 2009 в 00:54

очепятка: карелляции -> корреляции

proxor 31 мар 2009 в 09:02

А дайте ссылки на полноразмерные картинки. Особенно на ту, что с эльфами :3 А вообще интересная тема — поиск похожих изображений.

-1

Infanty 31 мар 2009 в 10:21

Спасибо. Как раз искал правда на Delphi :), ну ничего переведу.

А если например на сайте проверять — лицензионное или пиратское видео загружает пользователь или есть такое видео на сайте или нет, то алгоритм почти не изменится:
1. Раскладываем все имеющиеся видео на кадры по каждому кадру строим ключ и пишем его в базу данных.
2. Из нового загружаемого видео — выдёргиваем несколько случайных кадров и строим их ключи.
3. Ключи из п.1 и п.2 проверяем по базе — есть ключ (видео имеется или пиратское(если изначальные ключи — лицензионного видео)), нет ключа — уникальное видео.

Error_403_Forbidden 31 мар 2009 в 10:38

На 1-м курсе универа такое преподают

studentpm 31 мар 2009 в 10:47

Написал класс из всего этого:

<?php



    // ini_set('memory_limit', '256M');

    

    class imagediff

    {

        private $image1;

        private $image2;

        

        function  __construct($img1, $img2)

        {

            $this->image1['path'] = realpath($img1);

            $this->image2['path'] = realpath($img2);

            if($this->image1['path'] === false || $this->image2['path'] === false)

            {

                throw new Exception('Image "'.htmlspecialchars( $this->image1 ? $img2 : $img1 ).'" not found!');

            }

            else

            {

                $this->image1['type'] = $this->imagetyte($this->image1['path']);

                $this->image2['type'] = $this->imagetyte($this->image2['path']);

            }

        }



        private function imagetyte($imgname)

        {

            $file_info = pathinfo($imgname);

            if(!empty ($file_info['extension']))

            {

                $filetype = strtolower($file_info['extension']);

                $filetype = $filetype == 'jpg' ? 'jpeg' : $filetype;

                $func = 'imagecreatefrom' . $filetype;

                if(function_exists($func))

                {

                    return $filetype;

                }

                else

                {

                    throw new Exception('File type "'.htmlspecialchars( $filetype ).'" not supported!');

                }

            }

            else

            {

                throw new Exception('File type not supported!');

            }

        }



        private function imagehex($image)

        {

            $size = getimagesize($image['path']);

            $func = 'imagecreatefrom'.$image['type'];

            $imageres = $func($image['path']);

            $zone = imagecreate(20, 20);

            imagecopyresized($zone, $imageres, 0, 0, 0, 0, 20, 20, $size[0], $size[1]);

            $colormap = array();

            $average = 0;

            $result = array();

            for($x=0; $x<20; $x++)

            {

                for($y=0; $y<20; $y++)

                {

                    $color = imagecolorat($zone, $x, $y);

                    $color = imagecolorsforindex($zone, $color);

                    $colormap[$x][$y]= 0.212671 * $color['red'] + 0.715160 * $color['green'] + 0.072169 * $color['blue'];

                    $average += $colormap[$x][$y];

                }

            }

            $average /= 400;

            for($x=0; $x<20; $x++)

            {

                for($y=0; $y<20; $y++)

                {

                    $result[]=($x<10?$x:chr($x+97)) . ($y<10?$y:chr($y+97)) . round(2*$colormap[$x][$y]/$average);

                }

            }

            return $result;

        }



        public function diff()

        {

            $hex1 = $this->imagehex($this->image1);

            $hex2 = $this->imagehex($this->image2);

            $result = 0;

            foreach($hex1 as $bit)

            {

                if(in_array($bit, $hex2))

                {

                    $result++;

                }

            }

            return $result / ( ( count($hex1) + count($hex2) ) / 2 );

        }

    }



    $diff = new imagediff('/opt/www/test/www/3.png', '/opt/www/test/www/3.jpeg');

    print ($diff->diff() * 100 ).'%';



?>

MiniM 31 мар 2009 в 14:39

у вас ошибка, как и у автора, в функции diff. Если поменять порядок изображений — изменится результат, а это не правильно. я писал об этом выше во втором комментарии.

studentpm 31 мар 2009 в 16:57

Не меняется… проверял. Но все равно сменил на функцию array_intersect().

MiniM 31 мар 2009 в 18:41

я не учёл, что в хэше используются координаты точки.
но тогда можно просто поэлементно сравнить массивы, а не использывать поиск каждого элемента в другом массиве.

MiniM 31 мар 2009 в 14:39

Lachezis 31 мар 2009 в 15:49

round(2*$colormap[$x][$y]/$average); рекомендую сделать как в upd-2, сравнение получается более точное.

studentpm 31 мар 2009 в 16:52

Спасибо!
Тут исправленная версия:
http://webiteam.ru/2009/03/sravnenie-izobrazhenij-s-pomoshhyu-php/

temamagic 1 сен 2015 в 21:18

Да, я археолог, но мне кажется ссылочку лучше либо удалить, либо исправить на правильную. При переходе открывается совсем другая ссылка

-1

LDEV 31 мар 2009 в 11:13

Очень интересная реализация. Подойдет для фотохостинга — например говорить пользователю, что у него уже есть такая похожая фотография (но всё-таки разрешать загружать).

В букмарки!

Lachezis 31 мар 2009 в 15:39

Мне кажетяс кнопочка «найти похожие» тоже пригодится.

stfalcon 31 мар 2009 в 18:54

а как оптимальнее провести поиск схожих изображений средствами mysql к примеру?

stfalcon 31 мар 2009 в 19:06

т.е. когда ключи уже есть в базе

studentpm 31 мар 2009 в 21:01

Думаю мускуль тут слабый помощник =\
Хотя если через лайк запрос выбрать поля хотя бы с 50% содержанием элементов ключа, а дальше уже средствами того же php уточнить результат… но это ни разу не оптимально =((

stfalcon 31 мар 2009 в 21:33

но и перебирать каждый раз все ключи не выход.

studentpm 31 мар 2009 в 22:19

Еще можно попробовать псевдосемантикой. Т.е. разбить ключ на элементы и сравнивать и искать с наибольшим процентов вхождения.
Был как-то на хабре пост про организацию поиска аля яндекс. Там описано как сделать можно.

stfalcon 31 мар 2009 в 22:27

Понятно. Звучит как-то сильно тяжело (в плане нагрузки) для такой задачи…

CAH4A 1 апр 2009 в 00:34

А может перевести в LAB цвет, оставить только освещённость, и ксорить… :)

MYPABEU 2 апр 2009 в 02:31

Меня, конечно, запинают… Но я осмелюсь спросить… А как с помощью SQL выбрать максимально схожие изображения основываясь на этом алгоритме?

MYPABEU 2 апр 2009 в 12:43

Попробовал через MATCH(`hash`) AGAINST("$HASH") Ничего не выбрало… Точнее выбрало много но релевантность везде была равна нулю.

Lachezis 2 апр 2009 в 14:12

Для начала нужно уменьнишь минимальное слово для индексирования (по умолчанию стоит 4, а нужно 3). А дальше точно так же, я постараюсь в ближайшем времени представить кое-какие дополнения для работы в MySQL с этой фиговиной.

MYPABEU 2 апр 2009 в 17:48

Следует вопрос… А как это сделать? В конфигах или можно прямо SQL запросом?

Lachezis 2 апр 2009 в 18:00

Я делал в конфигурации, наверняка можно временно установить запросом.

nIx0iD 16 мая 2015 в 14:26

Спасибо, помогли.
Кстати, если в конце долгий in_array заменить на быстрый isset (для этого надо класть в ключи, а не в значения), то можно оптимизировать по быстродействию почти на порядок.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Простое сравнение изображений с помощью php

Комментарии 64

Публикации

Истории