mykola Dec 5 2007 at 00:52

Капча на основе изображений

3 min

15K

Website development*

Comments 42

agel Dec 5 2007 at 02:18

Не прошёл ни одной проверки по первой ссылке: «Ви можливо робот. Чи блондинка ?!».

-1

agel Dec 5 2007 at 04:21

А, это меня подвело незнание языка, звиняюсь.
Но и они, додумались же, верный ответ подсвечивать красным.

mykola Dec 5 2007 at 08:50

Есть еще вариант на плохом английском, возможно он будет более понятен чем украинский :)
http://marss.co.ua/TestImageBasedCAPTCHA…

bvasya Dec 5 2007 at 02:22

Идея отличная! Вот только вероятность положительного отгадывания роботом будет где то 1-5% (в ваших примерах). А это для капчи достаточно много.

BuriK666 Dec 5 2007 at 02:30

загрузив одну картинку несколько раз, можно получить оригинал изображения. а дальше уже легко будет найти место искажения

rumkin Dec 5 2007 at 02:40

А если с фликера грузить картинки?
Но как быть людям со слабым зрением или без оного?

fatal Dec 5 2007 at 03:55

Но как быть людям со слабым зрением или без оного?

В рунете принято пока отмахиваться от таких проблем к сожалению...

rumkin Dec 6 2007 at 09:49

Да это понятно что принято отмахиваться. Мне вот что интересно: кто-нибудь знает существующие решения для подобной проблемы, может личное письмо администратору?

agel Dec 5 2007 at 04:13

люди со слабым зрением или без оного уже могут осилить далеко не каждую текстовую капчу.
для таких искажённые картинки даже более приемлемый вариант, я считаю.

mykola Dec 5 2007 at 08:30

С фликера не пробовал, пробовал с Гугла.
http://marss.co.ua/AdvancedImageBasedBot…
Проблема в основном в том, что уж больно разные картинки попадаются, трудно придумать общий алгоритм искажения, который одинаково хорошо будет смотреться на любой картинке-подложке. Так что пока осталось в виде тестового примера, не более...

rumkin Dec 6 2007 at 10:02

Ну, смотри, с шумом всё понятно: выбираешь картинку, пробегаешься по ней квадратом 8*8, например, или 16*16 и проверяешь среднее отклонение в цветовой гамме, т.о. находишь участки изображения наиболее однородные, выбираешь один из участков рандомайзером и фигачишь туда шум, можно ещё добавить motion blur (растянуть участок по вертикали или горизонтали в пределах нужного участка).
А для spin'а нужно найти наиболее интенсивные участки изображения (на них шум не виден, а вот спираль будет видна однозначно) и исказить их.
Кстати, если сделать спин побольше его будет лучше видно, кстати масштаб ведь, тоже помощник в деле борьбы со спамом?
А за идею - пятёрка , ну или как сейчас принято говорить: плюс адын... ыыыыыыыыыыыыыыы ;)

mykola Dec 6 2007 at 15:32

>>Кстати, если сделать спин побольше его будет лучше видно, кстати
>>масштаб ведь, тоже помощник в деле борьбы со спамом

Увеличение масштаба искажения ведет в повышению возможности случайного угадывания, увеличение масштаба общей картинки ведет в увеличению трафика. В общем здесь нужно искать золотую середину :)
За идеи насчет искажения - спасибо, я подумаю над этим.

Насчет извлечения случайных картинок с других сайтов: отложил я эту идею еще по нескольким причинам. Во первых, вопрос правообладания на контент с чужых сайтов; во-вторых, даже если это и законно, в любом случае это будет классический хотлинкинг http://en.wikipedia.org/wiki/Inline_link…, что во всем мире считается, мягко говоря, дурным тоном. И в третьих, поскольку нет нужды в упорядочении, то нет и никакой проблемы в создании базы шаблонных изображений: берете любой графический редактор и кромсаете вашы любимые обои для рабочего стола на мелкие кусочки. Через час у вас уже своя база картинок :)

И еще одно. Рискну сделать вам замечание, поскольку вы мне показались достаточно умным человеком, способным понять следующее: обращение на "вы" в общении с малознакомыми людьми не делает ваши посты хуже, а, скорее, наоборот.

Еще раз спасибо за идеи насчет способа искажения изображения.

rumkin Dec 13 2007 at 10:42

Приношу свои извинения, что задел Вас, обычно я стараюсь обращаться на «вы», но как разработчик к разработчику позволил себе перейти на Т. Ещё раз извините.

Вернёмся к нашим баранам. Брать картинки в уменьшеном варианте с ленты фликера с указанием их ссылки и лого вполне правомерно, они же позволяют свою ленту публиковать на друих сайтах. К авторским правам могут придраться в том случае если вы эти фотографии выдаёте за свои ну или иллюстрируете ими что-то, а так - вряд ли. Тем более что у них в лицензионом соглашении написано что всё остаётся на усмотрение авторов. Хотя думаю что при указании всех регалий никто придираться не станет.

Про хотлинкинг я ничего не понял, в смысле, как он относится к вам? Ведь по алгоритму вы должны выдать пользователю обработанную вашим сервером картинку, т.е. обращение будет идти к вашему серверу в первую очередь.

Про графический редактор: во-первых, обои тоже кому-то принадлежат, во-вторых, вы получаете счётное количество картинок. Фликр или любой другой подобный сайт даёт возможность увеличить это количество практически до бесконечности в понимании спам бота, т.к. ему врядли попадётся дважды одна и таже картинка.

Если говорить про методы то: шумы имеют определённую закономерность которую можно высчитать, поэтому масштаб всё-таки должен быть разным, как и у спина, пусть и в небольших пределах.

mykola Dec 13 2007 at 20:34

>>Про хотлинкинг я ничего не понял, в смысле,
>>как он относится к вам? Ведь по алгоритму вы
>>должны выдать пользователю обработанную вашим
>>сервером картинку, т.е. обращение будет идти
>>к вашему серверу в первую очередь.

Прежде, чем мой сервер выдаст пользователю обработанную картинку, он должен ее скачать ее с Фликера. Поскольку скачивание автоматическое, то есть я не смотрю рекламу (или что там еще, на чем зарабатывает Фликер), то фактически я увеличиваю для них бесполезный трафик, за который нужно платить. Так что получается, я у них буду воровать :)

>>вы получаете счётное количество картинок.

Чуть ниже, в коментарии, я уже писал, что оригинальная картинка никогда не показывается пользователю. Фактически есть 2 искажения: одно небольшое общее и другое, более заметное в пределах выбранного маленького региона.

mykola Dec 5 2007 at 08:25

Попробуйте :). Если под оригиналом вы имеете ввиду картинку-подложку - то она также изменяется при каждом запросе, правда не так сильно. Наложить картинку на картинку и сравнить по-пиксельно не получится.

bkonst Dec 5 2007 at 10:36

Интересный подход, но сломают при направленной атаке очень быстро. Практически все варианты искажений очень хорошо выделяются при обработке простейшей маской выделения контура (за исключением, пожалуй, картинки с желтыми наклонными полосками - но там я и сам едва разглядел место, где надо кликнуть).

Проблема в том, что такая CAPTCHA не зависит от специфических человеческих знаний - для того, чтобы её разгадать, не надо знать, что такое "машина" или "калькулятор", а всего лишь углядеть область на картинке, отличающуюся по структуре. Это очень легко автоматизировать.

DmytroMindra Dec 5 2007 at 10:47

Есть интересная идея капч, основанных на картинках, где на выбор пользователю выдаётся несколько картинок и ему предлагают выбрать ту из них, которая в наборе лишняя. Тут, конечо, программа бот может наугад работать с неплохим "процентом". Но ведь можно усложнить немного. Например сделать комбинаторную : 6 картинок и попросить пользователя отметить на каких из них изображены к поримеру коты. Человек с задачей справится быстро и никакого "высматривания" защищённых помехами цифр. А вот программе боту здесь будет сложно.

dze Dec 5 2007 at 12:23

простите. вопрос не по теме поста. а зачем вы точку в конце заголовка ставите? :)

mykola Dec 5 2007 at 14:50

Давно в школу ходил :) Исправил.

UFO just landed and posted this here

mykola Dec 5 2007 at 15:22

>>неужели так сложно перед этим задуматься о том, зачем вообще нужна каптча?

Практически любая текстовая капча может быть взломана.
http://www.cs.sfu.ca/~mori/research/gimp…
Но тем не менее пока от них не отказываются. Почему? Да потому что нет пока универсальных ломалок всех капч подряд, а настройка ломалки под конкретную капчу стоит времени и денег. Потому, если у вас сайт с посещаемостью(ценностью) поменьше чем, например, Yahoo, то потенциальный вломщик будет соотносить трудозатраты с ожидаемой прибылью. А посетитель, который заходит на ваш сайт, и пребывание которого на вашем сайте нужно сделать максимально комфортным - возможно оценит удобство капчи. А может и нет, я не настаиваю.

>>эта капча ломается перебором за 25 попыток.

Если вы имеете ввиду простое кликание наугад, то после определенного количества неудачных попыток капча просто блокируется. Если что-то другое - буду признателен за более обширное объяснение.

UFO just landed and posted this here

Meneldor Dec 5 2007 at 15:05

ИМХО, лучшая идея для капчи - recaptcha.net. Идея в том, что пользователь видит текст из отсканированных книг, который не удалось распознать с помощью OCR. Таким образом мы одновременно и пользователя проверяем, и книги распознаём.

scvorec Dec 5 2007 at 23:46

ха, идея отличная. спасибо за ссылку.

rumkin Dec 6 2007 at 10:22

Идея - супер, но не для России.

Meneldor Dec 6 2007 at 18:33

Почему же? Если человек умеет набирать домены латиницей, он и слова английские распознает. Ну со второго раза точно.

rumkin Dec 13 2007 at 10:46

Могу согласиться, но всё-равно, в этой каптче принцип построен на узнавании слова, если человек не знает английского, то многие слова будет подбирать наугад. Т.е. для русского человека трудность прохождения этой каптчи в 1,5 - 2 раза труднее чем для англо-саксов ;)

rumkin Dec 13 2007 at 10:47

P.S. трудость конечно же не труднее, а выше ;)

Meneldor Dec 13 2007 at 19:46

Но, ИМХО, проще, чем подобрать число, написанное мега через жопу :)!

rumkin Dec 13 2007 at 19:53

Позволю себе согласиться. Жаль что Большая Российская Библиотека на это не решилась пока...

Meneldor Dec 13 2007 at 20:15

Да, кстати, это для них было бы правильным решением! Бесплатная помощь людей - что может быть лучше?

trevel Dec 6 2007 at 15:59

Использую на одном из сайтов. Отличная вещь. Легко настраивается под любой дизайн.

mryasov Dec 6 2007 at 00:59

идея с картинками понравилась :)
насчет траффика - согласен, но все таки лучше чем зрение напрягать и буковки разглядывать

alexbyk Dec 11 2007 at 16:14

Идея с картинками - смотря как сделать. Смотрим как сделал Лебедев (хотя может и не он). http://kyivstar.net/sms/ - на выбор надо выбрать 2-4 картинки живой природы. В общем ребята позаботились не только о комфорте для обычных пользвателей, но и о комфорте тех, кто будет программуписать для угадывания капчи - чтобы они не сильно напрягались))) гыыы

Обратите внимания: картинок 9 - файлы (1-9).jpg. Названия естественно изображению не соответствуют. Вроде бы вероятность подбора перебором устраивает: например чтобы выбрать 3 картинки среди 9 вероятность правильного ответа: 9*(9-1)*(9-2)*3.
Но... грех не посмеяцца, заметив:
там всего несколько картинок, каждая картинка имеет свой уникальный размер (в байтах - размер ответа сервера). Даже если их там будет 100 разных. Достаточно составить таблицу вида Размер Байт - Природа или нет. И просто при генерации сервером капчи сравнивать сам размер каждого файла (от 1.jpg до 9.jpg), при этом даже не вдаваясь что на них изображено.

Естественно, процессорное время освобождаецца, и можно так много этим смс понарассылать огого. А Кроме того - простота метода дает возможность заставить посетителей какой либо страницы специально подготовленной ничего не подозревая рассылать твои СМС, чтобы твой айпи не высветился)))

Только не надо пробовать - а то я часто люблю смс через сайт рассылать чем через телефон - удобнее, не хочу чтобы прикрыли

DnV Jan 21 2008 at 20:03

Вы сами-то пробовали? А то такой бред сказали...
1) Картинки там генерируются в bmp формате. Что это значит? Правильно, размер у них идентичен.
2) Картинок там не 9 а больше, ну да бог с ними. Выбрать например 3 картинки из 9 вероятность всего 1/84, а не то, что вы написали.
Короче, капча на которую вы ссылаетесь и в самом деле уязвима, но не там ;)

alexbyk Jan 22 2008 at 14:19

Уважаемый. Это вы не разобравшись умничаете. Посмотрите дату комментария. 11 декабря 2007 16:14 - тогда там было все так как я описывал, картинки были в jpg формате, имели разный размер, их количество было ограничено.

Когда я это заметил, скинул Лебедеву информацию что плохого и как сделать лучше, чуть позже написал предыдущий комментарий. Скорее всего, ребята из студии взяли и все уже исправили. Поэтому толку замечания делать уже нет

DnV Jan 25 2008 at 01:44

Ну тогда извиняюсь. Не думал, что так быстро реагируют.
Но капча до сих пор остаётся мягко сказать слабой. Что они, сами это понять не могут? Ну добавили они картинок, ну перевели их в бмп, что только трафика добавило. А что толку? Буду сверять, например, по цвету первого пиксела. Он на 100% на всех картинках разный...
Короче ребята вообще не в теме, а пытаются что-то делать :-\

alexbyk Dec 11 2007 at 16:47

5 мин. прошло - могу писать продолжение к своему комменту
Ну а теперь вот как мне представляется это хорошо исправить: Допустим у нас есть 9 картинок. Избавиться от соответствия размера файла изображению просто - взять и исказить немного случайным образом каждую в размере большого количества экземпляров. Если уж заботится о дизайне, то можно не искажать саму картинку, а кадрировать случайным образом - любой из способов изменит и размер файла, и изображение, при этом удобство (типа фишка метода) ничуть не пострадают.

Лучше конечно действовать по методу: берем картинку размера в два раза больше, чем то, которое будем показывать, совсем немного искажаем ее в 10 вариантах, и делаем кроп тоже в 10 вариантах - вот и получилось 100 вариантов картинки которые очень легко сделать програмно, а распознать програмно трудно. Даже если кое как соберут все образы - можно легко поменять набор.

И в добавок не писать сколько картинок Живой природы надо выбрать.

mykola Dec 11 2007 at 20:32

>>Если уж заботится о дизайне, то можно не искажать саму картинку,
>>а кадрировать случайным образом - любой из способов изменит и размер
>>файла, и изображение

Можно, но автоматически нарезая картинки вы рискуете попасть в ситуацию, когда пользователь не сможет понять по фрагменту, что именно изображено. Хотя с изображениями природы может и получиться, пробуйте :)

bettrrr Jan 17 2008 at 15:43

В комментариях описывается проблема: "Где брать картинки-исходники?". Надо много картинок и чтобы небыло проблем с авторскими правами и небыло хотлинкинга.

А нужны ли эти картинки? На основе описанного в данной статье метода можно сделать капчу без использования какртинок исходников.

только на этих картинках шум одинаковый, а его надо генерить автоматически и просить нажать на цент кругов.

mykola Jan 17 2008 at 20:09

Можно, но это будет совсем другой тип капчи.

Основная идея капч на основе изображений в использовании знаний, которые человек приобретает на протяжении жизни и которые трудно описать математическими формулами. Например, у человека есть собирательный образ понятия "дом", и хотя дома бывают разные, тем не менее человек глядя на картинку может сказать, что это дом, а это, например, автомобиль. Или, как в вышеописанном варианте, это дом, но месте двери что-то не совсем похожее на дверь, потому что дому не свойственно иметь дверь в форме спирали и т.п. То-есть распознавание не столько логическое, сколько интуитивное, на основнии жизненного опыта.

Немного сумбурное описание, но, надеюсь, вы понимаете, что я имею ввиду.

Если же использовать просто "шум" (или "шум" на фоне другого "шума"), то здесь на вышеописанные "инстинкты" рассчитывать не приходится. Нужна какая-то логика, чем искомый элемент отличается от фонового, например, он другого цвета, или он имеет какую-либо специфическую форму и т.п. Но наличие четкой логической закономерности и является уязвимым местом, поскольку именно оно и будет использоваться для взлома капчи. То есть, хотя по функциональности идеи похожи, но принцип, положенный в основу, немного другой.

Вы только не подумайте, пожалуйста, что я пытаюсь разнести в пух и прах вашу идею. Ни в коем случае, идея интересная, и, думаю, при соответcвующей реализации будет востребована.

Tbird Jan 17 2008 at 16:04

На сайте Киевстара в разделе "послать смс" подобная каптча

Show the best of all time