G0rnap5chtickn3R May 25 2007 at 13:57

reCAPTCHA: дополнительная польза от борьбы со спамом.

1 min

2.5K

Website development*

+48

Comments 58

monitoringe May 25 2007 at 14:01

Интересная технология. Получится, что даже боты-спамеры будут делать что-то полезное миру =).
Но, честно говоря трудно представить как этот процес автоматизировать.

0x0c May 25 2007 at 14:08

А еще в капчу можно вставлять контекстную рекламу

G0rnap5chtickn3R May 25 2007 at 14:12

Можно. Но чтобы не отвратить пользователя, нельзя будет сделать каптчу длиннее одного слова. Остается только название бренда туда впихнуть? Боты быстро просекут словарик и свою основную функцию каптча утратит.

UFO just landed and posted this here

G0rnap5chtickn3R May 25 2007 at 14:14

Система проверяет правильность ответа того слова, которое она знает. А вариант ответа на другое сохраняется в базу OCR.

pav May 25 2007 at 14:19

Есть два слова 1ое известно его и проверяют. А 2ое слово просто как вариант записывается. Только всеравно неясно как потом из этих вариантов не распознанных слов будут выбирать правильное.

nikulin May 25 2007 at 14:23

а в чем проблема?
статистически будет видно.
правильный вариант по идее будет сильно чаще вводиться

sp3ctr00m May 25 2007 at 17:59

делаем так - оба слова, которые нужно ввести делаем осмысленными и выводим в случайном порядке, т.е. юзер видит два наделенных смыслом слова и не знает какое из них на самом деле проверяется при логине, соответственно добросовестно вводит оба, а возможные ошибки отсеиваются тупо статистикой - правильных будет в разы больше. Вопрос решен

Darx May 26 2007 at 14:29

Как же система сделает их осмысленными, если не знает одно из слов?

sp3ctr00m May 26 2007 at 17:59

Нераспознанное слово из книги уже по-умолчанию осмысленно, а вот второе слово, которое обычно представляет собой хаотичный набор символов и заменяем на осмысленный вариант. Т.е второе слово предлагаем не такое "onlsakjgf", а берем из базы случайное осмысленное, например "кентавр"

unikom May 25 2007 at 14:19

Да, идея отличная. Вот только работает эта капча хреново, сразу видно какое слово распознано, а какое нет. и вместо нераспознанного слова можно легко написать что-то типа "fuckoff" система хавает, проверил

zemlanin May 25 2007 at 14:31

Как я понял по тексту сверху, уже распознанное слово и не распознанное могут стоят в любом порядке("уже"-"ещё нет" или "ещё нет"-"уже"). А откуда все эти спамеры будут знать, какое слово уже известно, а какое - нет?

unikom May 25 2007 at 14:37

нераспознанное слово помимо того что изогнуто и перечёркнуто имеет ещё ряд дефектов непропечатавшиеся букыц или наоборот кляксы, или курсивный рукописный шрифт. С другой стороны распознанное слово достаточно чётко выписано. да и псевдослова могут печатать не только спамеры но и обычные пользователи и даже не всегда специально, а система запишет неправильное слово в базу

zemlanin May 25 2007 at 14:58

Но один раз распознанное слово добавляется в список распознанных, а качесвто лучше не становится

monitoringe May 25 2007 at 14:59

Мне кажется тоже самое можно сделать и с известным системе словом. Тогда трудно будет отличить нераспознаваемое слово от известного системе. Только вот тогда читаемость этой капчи станет ужасной...

lurida May 25 2007 at 15:17

еще предлагается распознать фрагменты слов между строк =). и не исключено, что попадутся картинки/формулы, если подольше поиграться

кстати, если для распознания брать кусок строки из 2-3х слов, то возможно схалявить будет сложнее.

Lynn May 25 2007 at 14:36

Всё таки большинство пользователей вводят капчу не для того, что бы сделать что-то нужное им, и, думаю, им проще ввести правильно оба слова, чем угадывать на каком слове сломалась распознавалка…

Так что есть надежда, что правильный вариант слова будет встречаться чаще „упячки“.

unikom May 25 2007 at 14:39

как говорил в ответе ранее. нераспознанное слово более низкого качества и пользователь может случайно ввесли его не правильно а система запишет.

Lynn May 25 2007 at 14:46

Думаю, что одно слово показывается не одному пользователю. А поскольку правильное слово одно, а неправильных много, можно надеяться, что правильное слово будет найдено.

Возможно, что не для всех слов, но в любом случае это лучше, чем ничего…

prudis May 25 2007 at 15:52

Вот мышление русского человека, где бы и как нагадить. Если бы создатели Wikipedia точно так же мыслили то и небылобы сейчас этого чуда.
Сам готов вводить "fuckoff" чтобы не распознавались книги, а скачивать в нете книги в электронном варианте на халяву все любят.
С другой стороны обычный человек и не поймет что он распознает текст книги. 80% думаю так и не понимают зачем эти буквы надо вводить, просто их просят а они вводят. Поэтому вероятность словить "fuckoff" намного меньше вероятности словить нормальное слово.

Vox May 25 2007 at 18:53

Вся проблема в том, что они одно из слов генерируют скриптом, а надо оба брать сканированные. При этом одно будет надёжно распознанное, а второе нет.

UFO just landed and posted this here

Nicholass May 25 2007 at 14:25

Мда не могу понять плакать или радоваться... Скоро откроешь книгу, а там через слово - упячки и факофы.

anight May 25 2007 at 14:46

это только в электронном варианте ;-)
а в бумажном будет как надо !

Nicholass May 25 2007 at 23:27

А я вот без бумаги не могу. Плед чай, книга и можно забыть о депрессии, проблемах и погрузиться в такую виртуальную реальность что никакой Web 54.0 не сравнится.

rumkin May 26 2007 at 23:22

Ага, особенно, если они очень старые сканы отпечатают. )))

anight May 25 2007 at 14:44

для полноты картины можно добавить обратную связь в систему распознавания, чтобы училась распознавать лучше ;-)

UFO just landed and posted this here

NaFigator May 25 2007 at 14:54

Оба этих слова задисторчены обыкновенными и специальными каптча-фильтрами, чтобы пользователь не схалявил, предложив вариант "упячка", к примеру.

Плохой пример, лучше "Хабрахабр" или "Лев Николаевич Толстой".

unikom May 25 2007 at 14:55

если капча приживется, то скоро интернет будет полон лозунгов, типа, "За**ал капчу - уничтожил американскую литературу" =)

bNN May 25 2007 at 15:01

ахаххаха

DeadMoroz May 25 2007 at 15:25

пацталом!

Jenek May 25 2007 at 15:17

Извлекать пользу из заполнения капчи, это конечно хорошо, но посетителям от этого не легче.
Я капчи терперь не могу, лишние телодвижения.
Нужен какой-то новый способ борьбы со спамом не напрягающий пользователей. Мне нравиться использовать скрытые поля, их заполняют только боты, но у этого метода много недостатков, есть над чем подумать.

-1

tima May 25 2007 at 15:24

К вопросу умышленного неправильного впечатывания слова. Там, наверное, то слово, которое надо распознать выдается нескольким пользователям и если их варианты совпадают, то слово попадает в базу распознанных.

Nicholass May 25 2007 at 23:29

Тоже так подумал. Это было бы хорошо.

rumkin May 26 2007 at 23:23

rumkin May 26 2007 at 23:24

rumkin May 26 2007 at 23:25

Уважаемый Тима. Вот что такое качественный баян...

Ferroman May 25 2007 at 15:27

Идея просто замечательная! Она не решает проблему использования капч, но польза есть.

prudis May 25 2007 at 15:57

Другой вопрос как понять какое слово распозналось какое нет на начальном этапе для того чтобы его выдавать как капчу. НАпример на главной странице сайта картинка где показывается как это работает. Там "of" распозналось как "at" что как бы является возможным вариантом.

avenu May 25 2007 at 17:11

Не очень продумано то, что пользователю вместо одного слова теперь предлагается 2. Пользователь сам по себе ленивый и увеличение капчи в 2 раза не очень рациональная идея. Как вариант, в голову только приходит вторым вариантом предлагать не слово, а 4 цифры.

masterbo May 25 2007 at 18:01

вы совсем не поняли основную идею?

avenu May 25 2007 at 18:05

Да, я понял цель, но не понял почему пользователь должен вводить в 2 раза больше букв. Иногда и 4 буквы бывает напряжно вводить.

zemlanin May 25 2007 at 19:25

Если пользователь уже набрал комментарий(нормальный, а не "упячку"), то ввести ещё около 10 для него не должно быть проблемой.

avenu May 25 2007 at 19:33

Проблема, потому что действует закон сохранения энергии. Какой у обычного юзера, зашедшего на сайт, например, про кошек в этом интерес? Надо сделать так, чтобы пользователь ничего не замечал. А увеличение каптчи до 16 букв, как на рисунке... Это не та замена, которую пользователь не заметит.

masterbo May 25 2007 at 21:14

суть в том, что эта бестолковая работа может помочь в распознании книжек.

avenu May 26 2007 at 15:13

Я понял идею, она сама по себе интересна. Но я не понимаю, почему должны страдать конечные пользователи. Веб 2.0 упрощает информацию, а не усложняет...

masterbo May 26 2007 at 17:13

Подразумевается, что в этой реализации неудобства связанные с чтением capcha могут быть трактованы не только как мучение пользователя, но и как благое дело жертва нескольких секунд своего времени на реализацию великой цели. Согласитесь, если преподнести это так, то многие смогут отнестись с пониманием.

avenu May 26 2007 at 17:19

Многие - возможно. Соглашусь, что аудитория Хабра на это может пойти, аудитория книжного сайта тоже, а вот абсолютное большинство в общем случае... абсолютно не согласен.

masterbo May 27 2007 at 13:50

Выбор какой механизм Capcha использовать стоит не перед пользователями, а перед веб-мастерами. Если такое решение примет например Сергей Петренко для своего forum.searchengines.ru, то пользователи примут это безропотно, поскольку ценность его сервиса на порядки превышает неудобства от Capcha. Ну а ставить такую защиту на сайт домовой сети не выгодно ни её администрации ни самому сервису распознавания книг.

den_rad May 25 2007 at 17:37

Есть еще один плюс теста Тьюринга - отсев части тинов в icq, которые хотят "так поболтать". У меня в QIP работает :)

Nicholass May 25 2007 at 23:30

о да. Они просто задолбятся набирать 47 символов :)

rumkin May 26 2007 at 23:26

Так-так... с этого места поподробнее! Что за тест такой?

maximkr May 25 2007 at 19:48

Тут есть такая опасность - спам-боты тоже будут пытаться эти слова распознать, с большой долей вероятности им будет казаться одно и то же, поэтому неправильный вариант распознавания сможет быстро набрать хорошую статистику.

llamma May 29 2007 at 14:51

+1. Засрут только так. Капчи вообще - маздай, они когда-нибудь уступят место гибкой политике использования канала (например, 1 сообщение с одного айпишника в 5 мин., или 100 поисковых запросов в час...), при этом прессовать ботов не будет смысла.

mercurymd Feb 8 2008 at 18:56

каждый бот будет вводить неправильный вариант не более раза (больше нет смысла). ботов пока всяко меньше, чем реальных людей (особенно на посещаемых ресурсах).

rumkin May 26 2007 at 23:34

Интересная система, но хотелось бы помогать ещё и наши книги сканить, хотя у нас подобная система носила бы название: Российский Государственный Антибот им.Пушкина при содействии Российской Государственной Библиотеки им. Пушкина и Московского Государственного Технического Университета им.Баумана, сокращённо "Антибот им. Пушкина им. Баумана" или "Бауман им. Пушкина" ))))
(простите за каламбур)

Show the best of all time