Pull to refresh

Comments 58

Интересная технология. Получится, что даже боты-спамеры будут делать что-то полезное миру =).
Но, честно говоря трудно представить как этот процес автоматизировать.
А еще в капчу можно вставлять контекстную рекламу
Можно. Но чтобы не отвратить пользователя, нельзя будет сделать каптчу длиннее одного слова. Остается только название бренда туда впихнуть? Боты быстро просекут словарик и свою основную функцию каптча утратит.
UFO just landed and posted this here
Система проверяет правильность ответа того слова, которое она знает. А вариант ответа на другое сохраняется в базу OCR.
Есть два слова 1ое известно его и проверяют. А 2ое слово просто как вариант записывается. Только всеравно неясно как потом из этих вариантов не распознанных слов будут выбирать правильное.
а в чем проблема?
статистически будет видно.
правильный вариант по идее будет сильно чаще вводиться
делаем так - оба слова, которые нужно ввести делаем осмысленными и выводим в случайном порядке, т.е. юзер видит два наделенных смыслом слова и не знает какое из них на самом деле проверяется при логине, соответственно добросовестно вводит оба, а возможные ошибки отсеиваются тупо статистикой - правильных будет в разы больше. Вопрос решен
Как же система сделает их осмысленными, если не знает одно из слов?
Нераспознанное слово из книги уже по-умолчанию осмысленно, а вот второе слово, которое обычно представляет собой хаотичный набор символов и заменяем на осмысленный вариант. Т.е второе слово предлагаем не такое "onlsakjgf", а берем из базы случайное осмысленное, например "кентавр"
Да, идея отличная. Вот только работает эта капча хреново, сразу видно какое слово распознано, а какое нет. и вместо нераспознанного слова можно легко написать что-то типа "fuckoff" система хавает, проверил
Как я понял по тексту сверху, уже распознанное слово и не распознанное могут стоят в любом порядке("уже"-"ещё нет" или "ещё нет"-"уже"). А откуда все эти спамеры будут знать, какое слово уже известно, а какое - нет?
нераспознанное слово помимо того что изогнуто и перечёркнуто имеет ещё ряд дефектов непропечатавшиеся букыц или наоборот кляксы, или курсивный рукописный шрифт. С другой стороны распознанное слово достаточно чётко выписано. да и псевдослова могут печатать не только спамеры но и обычные пользователи и даже не всегда специально, а система запишет неправильное слово в базу
Но один раз распознанное слово добавляется в список распознанных, а качесвто лучше не становится
Мне кажется тоже самое можно сделать и с известным системе словом. Тогда трудно будет отличить нераспознаваемое слово от известного системе. Только вот тогда читаемость этой капчи станет ужасной...
еще предлагается распознать фрагменты слов между строк =). и не исключено, что попадутся картинки/формулы, если подольше поиграться

кстати, если для распознания брать кусок строки из 2-3х слов, то возможно схалявить будет сложнее.
Всё таки большинство пользователей вводят капчу не для того, что бы сделать что-то нужное им, и, думаю, им проще ввести правильно оба слова, чем угадывать на каком слове сломалась распознавалка…

Так что есть надежда, что правильный вариант слова будет встречаться чаще „упячки“.
как говорил в ответе ранее. нераспознанное слово более низкого качества и пользователь может случайно ввесли его не правильно а система запишет.
Думаю, что одно слово показывается не одному пользователю. А поскольку правильное слово одно, а неправильных много, можно надеяться, что правильное слово будет найдено.

Возможно, что не для всех слов, но в любом случае это лучше, чем ничего…
Вот мышление русского человека, где бы и как нагадить. Если бы создатели Wikipedia точно так же мыслили то и небылобы сейчас этого чуда.
Сам готов вводить "fuckoff" чтобы не распознавались книги, а скачивать в нете книги в электронном варианте на халяву все любят.
С другой стороны обычный человек и не поймет что он распознает текст книги. 80% думаю так и не понимают зачем эти буквы надо вводить, просто их просят а они вводят. Поэтому вероятность словить "fuckoff" намного меньше вероятности словить нормальное слово.
Вся проблема в том, что они одно из слов генерируют скриптом, а надо оба брать сканированные. При этом одно будет надёжно распознанное, а второе нет.
UFO just landed and posted this here
Мда не могу понять плакать или радоваться... Скоро откроешь книгу, а там через слово - упячки и факофы.
это только в электронном варианте ;-)
а в бумажном будет как надо !
А я вот без бумаги не могу. Плед чай, книга и можно забыть о депрессии, проблемах и погрузиться в такую виртуальную реальность что никакой Web 54.0 не сравнится.
Ага, особенно, если они очень старые сканы отпечатают. )))
для полноты картины можно добавить обратную связь в систему распознавания, чтобы училась распознавать лучше ;-)
UFO just landed and posted this here
Оба этих слова задисторчены обыкновенными и специальными каптча-фильтрами, чтобы пользователь не схалявил, предложив вариант "упячка", к примеру.

Плохой пример, лучше "Хабрахабр" или "Лев Николаевич Толстой".
если капча приживется, то скоро интернет будет полон лозунгов, типа, "За**ал капчу - уничтожил американскую литературу" =)
Извлекать пользу из заполнения капчи, это конечно хорошо, но посетителям от этого не легче.
Я капчи терперь не могу, лишние телодвижения.
Нужен какой-то новый способ борьбы со спамом не напрягающий пользователей. Мне нравиться использовать скрытые поля, их заполняют только боты, но у этого метода много недостатков, есть над чем подумать.
К вопросу умышленного неправильного впечатывания слова. Там, наверное, то слово, которое надо распознать выдается нескольким пользователям и если их варианты совпадают, то слово попадает в базу распознанных.
Тоже так подумал. Это было бы хорошо.
К вопросу умышленного неправильного впечатывания слова. Там, наверное, то слово, которое надо распознать выдается нескольким пользователям и если их варианты совпадают, то слово попадает в базу распознанных.
К вопросу умышленного неправильного впечатывания слова. Там, наверное, то слово, которое надо распознать выдается нескольким пользователям и если их варианты совпадают, то слово попадает в базу распознанных.
К вопросу умышленного неправильного впечатывания слова. Там, наверное, то слово, которое надо распознать выдается нескольким пользователям и если их варианты совпадают, то слово попадает в базу распознанных.
Уважаемый Тима. Вот что такое качественный баян...
Идея просто замечательная! Она не решает проблему использования капч, но польза есть.
Другой вопрос как понять какое слово распозналось какое нет на начальном этапе для того чтобы его выдавать как капчу. НАпример на главной странице сайта картинка где показывается как это работает. Там "of" распозналось как "at" что как бы является возможным вариантом.
Не очень продумано то, что пользователю вместо одного слова теперь предлагается 2. Пользователь сам по себе ленивый и увеличение капчи в 2 раза не очень рациональная идея. Как вариант, в голову только приходит вторым вариантом предлагать не слово, а 4 цифры.
вы совсем не поняли основную идею?
Да, я понял цель, но не понял почему пользователь должен вводить в 2 раза больше букв. Иногда и 4 буквы бывает напряжно вводить.
Если пользователь уже набрал комментарий(нормальный, а не "упячку"), то ввести ещё около 10 для него не должно быть проблемой.
Проблема, потому что действует закон сохранения энергии. Какой у обычного юзера, зашедшего на сайт, например, про кошек в этом интерес? Надо сделать так, чтобы пользователь ничего не замечал. А увеличение каптчи до 16 букв, как на рисунке... Это не та замена, которую пользователь не заметит.
суть в том, что эта бестолковая работа может помочь в распознании книжек.
Я понял идею, она сама по себе интересна. Но я не понимаю, почему должны страдать конечные пользователи. Веб 2.0 упрощает информацию, а не усложняет...
Подразумевается, что в этой реализации неудобства связанные с чтением capcha могут быть трактованы не только как мучение пользователя, но и как благое дело — жертва нескольких секунд своего времени на реализацию великой цели. Согласитесь, если преподнести это так, то многие смогут отнестись с пониманием.
Многие - возможно. Соглашусь, что аудитория Хабра на это может пойти, аудитория книжного сайта тоже, а вот абсолютное большинство в общем случае... абсолютно не согласен.
Выбор какой механизм Capcha использовать стоит не перед пользователями, а перед веб-мастерами. Если такое решение примет например Сергей Петренко для своего forum.searchengines.ru, то пользователи примут это безропотно, поскольку ценность его сервиса на порядки превышает неудобства от Capcha. Ну а ставить такую защиту на сайт домовой сети не выгодно ни её администрации ни самому сервису распознавания книг.
Есть еще один плюс теста Тьюринга - отсев части тинов в icq, которые хотят "так поболтать". У меня в QIP работает :)
о да. Они просто задолбятся набирать 47 символов :)
Так-так... с этого места поподробнее! Что за тест такой?
Тут есть такая опасность - спам-боты тоже будут пытаться эти слова распознать, с большой долей вероятности им будет казаться одно и то же, поэтому неправильный вариант распознавания сможет быстро набрать хорошую статистику.
+1. Засрут только так. Капчи вообще - маздай, они когда-нибудь уступят место гибкой политике использования канала (например, 1 сообщение с одного айпишника в 5 мин., или 100 поисковых запросов в час...), при этом прессовать ботов не будет смысла.
каждый бот будет вводить неправильный вариант не более раза (больше нет смысла). ботов пока всяко меньше, чем реальных людей (особенно на посещаемых ресурсах).
Интересная система, но хотелось бы помогать ещё и наши книги сканить, хотя у нас подобная система носила бы название: Российский Государственный Антибот им.Пушкина при содействии Российской Государственной Библиотеки им. Пушкина и Московского Государственного Технического Университета им.Баумана, сокращённо "Антибот им. Пушкина им. Баумана" или "Бауман им. Пушкина" ))))
(простите за каламбур)
Sign up to leave a comment.

Articles