randall 27 дек 2016 в 18:19

Научная капча: как головоломки мешали людям

5 мин

21K

Блог компании VKИстория IT

+30

Комментарии 74

Jogger 27 дек 2016 в 18:51

>мы стали забывать о мучениях, вызванных необходимостью распознавать крайне нечеткие символы.
Не стали. Потому что она не будет требовать дополнительных действий только в случае, если за вами очень плотно следит гугл (ну или мейлру в данном случае — хрен редьки не слаще). А это, скажем, не всегда так. Я уж молчу про невозможность работы через большинство мобильных браузеров и про то что эта хрень жутко глючит при медленном интернет канале.
Капча — это зло. Это оскорбление человеческого достоинства, потому что заставляет человека доказывать, что он человек. Я не хочу чтобы какой-то сраный компьютер ставил под сомнение мою человечность. Меня не волнуют проблемы владельца сервера, которому надо бороться с ботами, и меня оскорбляет что эти, чужие, проблемы, заставляют страдать меня.
Отдельный привет проклятой рекапче, которая заставлет меня распознавать для них тексты и обучать их ИИ. Я продолжу вписывать только сгенерированное слово, а вместо второго буду писать любую чушь. Я понимаю, что моих усилий недостаточно, но и помощи от меня — не дождётесь!

xMushroom 27 дек 2016 в 19:34

Этот как реклама. Никто ее не хочет, но альтернатива — платить за то, что сейчас бесплатно.

StjarnornasFred 27 дек 2016 в 20:43

Странное сравнение. Почему без капчи пришлось бы за что-то платить?

В принципе, защита от спам-роботов нужна (вы, Mail.ru, знаете это как никто другой: под каждой новостью комментарии «Секc знакомства с девушками». Но неужели нельзя сделать её достаточно простой для человека и сложной для бота? Например, криво написанная надпись «Школька буедт тры прюс пьяць?» достаточно очевидна для человека, но почти непроходима для бота: тот должен сначала разобрать текст, потом понять смысл написанного, потом посчитать, потом ввести именно число, а не слово, и едва ли он справится с подобным.

xMushroom 27 дек 2016 в 21:18

Странное сравнение. Почему без капчи пришлось бы за что-то платить?

Ничего странного, просто размышления на пару шагов вперед. Где обычно капчу вводят? Там, где есть бесплатный для пользователя, но при этом ограниченный ресурс (как правило, ограничен производительностью железа, на котором крутится сайт), который люди истощить не способны по физиологическим причинам, а вот роботы — вполне. Очевидно, что доступ к ресурсу как-то ограничивать надо, иначе его быстро целиком захватят роботы, а это не то, что нужно большинству пользователей и владельцам ресурса. Какой самый простой и эффективный ограничитель? Деньги. Сделать ресурс платным, роботы тут же отстанут, так как станет банально невыгодно.

Ну, конечно, есть и другие способы ограничить, но все они основаны на разделении пользователей по тому или иному признаку. Самый безболезненный способ — поделить на людей и роботов, вот капча именно это и делает (с разной степенью эффективности). :)

P.S. Вашу надпись «считал» раза с третьего. И не забудьте, что одной такой надписи не хватит, и десятка тоже, а значит, они должны генерироваться программно. Боюсь, результат будет читаться еще хуже, чем существующие капчи. :) Хотя идея выглядит неплохо, интересно, кто-нибудь такое уже реализовал?

StjarnornasFred 27 дек 2016 в 21:47

Всё-таки цель ботов не уничтожить ресурс, а навалить спам-ссылок (что косвенно вредит, конечно, но делается именно ради ссылок, а не ради нанесения вреда сайту). Кроме того, обсуждать «защиту деньгами» под новостью от Mail.ru нелегко, т.к. именно news.mail.ru ввели платные комментарии и именно в этих комментариях половина — реклама шлюx. В то же время на большинстве других крупных сайтов такого нет и безо всякой платной подписки, видимо, хватает вордфильтра и ручного банхаммера. Например, если коммент достаточно короткий, при этом в нём есть одно из слов «девушки\секс\знакомства» и их популярные аналоги с повреждениями (с*кс, т.р.а.х и так далее — сотню возможных можно и руками вбить в фильтр) и присутствует нечто похожее на ссылку (фильтровать можно по сочетаниям букв, на случай повреждений вида vk_cc или bit(.)ly), то отправлять коммент на премодерацию, так как доброкачественных комментов с подобными совпадениями либо нет, либо очень мало.

Насчёт моей идеи для капчи: то, что с третьего раза — уже неплохо, в обычных случаях бывает и хуже. Насчёт генерации — не подумал, наверное, можно реализовать перестановку букв или опечатки в небольшой концентрации.

Альтернативная идея: очевидные для человека, но неизвестные боту сущности, как в кроссворде или в загадках (существующие известные загадки не использовать во избежание перебора по словарю):
«Старый анекдот, он же музыкальный инструмент»
«Был ВИЛ, был ИВС, был ЕБН, был ДАМ, а кто сейчас?»
«Из него в поезде кипяток наливают»
«Большой, белый, стоит на кухне, внутри еда, снаружи магнитики»\
«Подобно чему вскипает ярость благородная?»
«3D-модель планеты, которая стоит в кабинете географии»

И так далее. Правда, их автоматом не сгенерировать, зато и не разгадать. Сотню придумать и рандомно выдавать.

xMushroom 27 дек 2016 в 23:32

Не уничтожить, а воспользоваться. И про «ресурс» я писал в обобщенном виде, как нечто полезное, не обязательно форум/комментарии.

Не знаю про news.mail.ru, там не бывал. Но на других крупных сайтах капча обязательно есть либо при регистрации аккаунта, либо косвенно — когда заводите почту, на которую потом регистрируете аккаунт. Капча при каждом действии — это, конечно, перебор, самого такие сайты раздражают. Но вообще без проверок на робота — ежесекундно банхаммером махать забесплатно много желающих не найдешь, придется за деньги нанимать. Опять деньги, а где их взять? Только с пользователей тем или иным способом, то ли рекламой, то ли прямой оплатой.

Вордфильтра нормального в жизни не видел, он либо легко обходится, либо куча ложных срабатываний. Кому понравится, когда его коммент вдруг ни с того ни с сего задерживается на премодерацию? Ну и это конкретный случай, когда весь спам на одну тему, чаще всего темы произвольные, вордфильтр не поможет.

Сотня не поможет — перебрать всю сотню и записать пару вопрос-ответ не так долго. Тут скорее сотни тысяч, но кто ж их будет сочинять в таком количестве?

Yuuri 27 дек 2016 в 21:18

Ответ «восим» должен засчитываться? :)

Protos 28 дек 2016 в 05:40

«Школька буедт тры прюс пьяць?» — совсем не сложно для Google, а как известно поиск в гугле автоматизируется легко.

НЛО прилетело и опубликовало эту надпись здесь

immaculate 27 дек 2016 в 23:01

Ну, на заре WWW было намного больше качественной информации, и без всякой рекламы и оплаты. Это сейчас миллионы, если не миллиарды халявщиков создают генераторы-аггрегаторы «контента», чтобы с минимальными усилиями зарабатывать на рекламе.

xMushroom 27 дек 2016 в 23:54

… и трава зеленее. :)
Во-первых, качественной информации было больше только в процентном соотношении, но никак не абсолютных числах. Во-вторых, эффект масштаба — где бы он был, ваш WWW на заре, если бы к нему разом пришли нынешние сколько-там-миллиардов пользователей? Немедленно упал бы от перегруза. Все прекрасно, благодушно и бесплатно, пока это маленький междусобойчик. Как только дело переходит в масштаб тысяч и миллионов, правила игры меняются. В любом деле так, и интернет — не исключение.

immaculate 28 дек 2016 в 00:01

Зеленее — не зеленее, но сильно сомневаюсь, что ситуация стала заметно лучше из-за того, что на инфраструктуре WWW повисли сотни миллионов халявщиков, репостящих копипасты, веселые картинки, наукоподобные статьи и прочую тривиальную ерунду.

Все эти люди не создают ничего полезного, они просто феноменально загрязняют ноосферу в попытках выдоить еще немного денег.

xMushroom 28 дек 2016 в 00:28

Не стала. Но в чём смысл-то? Просто констатация «мир несовершенен»? Или думаете, что было бы лучше без рекламы и оплаты? Ну да, засорения не было бы, но и всего остального полезного тоже. Интернет так бы и остался игрушкой для гиков. Это разве лучше?

А насчет полезного, знаете, чем волки полезны в природе? Тут что-то вроде. Они пользуются недостатками в системах поиска и рекламы в интернете, таким образом мотивируя эти системы развиваться.

Evengard 27 дек 2016 в 18:57

Честно говоря я так и не понял как решается капча «Скрытый код».

Barsuk 27 дек 2016 в 19:10

Как научиться смотреть SIRDS (Стерео Картинки)...

GennPen 27 дек 2016 в 19:26

Чтобы нормально рассмотреть ту капчу — нужно увеличить масштаб до 150-175%, иначе плохо глаза «стыкуются». =)

Barsuk 27 дек 2016 в 22:36

Я так увидел. мой метод «смотреть сквозь рисунок в бесконечность». Если так смотреть на обычный текст, например эти комментарии, то текст просто двоится. Напрягать глаза не надо, надо их наоборот расслабить.

Ariez 27 дек 2016 в 22:30

Видимо, не с моим зрением. Сколько ни «прыгал» вокруг монитора и с картинками — ни разу никогда ни одну картинку не увидел. Добился только рези и усталости в глазах =(

invite_ciel 27 дек 2016 в 20:41

Скрестите глаза, как в перекрёстной стереопаре. В объёме Вы увидите цифры.

saege5b 27 дек 2016 в 22:43

Я обычные стереопары воспринимаю инвертированно, а подобные никогда не видел.
Наверное потому что у меня -4 зрение, и нарушено цветовосприятие? :)

APLe 28 дек 2016 в 05:01

Вряд ли, у меня тоже -5 и нарушенное цветовосприятие, но я их хорошо вижу.
Просто научиться этому сложно; когда-то, когда я был ещё в школе, маме подарили целый альбом таких картинок, и я целую неделю мучился, пытаясь увидеть хоть одну из них. Сложно было увидеть первую, а дальше всё пошло легко.

Alexsandr_SE 27 дек 2016 в 23:06

Никогда не получалось это сделать нормально. Даже после кучи мучений я видел такие картинки всего несколько раз в жизни, а глаза при этом сильно уставали.

OneOfUs 28 дек 2016 в 17:21

Вся сложность заключается в «смотреть сквозь картинку в даль», однако никто не добавляет при этом, что надо фокусировать (наводить резкость) само изображение. Можно проще: скосить глаза на переносицу, но тогда картинка как раз станет инвертированной. Тут много работы вниманием: нужно так смотреть в даль, чтобы контуры повторяющихся объектов совпали, потом аккуратно «наводить резкость» на картинку, чтобы эти контуры не расходились. Пару раз поймав так картинку, понимаешь принцип и становится легче.
P.S. Мелкий циклический рисунок у меня иногда вызывает ложное чувство расстояния из-за «стереоэффекта». Сетка рабица, ткань обивки дивана в мелкий «паркет» у меня перед глазами могут «поплыть» при быстром перемещении фокуса на них

Alexsandr_SE 28 дек 2016 в 19:23

Я даже если вижу картинку, то при попытке навести фокус на неё — теряю всю картинку. Еще в школе я пытался научиться смотреть такие картинки, использовал кучу методик, еще и глаза потом долго восстанавливаются в обычной режиме (не фокусируются нормально вблизи), не моё это.

Barsuk 27 дек 2016 в 19:03

340 :)

rttm 27 дек 2016 в 20:41

Это издевательство ) стереокартики не все видят. Да и что бы увидеть число, мне пришлось в монитор почти носом уткнуться и пучить глаза ))

GennPen 27 дек 2016 в 20:45

Просто сайт, где эта капча используется специализируется на таких картинках, вот видимо и решили в подобном стиле сделать капчу. =)

LoadRunner 28 дек 2016 в 09:35

Можно откинуться на спинку стула (если у Вас табурет — сочувствую) и смотреть в точку позади монитора (это как в отражение в стекле\зеркале смотреть — оно не на его поверхности, а дальше). Когда видны очертания изображения, глаза уже сами фокусируются на нужное расстояние и изображение хорошо видно.

4ebriking 28 дек 2016 в 17:03

там главное — это что бы физичесое расстояние между правым и левым изображениями было почти равно вашему расстоянию между глаз — .т.е надо масштабировать картинку «под себя», ибо никто же не знает, какого размера и разрешения ваш монитор.
при том если то расстояние будет «чуть меньше» — то будет одна картинка, а если «чуть больше» — то инверсная
(не суть какая из них «правильная»)

dmitry_ch 27 дек 2016 в 19:17

За подборку спасибо! mail.ru, как владелец аккаунта, мог бы что-то и для себя вынести — роботы, заводящие тысячи mailru-ящиков для самых разных целей, одно время просто поражали своей способностью капчу проходить, не особо стесняясь.

VaalKIA 27 дек 2016 в 19:25

Прежде чем постить картинки вы их проверяли? На hidden code ничего не видно: в 3Д попал, но там какие-то ошмётки от цифры 40 и если долго вглядываться то на третьем слое плашки цифр, но не сами цифры.

Oraclist 27 дек 2016 в 20:40

Видно. Проверил. Текст «340»

VaalKIA 27 дек 2016 в 20:52

Да, действительно, открыл в отдельном окне, очень чётко 340 видно, но со страницы статьи прямо в браузере остаются одни ошмётки. Сделал скриншот страницы, увеличил в паинте — никаких артефактов. Первый раз сталкиваюсь с подобным эффектом… всё, я понял, совмещались не соседние точки, а через одну из-за того, что изображение маленькое.

НЛО прилетело и опубликовало эту надпись здесь

beeruser 27 дек 2016 в 22:24

Странная картинка. Я нашёл 2 точки стабильного фокуса — в одной видно 340, в другой действительно ошмётки — как будто 4 находится поверх 3 и её куски вылезают на передний план.

aapazhe 27 дек 2016 в 19:52

Капча с одного из моих сайтов.

samodum 27 дек 2016 в 20:07

Люди, которые делают такие капчи не понимают базового принципа работы капчи и её обхода.
В данном случае капча обходится с вероятностью 1/9.
Так, из 1 млн запросов 111 тысяч успешно обойдут такую «защиту»

GennPen 27 дек 2016 в 20:15

Google:

Vjik 28 дек 2016 в 06:31

Странно, мне поиск гугла выдал вот это:

Как это можно объяснить?

GennPen 28 дек 2016 в 07:30

Хмм, странно. Когда вручную ввожу — тоже получается этот результат, а когда через правую кнопку по картинке — Ленина определяет. Видать как-то параметры поиска отличаются.

mihmig 28 дек 2016 в 17:28

Видимо гугл анализирует статистику Ваших прошлых запросов :)

saboteur_kiev 27 дек 2016 в 20:34

Почему распознавание капчи это сразу ИИ?
Если это просто алгоритм, нацеленный на специфическую конкретную задачу.

Zenitchik 27 дек 2016 в 20:39

Потому что строго говоря, это не алгоритм.

НЛО прилетело и опубликовало эту надпись здесь

PavelGatilov 28 дек 2016 в 15:39

Хорошо, если это алгоритм тогда опишите его Дискретные Шаги выполнения. А также детерминированное состояние системы на каждом шаге. А так же для каждого вида капчи, пожалуйста постройте Граф Алгоритма, который поможет воспроизвести его на других валидных данных. А так же, докажите его полную завершеаемость, при валидных входных данных и без потери массовости.
Если все условия выполняться, тогда это Алгоритм, если нет — то это если и не ИИ, то и не алгоритм.

НЛО прилетело и опубликовало эту надпись здесь

PavelGatilov 28 дек 2016 в 19:24

И тем не менее ваше утверждение не доказывает, то что определение и распознание текста решается алгоритмом. Например потому, что распознание текста встречает проблему остановки.

А валидные данные в этом случае — любой цифровой сигнал, от картинки и звука — до видео и головоломок.

НЛО прилетело и опубликовало эту надпись здесь

Zenitchik 27 дек 2016 в 20:41

Символы — это ерунда. Ими URL в строку адреса вбивают.
Хуже, когда слова.

JokerDen 27 дек 2016 в 20:40

А как же новые капчи, где нужно указывать изображения определенной категории?

НЛО прилетело и опубликовало эту надпись здесь

tkinter 27 дек 2016 в 20:40

Самая злостная капча встретилась мне в мобильной версии vk. После 15 попытки решила что жила без контакта и помру без контакта.
Еще встречались капчи обновляемые по таймингу %( вообще адище.

nathanael 27 дек 2016 в 20:40

Хочу полный комикс про роботов выбивающих из хуманов решение капчи.

bask 28 дек 2016 в 10:39

«Robot Fighter»
https://en.wikipedia.org/wiki/Magnus,_Robot_Fighter

Neuromantix 27 дек 2016 в 20:57

FlyBack жив! Не надо тут!

Merkat0r 27 дек 2016 в 21:04

Опередил :) Живее всех живых!

P.S.

В статье уже новая капча, до этого была математическая

river-fall 27 дек 2016 в 21:07

Пост явно неполон без собак и кошек Rapidshare

AndrewRo 16 янв 2017 в 16:31

Ужасно. По-моему, они все с кошечками.

Boomburum 28 дек 2016 в 00:54

Железяки из Бостон Динамикс точно нам наваляют за это...)

ZEvS_Cat 28 дек 2016 в 02:14

А радиотехническую капчу кто-нибудь прошел? У меня получилось 0.0648 дж.

quqdron 28 дек 2016 в 07:52

W= (C*Uc^2)/2
Uc= (Uвх*Ктр)*2^1/2
=>
W= (Uвх ^2)*C2/2

Darth_Biomech 28 дек 2016 в 06:59

Странно что не получили распространения капчи, показывающие пользователю картинку с объектом и пользователь должен соответственно ввести название объекта. Особенно учитывая, что какие-то серьезные подвижки в деле распознавания образов у компьютеров начались только недавно.

GreyhoundWeltall 28 дек 2016 в 09:58

КМК не странно.
Вам показывают дом. Или фонарь. Или шину.
Картинка ищется в гугле — даже по образам можно найти, выше уже есть примеры с Ильичем. То есть исходная задача не решается: капчу распознает и человек и робот/алгоритм, гуглящий картинки и подсовывающий то, что предложит гугл.

xMushroom 28 дек 2016 в 12:33

По-моему, все забывают, что у гугла тоже есть капча (если злоупотреблять, а роботам придется).

GennPen 28 дек 2016 в 14:59

У Гугла есть Vision API, цена около $1.5 за тысячу распознаваний.

НЛО прилетело и опубликовало эту надпись здесь

4ebriking 28 дек 2016 в 17:09

капча форума для специалистов — быстро отсекает школоту, не от хорошей жизни вводилась. напр монитор.нет — простейшие задачи уровня школы — однократная при регистрации

OneOfUs 28 дек 2016 в 17:34

Ок, разберём ситуацию: ты владелец форума (или любого другого ресурса, где можно постить комментарии). Комментарий может оставить любой. Вопрос, через какое время твоя БД станет похожа не беременного бегемота?
Хочу привести в пример сайт АК (авторский комикс, ссылку не дам, сами найдёте :P). Комментарии под страницей комикса могут оставлять все (не всегда, зависит от автора, но не суть), но если ты аноним, то тебя попросят ввести капчу, а если зарегистрированный, то только при регистрации 1 (прописью: один) раз и дальше можно оставлять комментарии без этой проверки на робота.

Единственное место, где она применима — это при блокировании нагрузки на какой-то ресурс.

То есть в 99% интернета :)

НЛО прилетело и опубликовало эту надпись здесь

OneOfUs 29 дек 2016 в 09:43

Если бы к данным был мгновенный доступ — то да, фиг с ней, но из-за жирной БД нормальный запрос будет всё дольше и дольше обрабатываться. А индексация? Это всё будет напрямую влиять на performanсe сайта.

Просто я сразу подумал как разраб, а Вы, как CEO. В любом случае это 2 разных взгляда на проблему

НЛО прилетело и опубликовало эту надпись здесь

OneOfUs 1 янв 2017 в 16:28

Не обижайтесь, я против CEO не имею ничего. Текст вашего ответа действительно напоминает мне задачу работы CEO — рейтинг сайта в выдаче поисковиков.

А про тормоза… Сколько запросов может обработать одновременно драйвер БД? Все зависит от настроек connection pool. Если на сайте засилье ботов, то пока до нужного запроса дойдет, сколько времени проведет запрос в очереди? С другой стороны, хоть место и дешевое, но каждый месяц (ладно, 6) покупать новый пакет/жд из-за разжиревшей БД…

bask 2 янв 2017 в 11:30

Так CEO(гендир) или SEO?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий