toshchakov Apr 6 2021 at 11:01

«Я не робот»: история Яндекса о том, как победить ботов, а не людей

6 min

40K

Яндекс corporate blogSpamming and anti-spammingInformation Security*Website development*Image processing*

Technotext 2021

+86

123

Comments 123

redneko Apr 6 2021 at 11:10

Уважаемый Яндекс, я вот не робот, честное пионерское. Но капча ваша уже нереально задрала. Почему она вылезает, даже если пользователь залогинен, если из этой же сети стучится к вам ваша же колонка с Алисой? Всего-то стоило настроить IPv6 от HE. И даже белый статический IPv4 не спасает, хотя в tcpdump видно обмен с вашими сервисами, используя оба протокола. Раз вы презентуете себя как компания, славящаяся ML, то может стоит при обучении динамически учитывать еще и подсети своих пользователей, чтобы не заставлять их страдать?
P.S. Одна ваша капча однажды очень повеселила, попросив ввести фразу Avoid Smiling, напомнив что да, не время нынче улыбаться:)

+32

toshchakov Apr 6 2021 at 11:27

Спасибо за отзыв! К сожалению, роботы умеют имитировать людей (любой признак, в том числе авторизовываться в Я и прочее), поэтому полностью исключить ложноположительные срабатывания сложно. Но каждый такой пример помогает нам учиться. Поэтому прошу вас при следующем появлении капчи нажать на «обратную связь» и прислать нам детали. В текст сообщения допишите «привет от redneko с Хабра». Обязательно посмотрим.

redneko Apr 6 2021 at 11:44

Алексей, спасибо за обратную связь. Попробую сделать как вы сказали.

vmkazakoff Apr 6 2021 at 12:28

И теперь вам все ботоводы массово начнут слать обратную связь через ту кнопку, дописывая приветы с Хабра, в надежде что ваша модель пока обучается посчитает что это люди =]

toshchakov Apr 6 2021 at 12:32

Могу сразу сказать, что это не поможет роботам )

Lev3250 Apr 6 2021 at 16:55

То, что боты могут логиниться — ок.
Но почему каждый раз, когда я в инкогнито залогиненый (с рабочего компа) под аккаунтом с активным яндекс такси и привязанной картой с реальными оплатами, он всё равно спрашивает капчу.
Неужели для капчи не происходит проверка на акк-пустышку и реальный "человеческий"

vanxant Apr 7 2021 at 00:06

В зависимости от вашей продвинутости, вы сами можете запустить парсер яндекса, либо же за вас это мог сделать ботнет. Технически и то и то — это просто ещё одна вкладка или окно вашего же браузера со всеми вашими сессиями.

GennPen Apr 6 2021 at 17:49

поэтому полностью исключить ложноположительные срабатывания сложно

Мне кажется, это особенность Яндекса относиться с недоверием ко всем кто использует IPv6 от HE, даже Google нормально его воспринимает. У самого тоже тоннель от HE и когда в приватном режиме что то пытаюсь найти через Яндекс — всегда вылазит капча.

dakuan Apr 6 2021 at 20:36

Если не секрет, что за роботы там такие, борьба с которыми требует применения таких радикальных средств? Это просто оружие массового поражения какое-то, вместе с роботами еще и кучу вполне себе людей отсекаете. Первая капча, которую я не смог решить. Буквально 2-3 недели назад пытался создать Яндекс-аккаунт. Сначала указал свой мобильный номер — превышен лимит звонков. Ладно, думаю, наверное, нужен российский номер. Достал мегафоновскую симку — та же история. Капча еще больше вопросов вызвала, даже гуглить пришлось как ее решать — нужен ли пробел между словами, учитывается ли регистр символов, нужно ли вводить спецсимволы и т.д. Попробовал все варианты, но в итоге так и не пробился — после ~70 попыток был вынужден признать, что я робот и пойти регистрироваться в Gmail.

Обычный европейский проводной провайдер, никаких VPN и средств анонимизации не использовал.

Gor40 Apr 7 2021 at 11:22

А может ваша система не показывать капчу, если пользователь переходит в поиск по ссылке из вашей же Толоки?

sergey_privacy Sep 25 2023 at 23:05

КРАЙНЕ НЕуважаемый яндекс! Я антибота вижу по несколько раз в день. Пробовал и через ВПН-ы, и с белым IP, и через NAT. И через chrome, и через Firefox. И windowd 7-2019, и Linux. Ваш ужасный яндекс-браузер, по очевидным причинам, не использую. В службу техподдержки обращался раз 10, проводили какие то диагностики, потом шаблонная отписка. Вы боретесь с ботами, у вас такая проблема? А как же работают все остальные компании, не задалбывая пользователей? Вы перешли все разумные границы. Ваши сервисы из года в год все хуже. Вроде бы высокотехнологичная ИТ-компания, один из лидеров рынка, а качество продукции "на троечку". Настраивайте нейросеть для отличения людей. Вы можете отслеживать сотни параметров. Составляется "портрет" пользователя на основе действий мышью, по скорости перемещения курсора, про логику перемещений по страницам и т.д. Такое ощущение, что слушаете телефон. Только проговорили голосом про покупку машины - через 5 минут вылазит куча рекламы по этой конкретной тачке. Я привык к вашему поиску, ломать себя тяжело, но эта капча настолько задолбала, что уже готов переходить полностью на гугловый поиск.

mreugene Apr 6 2021 at 12:49

Та же самая ситуация в двух локациях с IPv6 от HE. Причем если изначально было только в режиме инкогнито — сейчас и при обычной работе встречается. Но стало лучше — сейчас капча только с чекбоксом отображается.

Ответ техподдержки Яндекса от 16.07.2020:

Евгений, насколько я вижу, ваш IP-адрес относится к сети Hurricane Electric. Увы, в этой сети очень много роботов, поэтому мы вынуждены накладывать дополнительные ограничения для пользователей с такими IP-адресами.

Рекомендую отказаться от использования Hurricane Electric на сервисах Яндекса. Однако если такой возможности нет, то:

1. Нужно включить куки и хранить постоянно, их отсутствие воспринимается как признак робота;
2. Не нужно использовать язык запросов при использовании поиска: yandex.ru/support/search/query-language/search-operators.html

datacompboy Apr 6 2021 at 12:58

«2. Не нужно использовать язык запросов при использовании поиска: yandex.ru/support/search/query-language/search-operators.html»

я прямо даже и не знаю что такого нематерного сказать на это предложение…

+20

toshchakov Apr 6 2021 at 13:13

Согласен, формулировка не очень хорошая. Здесь по сути говорится, что роботы часто используют и полагаются на «язык запросов», поэтому этот фактор может быть достаточно значимым, при недостатке другой информации или при наличии других негативных сигналов. Но это точно не единственный фактор. И в обычной ситуации из-за использования «языка запросов» не должно быть капчи.

-1

datacompboy Apr 6 2021 at 13:38

Я хочу сказать что если фича не для юзеров — отключите её. Говорить пользователю «не используйте наши фичи» это просто издевательство.

+19

toshchakov Apr 6 2021 at 15:13

Фича как раз для людей. Это формулировка ответа неудачная, исправим.

-5

mixsture Apr 6 2021 at 17:03

Да нет, формулировка в целом смысл доносит. Он примерно такой: либо вы похожи на тетю Клаву (которая ничего в компьютерах не смыслит — какой уж там язык запросов), либо вы нам не нужны как клиент поиска.
И вот этот смысл ужасает. Я бы его перевернул, утрировал и посыпал сарказмом во фразу:
Яндекс — не место для профессионалов.

Вот примерно об этом же рассказывает redneko в соседних комментариях.

+15

tendium Apr 6 2021 at 21:06

К сожалению, у Гугла подобная же логика. Стоит мне начать искать что-то специфическое, а гугл и так, и сяк не может дать ожидаемый ответ, то через 4-5 запросов я начинаю получать капчи. А я человек, честно-честно. Хотя...

zuek Apr 15 2021 at 10:40

Когда я пытался пользоваться "домашним интернетом" от одной "полосатой" компании, мне капчи сыпались не на 4-5-й запрос, а просто на заход на главную гуглопоиска… пришлось уйти к другому провайдеру, тем более, что и тарифы там чуть интереснее.

redneko Apr 6 2021 at 13:48

Вот собственно о том и речь, что весь ответ техподдержки можно свести к классическому "нет человека — нет проблемы" и проще кинуть в бан всё адресное пространство ураганных электриков, чем немного изменить логику работы. Имхо, в мире розовых пони алгоритм мог бы быть чуть умнее — при подключении пользователя по IPv6 подсовывать скачивание пикселя с сервера, имеющего только v4 связность, запоминая связку обоих адресов (v4 и /64 или /48 адреса сети для v6), учитывая это как один из параметров антиспама и динамически вычислять скоринг, ориентируясь в том числе и на поведение остальных пользователей из этих сетей.

HardWrMan Apr 6 2021 at 15:15

Вот, кстати, да. Тоже залогинен, честный статичный IPv4 но ya.ru периодически рандомно выкидывает подобную капчу:

При этом я действительно могу искать разноплановую информацию: в одном окне датащит на детальку а в соседнем где купить сезаль. Я не бот, честно-честно!

HardWrMan Apr 11 2021 at 17:46

Ах! Сегодня впервые вместо капчи вылезла вот такая галочка:

Это прогресс, товарищи!

DistortNeo Apr 6 2021 at 19:17

Ещё веселее дела обстоят в гугле. Это когда ты сначала проходишь капчу, но в итоге тебя все равно не пускают под предлогом того, что с вашего IP делается слишком много автоматических запросов.

redneko Apr 6 2021 at 19:35

Было такое дело, давным-давно, когда сидел на местечковом говнопровайдере с DOCSIS, у которого за NAT сидела, наверное, половина города на одном IP. С тех пор у гугла таких финтов ушами не наблюдал ни разу, и к IPv6 у них вопросов нет.

DrZlodberg Apr 7 2021 at 09:33

Ничего не изменилось. У 2х провайдеров и с работы за NAT периодически вылетает даже на первый запрос.

kwasd Apr 12 2021 at 23:39

Встречал такое имея белый статический ipv4-адрес от проводного Билайна в Москве. Может быть, потому что последний октет моего адреса был 255?
Длилось это годами, при этом ничего странного в/из моей сети, скорее всего, не происходило (пара скучных линуксовых машин). Закончилось, когда адрес я случайно сменил.

UFO just landed and posted this here

toshchakov Apr 6 2021 at 11:46

В прошлом с картинками и правда было страшно. С этой стороны уже должно стать в среднем сильно проще. Но продолжим и дальше работать, чтобы капча вообще не появлялась. У меня к вам такая же просьба: на странице с капчей можно нажать на «обратная связь». Так у нас будет больше примеров от реальных пользователей.

chtulhu Apr 6 2021 at 11:35

Если делать масс регер, то капчагадательные сервисы всегда хорошо справляются. В том числе и с рекапчей. Чем ваша капча в этом случае такая особенная?

На wordstat новую капчу еще не прикрутили? Хотелось потестировать.

И кстати, ML это громкое название для процесса сбора большой бд «нормальных» юзеров и сравнение отклонений от нормы или там есть чет такое эдакое?

toshchakov Apr 6 2021 at 12:14

Если говорить про роботов, то у нас для них индивидуальный подход, но сильно деталей не готов рассказать. Если говорить про отличия других решений, то мне кажется, что мы сейчас больше повернулись к людям.

С wordstat уже работаем и там скоро будет лучше.

По ML, там классическое машинное обучение и задача бинарной классификации + немного нашей специфики.

chtulhu Apr 6 2021 at 12:33

Понимаю, но я и не интересуюсь, как вы детектите роботов(+- как и все, тот или иной фингерпринтинг), я предполагаю, что ваша капча не будет препятствием для сервисов, которые решают капчи за копейки. Когда выкатите на вордстат, то кто-то может проверит.

Вы, кстати, как относитесь к тому, чтобы кто-то с хабра разобрал вашу систему фингерпринта и пуленепробиваемость вашей капчи? В суд подавать будете? ))

gusev Apr 6 2021 at 11:40

Яндекс окончательно проиграл борьбу с накруткой ПФ? Или он до сих пор «не признает, что она есть» и великий и могучий ML не учитывает накрутки?

Вам кто больше нравится: Олененок, Конь, Белка, Бобер или Сурикат?
P.S чтобы понять о чем я не поленитесь откройте выделенные сайты.

Stesh Apr 6 2021 at 12:02

не поленитесь откройте выделенные сайты.

Хорошая попытка, но… )

gusev Apr 6 2021 at 12:10

Согласен, со стороны выглядит как попытка накрутить … Но это троллинг показывающий до чего доводит игнорирование проблемы. Там веселые животные в ироничной форме это показываю, к создаю этих сайтов отношения не имею.

LSDtrip Apr 6 2021 at 15:12

И вы не согласны с тем, что это лучшее, что можно выдать на запрос по сео курсам (без слова бесплатно)? Наглядно, весело, с пруфами, что ещё надо? Гугл и утка выдают там всякие лендинги в стиле «мы сами не умеем, но вас научим», и университеты Бауманские (эффективность наверное даже ниже, чем у тех, кто сами не умеют)…

gusev Apr 6 2021 at 16:31

Лучшее / не лучшее тут дело субъективное. Я о другом, есть проблема накрутки searchengines.guru/ru/forum/1029854/page499 Проблема затрагивает довольной процент сайтов, тематик, гео. При обращении в поддержку Яндекс все отрицается. Ответ в духе все накрутки фильтруются и не учитываются. При этом если показать «вот смотрите», то руками буквально за 30-40 минут все отфильтруют и почистят.

tyomitch Apr 6 2021 at 21:28

Ну реально: искали накрутку поиска, получили наглядную демонстрацию накрутки поиска. Что не так?

suffix_ixbt Apr 6 2021 at 12:05

Олененок, Конь, Белка, Бобер или Сурикат

И ни одной хрюши! Это ужасно :(

ainu Apr 6 2021 at 12:50

Это явно не ПФ, ПФ как раз на таких сайтах слетит через какое-то время.

ainu Apr 6 2021 at 12:55

Ну да, Олень, Конь уже пропали. И Суррикат.

UFO just landed and posted this here

toshchakov Apr 6 2021 at 13:02

Мы в первую очередь думали про максимально емкие формулировки для людей, которые впервые попадают на капчу. Главное, чтобы они не испугались и поняли, что произошло. Но тут есть, куда еще двигаться. «Сам ты робот» в копилку идей кинули )

docadept Apr 6 2021 at 14:21

«Ок, продолжить поиск»
«Давайте дальше»
«Все ясно»
«Штош»

redneko Apr 6 2021 at 15:51

"Штош, ты не бот"?

Vort123 Apr 6 2021 at 11:59

Не отказались ли вы от идеи сообщать при некоторых условиях пользователю, что капча неверна при том, что она верна?

toshchakov Apr 6 2021 at 12:28

В новой версии (которая с галочкой на первом этапе) такое больше не должно случаться. Мы её уже раскатили на наши наиболее нагруженные сервисы, на ряд других докатим со временем.

dopk Apr 8 2021 at 17:17

А как вам идея принимать типичные опечатки за верное введение капчи.
То есть проанализировать как ошибаются обычно боты, как люди. И неверный ответ типичный для человека считать за верный.

toshchakov Apr 8 2021 at 17:50

Интересная идея, мы на это смотрели и это пока дает очень мало. Но к глобальной идее «текст по символам не совпадает, но все-равно пропустим» мы еще вернемся и опечатки могут быть одним из факторов.

tormozz48 Apr 6 2021 at 12:10

На правах рекламы. Для сервиса по работе разработал свою капчу с решением простых арифметических примеров: github.com/tormozz48/algebraic-captcha

mogaika Apr 6 2021 at 13:18

Решение вашей капчи автоматизируется продвинутым школьником. Как минимум:
— символы разного цвета и далеко друг от друга
— легко определяющиеся грани (контрастный однородный фон)
— текст на одном уровне, без поворотов, одним шрифтом
— линии отдельным от цифр цветом
— картинки в svg, скорее всего можно упростить задачу еще сильнее поправив некоторые элементы
Хуже только передача решения через url к картинке (бывает и такое)

tormozz48 Apr 6 2021 at 15:26

Да автоматизируется легко. Я не буду спорить.

Но любая капча на распознавании картинок это попытка выдержать баланс между:

По дефолту не дать роботам совершать действия
Не заставлять клиентов оставлять свое зрение и нервы при попытке распарсить картинку глазами.

В свое время мы использовали как раз старую капчу от Яндекса и столкнулись с жалобами от клиентов, после чего я предложил и внедрил свое решение. Мое личное мнение такое: «Удобства для людей приоритетнее кейсов когда может пролезть какой-то специально обученный бот, которого можно отследить отдельными метриками».

zuek Apr 15 2021 at 10:58

Хуже — только отдавать зелёную надпись на жёлтом фоне. Ни я, ни мой коллега такую надпись банально не видим — приходится звать девочек из соседнего отдела, чтобы они прочитали.
*не помню, на каком ресурсе натыкаемся на эту дичь, но заходим туда где-то раз в полгода.

datacompboy Apr 6 2021 at 13:40

«is numeric answer for given equation (10 for this case).» — и пример с «8-3=?».
Сильно :)

tormozz48 Apr 6 2021 at 15:27

А ведь действительно сильно :). Спасибо, поправлю в документации.

Mishootk Apr 6 2021 at 12:22

Петр Первый прорубил окно в…
Сила действия равна силе…
Жи и Ши пиши через…
А и Б сидели на трубе, А упала, Б пропала, кто остался на трубе?
Зимой и летом одним цветом — …
Как вы думаете, собирать общеобразовательные фразы из школьной и детсадовской программы и предлагать пользователю — это хорошая идея?
Сложность — научить валидатор принимать ответы в синонимах и разных языковых формах, возможно с опечатками.
Недостаток — роботы могут быстро научиться (тяжело поддерживать и обновлять свежую базу вопросов).
Автоподбиратель заданий через обучение на распространенных текстах в сети тоже плохая идея — разгадыватели капч будут искать ответы там же.

chtulhu Apr 6 2021 at 12:36

Как вы думаете, собирать общеобразовательные фразы из школьной и детсадовской программы и предлагать пользователю — это хорошая идея?

разве вы сами не ответили на свой вопрос?

Squoworode Apr 6 2021 at 13:17

Разве же можно ответить вопросом на вопрос?

chtulhu Apr 6 2021 at 13:52

Недостаток — роботы могут быстро научиться

чем вам не ответ на процитированном выше вопрос?

zetroot Apr 9 2021 at 16:12

А почему вы спрашиваете?
:-)

EzikBro Apr 6 2021 at 13:30

Просто ужасная. Во-первых база фраз будет очень небольшая (даже десяти миллионов не набрать), из-за чего роботы ее скопируют вмиг, а во-вторых не все люди учились в нашей русской школе или помнят, что там в ней было. В итоге получаем, что боты будут входить в 99% случаев, а люди возможно даже в меньшем.

SergeiMinaev Apr 6 2021 at 13:00

Акция в честь дня учителя заслуживает уважения.

А вот "всё получится" в монохромном стиле напоминает, скорее, картинки "всё тлен" :)

zuek Apr 15 2021 at 11:05

Выше уже упоминал, что цветные "картинки" не всем доступны для прочтения, так что монохром считаю не злом, а плюсом.

SergeiMinaev Apr 17 2021 at 01:42

Так я и не говорю, что это зло. Вообще, капча хорошая. Просто описал свои ассоциации с "всё получится".

JerleShannara Apr 6 2021 at 13:27

Как же ваша система не любит квадратные экраны и режим инкогнито.

UFO just landed and posted this here

toshchakov Apr 6 2021 at 14:04

Да, мы хотим сделать процесс прохождения Капчи / парсинга сервиса максимально дорогим. У нас нет иллюзий, что real time защиту невозможно обойти, но мы хотим сделать это как можно сложнее, дороже и не таким массовым. И не забываем про удобство людей, для которых мы и делаем наши сервисы.

ITMatika Apr 6 2021 at 15:52

Когда пытаюсь подобрать интересный по цене/ТТХ товар, исследую и сравниваю 100500 разных товаров на Я.Маркете. Причём раньше меня за это Яндекс банил, без всяких капч, просто сервис переставал для меня работать. Приходилось обращаться в поддержку, чтобы разбанили. Поддержка отвечала, что живые люди не могут потреблять информацию в таких объёмах.
Так может я и вправду робот?

atrost Apr 6 2021 at 16:18

Я всегда думал, что это не от «роботов» штука, а бесплатное обучение нейросетей, за счет пользователей. И сделано, под предлогом «заботы» о пользователях. Это конечно имхо :)

chtulhu Apr 6 2021 at 16:40

Обучение на что, как кликнуть в квадратик или вы про распознавание объектов на картинке? А для пассивного сбора инфы виджет условной рекапчи особо не нужен.

atrost Apr 6 2021 at 22:48

Распознавание объектов, на некоторых капчах можно двояко ответить и она "пропустит".

Stesh Apr 6 2021 at 23:37

на некоторых капчах можно двояко ответить и она «пропустит».

На 74357181-й попытке — сервер согласился, что у него пароль «Мао Цзедун» (с)

StjarnornasFred Apr 6 2021 at 23:34

А что тут думать? Это как бы ни для кого не секрет. Берётся 50% картинок/слов, которые сервису известны (и их нужно ввести правильно), и 50% тех, которые неизвестны, но хотелось бы узнать. Пользователь заранее не знает, какие из них известны сервису, и стремится ввести все правильно. А машинное обучение тем временем узнаёт, как выглядят пожарные гидранты. Кстати, вы давно видели пожарный гидрант в реальном мире?

Lennonenko Apr 13 2021 at 13:25

национальная специфика, в США они буквально на каждом шагу, норматив 300-500 футов

webhamster Apr 6 2021 at 16:40

> Вы узнаете, как мы отказались от распознавания текста и перешли к его генерации… Если хочешь полностью контролировать качество капчи, то выход только один — генерировать картинки самостоятельно.

Но ведь это было ясно с самого начала.

Лет 15 назад я сам себе написал генерилку капчи для гостевой книги (можно понажимать F5), и пользуюсь ей до сих пор. И вот что я понял: никакого смысла сильно усложнять картинку нет. Если нужно, то спам засунут на ресурс просто люди, вручную за сущие копейки. И никакая капча этому противостоять не сможет. Решение должно быть только комплексное, с привлечением всяких stopforumspam.com и различной внутрисайтовой эвристики.

rvs2016 Apr 7 2021 at 19:48

На одном своём сайте ваял я как-то раз ну не прямо капчу, но борьбу с ботами, которые любят отправлять формы на серверы.
Поля формы были открыты не сразу все, а открывались последовательно по мере набора текстов в полях:

Сперва открыто первое поле.
Начало набора текста в первом поле приводит к открытию второго поля.
Ввод во втором поле открывает третье поле и так далее.
Во время заполнения последнего поля открывается кнопка отправки формы на сервер — только ею в моей задаче разрешено отправлять форму.

И вот если из "браузера" ко мне на сервер приходит форма с заполненными полями, которые для набора не открывались, то я эту форму игнорирую, т.к. неоткрытые поля мог заполнить и отправить только бот. :-)

fominslava Apr 7 2021 at 20:22

Многие боты работают через браузер (headless, selenium webdriver, etc) и могут легко справляться с заполнением сложных динамических форм эмулируя поведение реального пользователя (кликая на элементы страницы).

kahi4 Apr 6 2021 at 17:08

И никто не вспомнил про гугл?

А вообще я думал что Гугл пока показывает галку, то от мышку трекает, то от ещё что, что должно быть сложнее подделать ботом.

HardWrMan Apr 6 2021 at 20:10

А как он отнесётся к тачскрину? Есть же моноблоки с тачем. А люди любят тыкать пальцем в экран. И тыкают сразу в нужный элемент, не двигая курсор, который телепортируется в место нажатия.

Я помню, что Касперский фильтровал ввод так, что в некоторые поля нельзя было ввести с клавиатуры или тыкнуть мышью если ты на удалёнке. При этом, на экране нет никаких окон или баннеров и мышка двигается. Но не вводится, только с реальных локальных можно ввести. Поля, относящиеся к безопасности: логины, пароли и прочее. Но для этого у Касперского есть драйвера в системе, чего у браузера естественно нет. Так что браузер не сможет определить, если бот будет двигать курсором имитируя действия мышкой вместо посылания сообщения прямо элементу с фокусом.

dimaaannn Apr 6 2021 at 20:46

Я не знаю в чём дело, но гугл и другие сервисы не показывают мне капчу месяцами.
Пару месяцев назад этим увлекался алиэкспресс, но видимо их тоже вынудили отказаться от данной практики.

Возникает закономерный вопрос.
Почему я вижу капчу только на яндексе? Или может быть гугл делает что то не так? )
Закономерное решение — просто не пользоваться сервисами, где мне предлагают пройти капчу.
В войне с роботами побеждают людей. Ага.

Zarathu5trA Apr 6 2021 at 21:00

Глубокоуважаемый Яндекс!

У меня к вам есть один очень странный вопрос: Вы специально отсеиваете капчами пользователей (не роботов), у которых стоит англоязычная версия ОСи и, соответственно, нет русской раскладки клавиатуры? Я вот был очень удивлен пытаясь как-то зайти к вам с неместного компьютера и просьбу ввести для капчи русское слово «аккумулятор». Может давайте сразу будем просить вводить китайские иероглифы или какие-нибудь символы тувимского алфавита? Ну чтобы уже наверняка только избранные могли к вам попасть?

Или же это все таки сознательный шаг и вы строите свой сервис с лозунгами «Русский посиковик — только для русскоязычных пользователей! Чемодан — вокзал — Google!»

toshchakov Apr 6 2021 at 21:37

У нас есть специальная очередь картинок, где только латинские символы. Например, если пользоваться yandex.com, то картинок с кириллицей не должно быть. Если у вас интерфейс на английском, а картинки с кириллицей, то напишите, пожалуйста, в форму обратной связи. Посмотрим на это, такого не должно быть.

пример

robertd Apr 6 2021 at 21:18

Предлагать эту капчу для сторонних разработчиков не планируете?

alan008 Apr 6 2021 at 22:09

Надо буквы по дуге (как у вас), но размер каждой буквы разный и базовая линия дуги для каждой буквы тоже смещенная toshchakov

sovaz1997 Apr 6 2021 at 22:30

Где-то я уже это видел…

-1

ifap Apr 6 2021 at 22:56

Вряд ли я открою большой секрет, если расскажу, что капчу часто применяют для обучения компьютерного зрения. В целом ничего жуткого, да?

Нет, это бесплатный труд на благо коммерческой компании.

Мы осознали, что капче не обязательно быть исключительным злом в глазах пользователей. Она может быть такой, какой мы захотим её сделать. Например, полезной для людей.

Да-да, мы помним, как reCaptcha еще долго нагло врала про душеполезную оцифровку книг, после покупкии ее Гуглем, когда там уже давно предлагалось распознавать образы для гуглокарт. Яндекс не такой, Яндекс за грамотность искренне переживает…

BarakAdama Apr 6 2021 at 23:23

У вас смысл фразы изменился, потому что объединили фрагменты двух разных абзацев.

В остальном чистая правда. В нашей новой капче картинки генерируются из уже известного текста. Помощь в его распознавании нам не требуется.

ifap Apr 7 2021 at 00:47

Вы правы, мой коммент можно прочесть таким образом, будто я ловлю Вас на противоречии, чего ни в комменте нет, ни в тексте я не заметил.
Ловлю, вернее упрекаю, я Вас в другом, а именно: в попытке подать сугубо коммерческую проблему как эдакое scherzo, повод чуть ли не умилиться: ах, %sayname%, ты думаешь о нас! Не надо так, это бесит еще больше, чем сама капча ;)
Кстати, а почему Вы не пошли по пути динамического формирования кода интерактивных элементов, который можно было бы использовать в качестве «невидимой» пользователю капчи?

toshchakov Apr 7 2021 at 10:48

Кстати, а почему Вы не пошли по пути динамического формирования кода интерактивных элементов, который можно было бы использовать в качестве «невидимой» пользователю капчи?

Невидимая капча — это примерно то, что и происходит на новой странице с «Я не робот». В идеале, конечно, делать такую проверку незаметно на сервисе, но сделать это в лоб не получится, т.к. логика достаточно тяжелая и «притормозит» работу самого сервиса. Но найти тут компромисс и по максимуму перенести проверку в фон — это то, что мы хотим дальше делать.

ifap Apr 7 2021 at 12:37

Вомзожно, мы о разном говорим. Я вот о чем: например, Вы хотите не дать ботам пользоваться поиском. Код формы для поиска включает input submit, по нему, собственно, боты и находят нужные им элементы управления. Легким движением руки делаем этот input невидимым и добавляем второй — видимый input с тем же функционалом, но другим id. Бот «видит» «стандартный» input и радостно «жмет» на него, пользователь — видит «нестандартный», но реально предназначенный для него input и жмет его. Сервер видит, с каким id был использован input и делает обоснованный вывод: в первом случае — тупой бот, во втором — живой человек. Код, конечно, может быть совсем иным, но идея, думаю, понятна: роботы и люди видят страницу поиска по-разному, на этом боты и ловятся.

MarSoft Apr 13 2021 at 17:23

Эта механика имеет смысл против ботов, работающих "по площадям". Если же бот пишется под конкретный сайт, то всё это добро обходится на раз, просто подсмотрев в консоли браузера отправляемые запросы.

ifap Apr 13 2021 at 19:47

Боты для того и пишутся, чтобы все автоматизировать, а не руками лазить в консоль. Один раз посмотрели, написали бота, при следующем заходе сгенерилась форма с новыми ID. Бот распознает ее как соответствующую шаблону и юзает, палясь как бот. Добро пожаловать снова в консоль, и так при каждом заходе. А, погодите, это уже перестает быть ботом со всеми вытекающими…

MarSoft Apr 14 2021 at 02:42

Один раз да, второй раз тоже. А на третий раз автор бота заморочится, расковыряет алоритм — или банально переделает бота на Selenium/Webdriver, чтобы там все скрипты выполнялись как в браузере, соответственно активными будут только «правильные» поля. И всё.
Да, этот подход усложняет написание бота, но не критично, на мой взгляд.

ifap Apr 14 2021 at 11:02

Это соревнование брони и снаряда, а не серебрянная пуля, но в коде их рекламы этот принцип вполне успешно используется.

tundrawolf_kiba Apr 16 2021 at 01:50

банально переделает бота на Selenium/Webdriver,

Только вот работа через Selenium/WebDriver вполне себе палится, и значит разработчику нужно будет написать аналоги этих библиотек, что на порядок усложняет процесс написания бота.

alexxz Apr 7 2021 at 00:14

Задумался я над кнопкой "Я не робот". Я-то надеялся, что там собираются какие-то поведенческие факторы, типа трек курсора мыши, или еще что-то… Может стоит попробовать для глубокой проверки просто показывать крутилку, которая сама исчезнет, а не требовать телодвижений пользователя и угнетать его сравнением с роботом?
Также, читая комментарии пользователей конкретного провайдера выше, я задумался, может вам стоит улучшить ваш классификатор ip2isp? Ну, дополнить его тем же машинным обучением, например…

toshchakov Apr 7 2021 at 10:59

1. Сигналы используем, ML тоже. Конечное решение принимает как раз модель на базе Catboost в режиме бинарной классификации.

2. Мы думали над вариантом «крутилки» вместо галочки. Галочка лучше воспринимается пользователями, потому что сохраняет контроль над ситуацией. Когда что-то само по себе крутится и перезагружается — это пугает людей.

3. ip не является единственным сигналом для принятия решения, сейчас некоторые парсеры без проблем используют мобильные прокси.

dopk Apr 8 2021 at 17:33

Как и alexxz думал, что собираются поведенческие факторы и был весьма разочарован.

Выше были предложения, чем заменить «Я не робот», моя версия, это кнопка типа: «Пусти меня [дальше]». «Дай пройти», «Не мешай» — получается диалог.
Когда я нажимаю «я не робот», потом вижу капчу — это как ответ: «не верю», чувствую конфликт. Когда я нажимаю «пусти меня дальше», а мне капча — я воспринимаю это как «давай, только капчу разгадай и в путь», — мне это нравится больше (я только о своем восприятии, я не все люди, за всех сказать не могу).

A114n Apr 7 2021 at 01:12

Лично я для себя сделал следующие выводы: главная цель яндекса это полное устранение анонимности пользователя. Причём в самом мерзком, маркетинговом смысле — вам нужно знать о пользователе только максимальный набор данных. Любой урезанный набор не подходит, нужно заставить пользователя показать всё. Вам невыгодно, чтобы я нагружал ваши сервера, не отдавая взамен полного слепка истории.

Поэтому пользоваться яндексом из-под VPN, в режиме инкогнито, чистыми браузерами и т.д. — невозможно. Ведь в таком режиме вы не увидите мою историю поиска или регион, или ещё что-нибудь ценное из кук не вытащите. И капча после каждого запроса как бы говорит пользователю — «ну чего ты мучаешься, ты же знаешь, что сделать — отключи VPN, выйди из режима инкогнито, дай нам все свои данные».

Это причина, по которой я всё реже пользуюсь яндексом (с тех пор, как купил постоянный VPN — так практически и не пользуюсь).

Понятно, что вы не признаетесь в этом, я просто пишу, чтобы сказать — да, я это вижу, и все это видят.

BarakAdama Apr 7 2021 at 10:29

Вы правы в том, что спорить нет смысл. Просто оставлю здесь один факт, описанный в посте. Он куда лучше слов показывает направление нашей работы.

теперь в Safari в режиме Инкогнито встретиться даже с галочкой «Я не робот» вероятность примерно в десять раз ниже, чем раньше.

-2

JerleShannara Apr 7 2021 at 10:57

Только в огнелисе я с ней встречаюсь 1-2 раза в день. Вводные данные: квадратный экран (W=H), выделенный IP, Android, Firefox в порнорежиме. Макет поведения — читаем новости, на 20-30 вылетает «Впните сюды галочку».

BarakAdama Apr 7 2021 at 11:10

Репорты через «обратную связь» на страницей с капчей помогли бы команде разобраться в таких случаях.

JerleShannara Apr 7 2021 at 11:22

Отлично, если для репорта будет достаточно только адреса почты, то будут репорты.

JerleShannara May 13 2021 at 14:57

Максимальный эффект пинания техподдержки — «вырубите инкогниту, залогиньтесь в аккаунт». Аккаунта нет, инкогнито грохнул на два дня не помогло. Итого — зря только тратил время.

third112 Apr 7 2021 at 02:43

Прежде всего удивляет, что капчи на рисунке в статье сделаны стандартными шрифтами, потом их чуть исказили. У Вас дети есть? Или у знакомых? Нужен первоклассник. Попросите его написать «я не робот».

Второе: дайте случайную капчу в чекбоксе: «я не робот» или «я робот» или «я не верблюд» и т.д. — На это быстрее ответить.

Если сработает, то спросите меня личным сообщением — скажу, куда выслать вознаграждение :)
Успехов в нелегкой борьбе.

-1

third112 Apr 11 2021 at 12:28

Браво!!!
Минус получил, а критику своих советов не услышал. Явный троллинг, который, к сожалению, цветет и пахнет на Хабре. Вот бы капчу на троллей сделать!

nixtonixto Apr 7 2021 at 08:08

А как вы отличаете от роботов слепых и слабовидящих людей, которые работают на компьютере через программу-говорилку? Для них есть какой-то способ сделать так, чтобы капчи никогда не вылазили?

toshchakov Apr 7 2021 at 10:24

Мы не можем сделать белый список для какого-то среза и не показывать там капчу. Этим сразу начнут пользоваться роботы.
Но наша капча адаптирована для слабовидящих, и у нас есть специальный режим — аудиокапча, на который можно переключиться.

UFO just landed and posted this here

maeln0r Apr 7 2021 at 15:51

А шаг с галочкой точно нужен? Неужели сам факт тыка по галочке сильно прибавит к достоверности прогноза?
Я не предлагаю пропускать сам шаг, просто убрать необходимость совершать лишние телодвижения.

vanxant Apr 7 2021 at 16:50

Аналитические роботы Яндекса они такие, им подумать нужно, пока человек мышкой двигает.
Вас много, а я одна! (с)

GennPen Apr 7 2021 at 17:11

Аналитические роботы Яндекса они такие, им подумать нужно, пока человек мышкой двигает.

Нет там никакой аналитики.
Отключил мышку. Прогрузился до капчи.
Запустил document.getElementsByClassName('CheckboxCaptcha-Button')[0].click(); — капча сработала.
Не удивлюсь, если подобное будет срабатывать например на что нть типа CefSharp, откуда потом можно брать куки для продолжения работы ботом.

vanxant Apr 7 2021 at 18:06

Вы статью точно читали?

Пока пользователь ставит галочку, мы проводим дополнительный анализ с использованием более сложной ML-модели. Если всё хорошо, то возвращаем на сервис. Если «подозрительность» сохраняется, то показываем текстовую капчу.

UFO just landed and posted this here

amidas Apr 13 2021 at 13:33

Меня яндекс довольно часто в боты записывает. Как правило это происходит если нажать возврат на предыдущую страницу и ввести новый поисковый запрос в строке браузера. Поэтому если мне надо искать в яндексе, то делаю это через DDG с ключом !ya

1name Apr 14 2021 at 07:44

роботы создают нагрузку или даже занимаются откровенным вредительством

Защита от роботов конечно же нужна, но на сколько она эффективна в плане борьбы с нагрузкой на сервис? — Если запрос отправлен/принят, то какая-то работа в любом случае будет выполнена. Капча не спасает от нагрузки на сервер, а лишь закрывает доступ к контенту для роботов, тем самым говоря программисту «не знание законов, не освобождает от ответственности» (закон об авторском праве), ну и конечно же ограждает от не/намеренного вредительства.

Казалось бы — здоров! Однако, в этом есть и минус: Если все сайты будут использовать капчу, то тот же поисковый робот Яндек не сможет получать доступ к сайтам, а значит поиск в интернете станет невозможным и для других роботов, а в конечном счёте и для пользователей.

fuser Apr 15 2021 at 08:39

капчу предлагают только тем пользователям, чьи запросы в результате быстрого анализа показались нам подозрительными

Ага, щас.
У нас выделенный статический IP. И у всего офиса после перезапуска я-браузера вылазит капча. Писал в поддержку яндекса. Ответили: ваша подсеть используется роботами. И что мне делать? В нашем городе небольшой выбор провайдеров. Мой мелкий провайдер скорее всего арендует канал у крупного прова. Мне проще поисковик сменить.

HardWrMan Apr 15 2021 at 14:26

Самое интересное, когда аплинк офиса с десятком машин внезапно перезагрузился. Например, шлюз/модем/роутер перегрузился, все машины дропнули коннект. А когда аплинк поднялся — все разом ломанулись в интернет. Я помню 15 лет назад это стабильно определяло половину юзеров ICQ во временный бан с формулировкой «слишком частые коннекты с одного IP». Вероятно, поисковик может работать тем же методом.

zoldaten Apr 16 2021 at 18:31

Так вот кто их их делает! )

UFO just landed and posted this here

Alexx_ps May 13 2021 at 14:16

Когда смотришь на вашу капчу, начинаешь понимать зачем Бастрыкину лупа. Просто крутанул вашу капчу в Вордстате 5 раз подряд. Я вроде дальтонизмом не страдаю, но на первой картинке я вообще никакого текста не вижу. Да и на второй тоже не особо. В аду есть отдельный котел для тех кто это создал. И этим вынуждены пользоваться ваши рекламодатели — основной источник вашего дохода

HardWrMan Jun 10 2021 at 21:49

А сегодня Яндекс пытался меня утешить:

Это так мило.

pragmatik Mar 22 2022 at 15:34

Мне тоже как-то повезло с Я.Капчей, даже на память сохранил.

HardWrMan Mar 29 2022 at 12:00

Сегодня мне Яндекс выдал это:

Не знаю, связано ли это с тем, что в моём доме появилась яндекс станция с Алиской, которая меня постоянно слушает, или нет, но посыл определённо интересный.