Как стать автором
Обновить

Комментарии 53

Такое впечатление, что в Гугл бояться антимонопольного комитета, поэтому они постоянно ухудшают свои сервисы, повышают на них цены и нарушают приватность пользователей, чтобы на их фоне конкуренты могли развитаться.
У Гугла вообще-то всегда с приватностью была беда, у них же подавляющий доход — реклама, как у какого-нибудь Фейсбука, а значит нужно собирать как можно больше данных о пользователях. Странно правда, что Фейсбук за это не любят и стараются избегать, а продукцией Гугла продолжают пользоваться.
НЛО прилетело и опубликовало эту надпись здесь
Такое впечатление, что в Гугл бояться антимонопольного комитета, поэтому они постоянно ухудшают свои сервисы, повышают на них цены и нарушают приватность пользователей, чтобы на их фоне конкуренты могли развитаться.


Насчет «ухудшения сервисов» — это вы напрасно гоните.

А все остальное:

Обычный «захват рынка, а потом можно будет стричь купоны».
Время стричь купоны, судя по жесткой монетизации (например, постоянные предложения подписаться в Youtube) уже пришло.

Другой пример:
При Дурове в ВК не было рекламы не потому что Дуров хороший.
А потому что ВК жил на инвесторовские деньги эти годы, захватывая аудиторию.
Потом подошло время монетизации.
Хуже чем hCaptcha сделать будет сложно, на странице www.audacityteam.org она показывается бесконечно и чтобы теперь скачать Audacity нужно использовать либо VPN, либо Tor, либо расширение Privacy Pass. Более кривой капчи я еще не встречал.
поддерживаю. hCaptcha это преступление против человечества. я, вроде, не бот, но мне неудобно \ трудно \ долго \ неприятно ее проходить
Если бы hCaptcha там показывалась вообще для всех, то от нее, полагаю, уже бы отказались. Но тем не менее у нее есть категория IP-адресов, причем не обязательно общих, которые она никогда не пропускает, сколько её не решай. Так и появилась надобность в Privacy Pass, без него можно оказаться в «гетто». Интернет, который мы заслужили.
Google себе такого не позволяет, в худшем случае, через какие-то публичные VPN параллельно с ботами, reCapcha может раза 3 показаться и затем таки пропустить.
Да заколебали уже эти капчи на распознавание предметов! Мало того, что не всегда все найденные гидранты/пальмы/автобусы/велосипеды/светофоры гарантируют успешность прохождения, так ещё и нейросеть бесплатно тренируем. И ладно книги цифровали, там хоть понятно где капча, а где искомое слово, но тут…
Проще будет зарегистрировать гугл аккаунт если еще нет.

Не всегда это работает.

Ну пускай даже не всегда, а в 90%+ случаев (не в инкогнито).

В случае с hCaptcha это уже не помогает, к сожалению. Раньше почти никогда не приходилось разгадывать картинки.

Эта hcaptcha не только плохо работает, например, в тор браузере(вместо пропуска страница просто перезагружается и решай снова капчу, бесконечно), но она и сложнее, может быть 8 из 9 картинок только на первой странице.

но она и сложнее

К тому же, как по мне, иногда некорректные вопросы из-за локализации. Скажем, когда просит найти «автомобиль», судя по моим наблюдениям, это просто перевод английского «car», а всякие грузовики, которые на самом деле «truck», выбирать не надо. Хотя как по мне, русскоговорящему человеку, когда он видит слово «автомобиль», сразу хочется выбрать не только легковушки.

ReCaptcha в tor при мне не работала ни разу. Т.е. можно хоть 200 картинок ей разгадать — один фиг не пропустит и просто перезагрузится

боты теперь проходят reCAPTCHA так же хорошо, как и люди.

Это наглая ложь. Люди хуже проходят капчу чем боты.
с первого раза прошел:
You're a human.
You are not invited.
Думаю что свои 15% она отвоевала не в последнюю очередь благодаря переходу cloudflare на нее.

А какая у них модель монетизации?

Первая
hCaptcha можно использовать бесплатно для издателей любого размера. Однако для предприятий и платформ, которым требуется больший контроль, доступны наши корпоративные решения.

Вторая
Торговая площадка hCaptcha работает на HUMAN Protocol, открытом децентрализованном протоколе для проверки людьми, который работает на блокчейне Ethereum. Веб-сайты зарабатывают человеческие токены (HMT) всякий раз, когда пользователи используют виджет hCaptcha на своем сайте, а компании, занимающиеся машинным обучением, платят человеческие токены, чтобы помечать свои данные.
Торговая площадка hCaptcha работает на HUMAN Protocol, открытом децентрализованном протоколе для проверки людьми, который работает на блокчейне Ethereum. Веб-сайты зарабатывают человеческие токены (HMT) всякий раз, когда пользователи используют виджет hCaptcha на своем сайте, а компании, занимающиеся машинным обучением, платят человеческие токены, чтобы помечать свои данные.


Можно это перевести на человеческий язык, пожалуйста?
Поподробнее.

Хайповые «умные» слова вижу.
Но смысл за ними как-то теряется.

Зачем тут целый блокчейн (и затраты на его поддержание) для всего лишь капчи?
Ну я это с их сайта скопировал.
Подозреваю что там схема как в Я.Толоке — весь банкет оплачивают ML, которым нужны размеченные датасеты. С полученных денег хкапча часть отдает владельцам сайтов, для продвижения своего решения, а на оставшиеся 2% и живет.
А судя по тому что та же гугловая капча регулярно подсовывает мне угадывания дорожных знаков и светофоров — спрос не в последнюю очередь связан с развитием автомобильных автопилотов, которым как раз такая разметка и нужна, для обучения нейросетей.
Зачем там блокчейн вопрос открытый. МБ стильно, модно, молодежно

Блокчейн, скорей всего, для прозрачности расчетов.

А судя по тому что та же гугловая капча регулярно подсовывает мне угадывания дорожных знаков и светофоров — спрос не в последнюю очередь связан с развитием автомобильных автопилотов, которым как раз такая разметка и нужна, для обучения нейросетей.


Так ведь когда вам подсовывают дорожные знаки и светофоры в капче — то ответ гуглевой капче уже известен.
Вроде нет.
По крайней мере когда капча базировалась на распознавании двух слов гуглу было известно лишь одно из них, через него и происходила проверка правильности, а вот второе слово как раз распознавалось силами миллионов пользователей и только после этого становилось известно гуглу. Следующему миллиону пользователей подсовывались картинки где в роли известного слова подставлялся результат первой итерации. Так с помощью бесплатного хайвмайнда библиотеки и оцифровывались, а прибыль гугл клал себе в карман.
Мне кажется что со светофорами ситуация не сильно отличается
НЛО прилетело и опубликовало эту надпись здесь
reCAPTCHA v 3 (невидимая) идеальна, высокая точность определения качества среднестатистического юзера, не напрягая самого юзера. Про hCaptcha на сайтах за Cloudflare ничего цензурного сказать не могу, это отброс интернета в прошлое, издевательство над пользователями и пользователи отвечают взаимностью, им проще кликнуть на соседнюю ссылку в выдаче, чем разгадывать этот бред.
reCAPTCHA v 3 (невидимая) идеальна, высокая точность определения качества среднестатистического юзера, не напрягая самого юзера.
Она «идеальна» (для большинства) только потому, что люди залогинены в Гугл-аккаунт. Стоит из него выйти или перебраться в приватный режим — будет в точности как и с hCaptcha. И даже более… С ряда сетей Google даже капчу ввести не предложит (запрос в Google Search из под VPN).
Эта капча ещё, похоже, и не работает на любой отличной от ванильного лисы/хрома конфигурации браузера. На каждой странице с ней вижу «Rate limited or network error. Please retry.» без возможности её каким-либо образом решить, в консоли — «Cross-Origin Request Blocked» для её же ресурса. В итоге половина сайтов с клаудвафлей была банально недоступна, пока не поставил расширение для временного отключения проверки CORS.
Яндекс тоже отличился нелюбовью к IPv6 от HE. Даже несмотря на то, что залогинен — постоянно просит ввести свою капчу, некоторые из которых могут сломать глаза. Но некоторые и заставляют улыбнуться и вспомнить в какой стране живу:)
image
Это еще что, мне вот буквально минут 15 назад Я подсунул такую капчу
Я даже не удержался и заскринил
image
Если в одном из полей находится явно невводимое с клавиатуры выражение — как правило достаточно туда написать любую чушь, и Я это съест.
Просто ушел со страницы
Легче и быстрее открыть соседнюю ссылку в поисковой выдаче
В интернет как известно деградировать приходят, а не ребусы решать

А я-то гадал, за что яндекс мне подобную муть подсовывает при любом запросе в поиске, а вот оно что, туннель от HE. Ну привет яндексу, поэтому я и не пользуюсь их поиском.

Ну привет яндексу, поэтому я и не пользуюсь их поиском.
А как вы предлагаете поисковикам защищаться от скрейпинга? Если не прикрывать эту лавочку в зародыше, деградировать услуга будет для нас, обычных пользователей.
В режиме инкогнито на яндекс-маркете, тоже часто вылазит капча, даже на ipv4.
Может конечно у рекапчи и есть проблемы с приватностью, но для конечного пользователя она просто в разы удобнее. Достаточно быть залогиненым в гугле, и все, тыкаешь чекбокс мол не робот и проходишь. hCaptcha же — это люто бешенно бесячая штука. Ладно когда тебе не принципиально на каком сайте инфу смотреть, действительно, закрыл да и перешел по соседней ссылке в поисковике. Но мне часто бывает нужно зайти на какой-то конкретный сайт за Cloudflare, и я когда эту замечательную приватную капчу вижу у меня глаз уже дергаться начинает.
>Достаточно быть залогиненым в гугле

собственно не достаточно, несмотря на то что я залогинен, рекапча дает мне по несколько страниц картинок каждый раз
Проблемы с hCaptcha облегчает браузерное расширение Privacy Pass.

Спасибо! Оно действительно работает!

IP-адреса выходных узлов TOR относительно легко вычисляются путем ротации после смены страны выходного узла и других методов. К тому же они редко меняются, по крайней мере основной список постоянен.
Потом используют его как blacklist.
Каждый раз, посещая какой-то сайт под cloudflare, возникает сильное желание его покинуть на странице верификации.
  • Срабатывает практически в 100% случаев, будто никакой предварительной проверки там в принципе нет. Не могу вспомнить ситуацию, когда я нажал на чекбокс и меня пустило без прокликивания по картинкам.
  • Всегда минимум 2 шага для прохождения.
  • Работает намного медленнее рекапчи. На их сайте есть «Try it out». После нажатия на чекбокс у меня подвисает страница на несколько секунд. Любое действие, кроме выбора картинки, тоже лагает. Картинки грузятся долго.

Если по какой-то непонятной причине не прохожу с первого раза, то просто закрываю вкладку и открываю следующую в гугле ссылку.

разработчики, которые используют всевозможные *Captch-и сторонних сервисов вместо того, чтобы (или попросту не в состоянии) придумать собственный простой и ненапряжный для посетителей способ отсева ботов, будут после смерти в своем датамайнинговом аду рассчитывать в уме коэффиценты кросвалидации для бесконечных датасетов с гидрантами и светофорами, до скончания веков.

Проблема в том, что «простые и ненапряжные» способы толком не отсеивают ботов

рискну осторожно поинтересоваться, есть ли у вас какой бы то ни было опыт в разработке ПО?
Дело в том, что любой маломальски квалифицированный программист сходу придумает дюжину элементарных способов. Проблема не в простоте, проблема в унификации (читай, идентичности) используемых решений.


90% web разрабов нынче, вместо того чтобы написать 10 строк оригинального кода "из головы", привыкли таскать мегабайты готовых бибилиотек невесть откуда и использовать их вкривь и вкось, даже там, там где они "не пришей кобыле хвост", зачастую линкуя их прямо с сайта оригинала (а последние это радостно поощряют, потому что датамайнинг — современная тотальная бизнес-модель в сфере IT.


Поэтому на компах пятилетней давности нельзя уже открыть сайт с тремя картинками и параграфом текста. И поэтому все капчи одинаковые повсеместно. Потому что "все же так делают" и "требуют в продакшн завтра утром, зачем я буду упарываться".


Т.е., по сути, это вопрос даже не квалификации, но профессиональной культуры и отношения к своему делу.

Во-первых, примерно 90% владельцев сайтов — не программисты вообще и просто берут какой-то готовый движок для сайта, при этом самостоятельно не умея даже Hello world написать. Во-вторых, ну если вы такой умный, предложите что-нибудь оригинальное, под что адаптация бота злоумышленником займёт больше получаса? Представьте, что вы разработчик популярного движка и его будут использовать эти самые 90%.

Не подумайте, что я ёрничаю или что-нибудь вроде того: немного странно, что вы считаете, что бывают простые и ненапряжные способы для отсева ботов. Боты тоже не на пустом месте появляются, их тоже разрабатывают люди, которые умеют приспосабливаться к вашим изменениям. Это ведёт к тому, что лично для разработчиков «простых и ненапряжных» способов отсева ботов, это всё превращается в очень напряжённый процесс гонки вооружений.

Если смотреть на это с позиции «я люблю в свободное время изобретать очередную преграду для ботов», это вполне нормально, и это даже может развлекать и стимулировать мышление. Но если считать экономический эффект от этого, то выгоднее либо пользоваться сторонними решениями, высвобождая время на разработку продуктовых фич сайта, либо переориентировать свой бизнес на разработку защиты от ботов и не заниматься больше ничем другим.

Опять же, мне кажется, вы слишком обобщаете всё и сводите вещи к «придумать [панацею] способ отсева [любых] ботов [в любых сценариях]». Мне приходилось бывать по разные стороны баррикад в этом вопросе. Например, в одном из проектов, где я раньше работал, и который я с нуля разработал в техническом плане, кстати, наше ботоводство привело к тому, что Airbnb дал нам доступ к внутреннему API, чтобы снизить нагрузку с нашей стороны. При этом, мы реально улучшали жизнь арендодателей с помощью нашего сервиса, позволяя, например, из одного аккаунта управлять кучей аккаунтов на нескольких платформах (человек может подключить, например, 50 аккаунтов с Airbnb, 15 с VRBO, пару десятков с Booking и ещё кучу аккаунтов с нескольких других платформ). Как вы думаете, сайт Airbnb делали глупые люди, которым лень написать 10 строк оригинального кода, чтобы отсеять наших ботов? У них и каптча даже была, которую мы вполне нормально научились обходить.

На другом проекте я сейчас занимаюсь обратным — снижаю количество спамеров в чате и, вообще, стараюсь уменьшить возможности отправлять сообщения автоматизированным путём. По моим наблюдениям, если ты выкатил новый способ защиты от автоматизации, через неделю-другую его уже учатся обходить. Причём ты постоянно борешься не с одним и тем же ботом, а с группой несвязаных друг с другом программистов, у каждого из которых свой собственный тип мышления и каждый из которых пишет своих собственных ботов. В такой ситуации новый код проблему решает, но ненадолго.

По поводу того, что люди таскают мегабайты библиотек — согласен на 100%. Это настоящий бич и это вполне можно сравнить с наркоманией по своей разрушительности и по тому, как сложно с этим бороться. Но без сторонних библиотек иногда сложно обойтись. Например, если вам нужно показать в браузере страничку с тремя строчками текста и картинкой, вы же не пишете двоичным кодом веб-сервер, который работает напрямую с железом, которое вы самостоятельно собрали и спаяли из материалов, которые самостоятельно же выкопали из земли самостоятельно сделанной лопатой? Вы выбираете какой-то уровень, на котором согласны работать самостоятельно, потому что это напрямую решает ваши задачи, а остальное отдаёте на откуп другим людям, которые специализируются в этих вопросах. И если вы согласны переложить ответственность по разработке веб-сервера на, например, команду разработчиков Nginx, почему вы не можете переложить ответственность по детектированию ботов на тех, кто разрабатывает, например, сервис reCAPTCHA?
RuCaptcha на связи!

У нас есть немного собственной аналитики, которую мы обычно не публикуем (ну, просто она особо и не нужна же никому). С постом мы очень сильно не согласны и вот почему:

1) отвоевала 15 % Интернета
Это — не так. HCaptcha в данный момент это 3-7% от ReCaptcha V2
Самая большая и, пожалуй, единственная победа HCaptcha — их поставил к себе CloudFlare. Единицы вебсайтов, имеющих капчу, сделали выбор в пользу HCaptcha

2) боты теперь проходят reCAPTCHA так же хорошо, как и люди
Ботов
Но обойти HCaptcha ботом — намного легче, чем ReCaptcha! Просто это никому особо не нужно, потому таких ботов нет

3). Окончательный переломный момент для многих крупных клиентов наступил, когда Google начала взимать плату с компаний за использование корпоративной версии своего продукта
Кажется, эта статья полна вранья ради пиара HCaptcha.
ReCaptcha Enterprise — платная, но любые компании могут продолжать использовать бесплатную ReCaptcha V2.
И платить есть смысл. ReCaptcha Enterprise, представляет из себя смесь V2 и V3: проверяет насколько доверенным является пользователь и даёт ему решить набор картинок, если сомневается в нём, как и V2 рекапча + сообщает сайту вероятность того что пользователь бот, как V3 рекапча.
Обойти ReCaptcha Enterprise тяжелее, чем обычную V2, и порою нам (команде RuCaptcha) даже начинает казаться, что гугл победил, (но мы быстро прекращаем отчаиваться и начинаем откофеваться.

А теперь критика HCaptcha:
1) Они не умеют в IPV6.
Прям совсем. Да, клиентов по IPV6, практически нет, но ReCaptcha — умеет.
2) В HCaptcha нет версии для слепых\слабовидящих.
Поэтому слепые пользователи вынуждены регистрироваться на нашем сервисе и пользоваться им для обхода капчи. В ReCaptcha — есть аудиоверсия.
3) Иногда они падают.
Это смешно, но бывают случаи повышенной нагрузки, например когда крупный интернет магазин решит протестировать их капчу и на время распродажи поставит её себе. HCaptcha падает и начинает пускать всех подряд вообще без проверки бот\человек
4) Они не экономят трафик!
Набор картинок у них в среднем весит 1МБ, у рекапчи — 50Кб.
В капчу они дают оригиналы картинок, часто попадаются картинки в размере 1280х720, размером 250Кб. Естественно внутри самой капчи они ресайзятся браузером до 125px по наибольшей стороне.
5) Они не придумали ничего своего
Всё, включая имена переменных, копипастят у ReCaptcha.
6) Защита сайтов.
Честно говоря, ReCaptcha прекрасно знает что наш сервис её обходит и не менее 80% работников она достоверно определяет как работника рукапчи. Но принимает решения наших работников. Почему принимает — не знаем, возможно они используют политику «Лучше отпустить 9 преступников, чем посадить 1 невиновного». Кстати, именно с этим связаны сложности в обходе ReCaptcha Enterprise
HCaptcha вообще не имеет подобной аналитики.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Изменить настройки темы

Истории