Pull to refresh

Comments 45

Проблема в том, что они в любой момент могут перегенерировать массив из капч. В результате для пользователя все будет выглядеть как обычно, а для примитивной распознавалки % результата снизится до 0.

Но за 2а года этого не

произошло!
Да и сомневаюсь, что произойдет.
С учётом того, что сейчас идёт новый вид капчи… Точнее антикапчи.
И к тому же, да

когда заметят злоупотребления — прикроют.
особенно после вашей статьи.
там же вроде при регистрации почты ввод номера мобильного сейчас обязателен?

Там есть пункт — нет

там же вроде при регистрации почты ввод номера мобильного сейчас обязателен?

Нет.

и оперативностью Яндекс особо никогда не блистал

Они ею блещут, жаль в другом месте: а именно на поле борьбы с блокерами рекламы и скриптами для сокрытия яндекс-директа.
Порой код меняется раз в 1 час, вот уж куда они направляют силы сотрудников.
если от старости мои мозги еще не заржавели, то 76% дублей означают только то, что есть 24% оригинальных изображений. Вот если ты зальешь в базу эти оригиналы, то получишь ~100% распознавания (ну для сферической капчи в вакууме).Это я про то, что «76% распознавания» это некорректный подсчет шансов.

76% — это то, что программа удалила, т.е
Может, конечно, посчитано не верно, но если 76% точно имеют дубль в 24% то получим, что вероятность, что попадется дубль — 76%

Совершенно верно.
Если из 100к 76 удалены, то оригиналов 24к.
Если-бы программа по сливу капч работала чуть дольше, то скорее всего процент дублей был-бы намного больше. Но оригиналов останется так-же 24к.
Хорошо. Тогда зачем вы это пишете? Вы же собирались получить пару Tb дискового пространства, и вашим «врагом» была капча. Вы нашли способ, как ее обойти, и выложили его в сеть. Теперь этот способ прикроют, и вы не сможете получать Тб пространства.

Может автор за честную игру. Если исправят то будет новый уровень сложности. Там и фикс то простой.

Я же написал выше, что все действия, что я производил — были сделаны мною ИСКЛЮЧИТЕЛЬНО в исследовательских целях и почти без корыстных

Автор не нашел способа обойти капчу, воще то. Он обнаружил возможность повторного использования результатов распознавания. А все потому, что картинки генеренные по словам из словаря.
Для эксплуатации уязвимости базу данных из 24к картинок надо еще распознать… И обидно будет, если она превратится в тыкву… А перегенерить картинки несложно.
Для эксплуатации уязвимости базу данных из 24к картинок надо еще распознать

интернет называет цифру в 50-100р за распознавание 1000 капч
что для 24к картинок означает 1200-2400р общей стоимости
Что для 100к картинок вызывает удорожание атаки в 4 раза.
те до 5000-10 000р. что сопоставимо с Бюджетом Простенькой DDoS атаки (порядка 90-100$)

1)Ну, перегенерить — они неперегенерили за 2а года, поэтому, вряд ли сделают это.


2) Данная статья создана НЕ для корыстных целей (а то сейчас набегут мамкины хацкеры), а для исследовательских целей (типа, как НЕ нужно делать)

как НЕ нужно делать


Это да. Среди 100500 способов сделать велосипед они выбрали достаточно странный. Интересно, почему.
Потому, что:
1) Они используют кириллицу, а значит пилили с нуля
2) Они используют слова, а не набор букв (А значит они используют словарь)
3) Они отказываются потихоньку от капчи в пользу мобилок
4) Классическая политика Яндекс — сделать криво, но раньше Google

Что это нам дает:
1) Обновлений в капчу они делать не планируют (планировали, до этой статьи?)
2) Набор, который они смогли сгенерить — это все, что есть в некоем словаре
Извините, а зачем вам все 100к картинок? Там ведь написано: только четверть картинок оригинальные, то есть достаточно добавлять распознанные картинки в базу, а новые сравнивать на предмет схожести хэша изображения к базе.
Короче говоря, если у «Яндекса» всего 24к капч — то и атака на все их сервисы будет стоить 50-100*24000 рублей + время программиста.
Именно так я и сделал — сначало сравнение, если не найдено — Welcome по облако, а дальше уже распознается и добавляется…
Тфу, только время зря потратили…
По секрету скажу — там всего 26721 вид капчи и уже более года новых видов не поступало
уже более года новых видов не поступало


Проект завершен, деньги потрачены, сотрудники уволены работают над другими задачами;)
Шутки-шутками, но причём тут деньги?
Сделать скрипт генерации каптч (ну не вручную же они их рисовали?) нужно один раз и запускать его ну, допустим, раз в месяц. Хотя лично мне кажется, что 24к картинок можно обновлять еженедельно без заметной нагрузки на сервера, а уж «Яндекс» может это делать хоть каждый день!

Я согласен с вами, но мне почему-то кажется, что они тупо взяли словарь и сделали капсулы по нему. Причем словарь типа Ушакова. А после тупо все забросили...

В оригинале капчи вообще должны генерироваться на каждого нового запрашивающего отдельно. С мощностями Яши можно было сделать 3d слова и генерить искажения прямо в потоке видео (я кажется придумал новый идиотский способ капчи). Но они так не сделали.
Понимаю, что задача решалась не ради выгоды, а ради решения самого по себе, но все же, интересно, а в чем практическая ценность хранения 100Тб данных с такими ограничениями?

Основная проблема, что чтобы не спалиться совсем уж по-детски, необходимо будет заходить каждый раз через прокси.

Если не шардить, то для эффективной работы с таким количеством данных необходимы очень быстрые прокси в больших количествах, и дешево (вряд ли это возможно законно). Думаю, что для человека, для которого это не проблема, есть и более легкие способы спрятать 100 Тб (например, на 2-3х чужих корпоративных СХД с жирными каналами в 10Г, втайне от их владельцев).

Если хорошо пошардить, то большой скорости на каждом логине не надо, но и Яндекс по паттерну использования очень быстро сможет эти аккаунты, которые вдруг все одновременно начинают читать/писать маленькие файлики равного объема, объединить у себя, и устроить санкции (к примеру, заблокировать один из них под предлогом подозрения на взлом, и предложить предоставить паспорт, или поставить скорость скачивания в 56к на все эти акки).

Тут можно возразить, что люди, которые используют базу из 24К капч, не смогут объединить по паттерну, но не забываем, что навести порядок в капчах = релиз с тестированием и выливкой на прод, который затрагивает много людей и приоритеты с роадмапами, а разовый сеанс датасаенса = 1-2 часа одного человека + немного времени операторов.

Понимаю, что фактор репликации > 1 (что тоже накладывает ограничение, так, как придется таки делать файлы бинарно разными, чтобы запалив 1 аккаунт, Яндекс не накрыл всю сеть сравнением хешей файлов, которое есть у Яндекса 100%, и используется для дедупликации).

Короче, гемора что-то совсем много)

Вы правы почти во всем.
Программа, которая разрабатывается эмулирует работу жесткого, но вы не учли некоторые моменты.
1) Для подключения к разным аккам можно использовать разные tor ip и получить хорошую скорость(я не стал пилить vpn, т.к. не уверен в их безопасности)
2) Часто используется склеивание секторов
И их удаление
3) Внутряняя скруктура некоторых секторов имеет схожесть с exel файлами
4) При файлообороте выше 2Gb требуется привязка к телефону, НО в отличается от регистрации она не реагирует на номера однодневки
5) Скорость работы низкая, из-за чего статьи по программе ещё

Чувство меня не возьмут работать в Яндекс, придется идти в Google :(

Может они просто кешируют их некоторое время, то есть следующий день уже будут другие 24 тысячи?
Это вряд ли. Раз автор утверждает, что за год картинки не поменялись… Да и словарь это тоже несерьезно. Если словарь известен, то самая плохая самодельная распознавалка + подбор по словарю == очень хороший результат.
Думаю, это просто солонка капча для приличных людей, а не для хакеров.
Народ — народ, видимо кто-то из Яндекса все же посмотрели статью ^_^
В базу добавилось еще 12к картинок буквально с 10:35 по 11:42
Дальше все по старому :3
Да — дальше без изменений ^_^
UFO just landed and posted this here
ВНИМАНИЕ! Информация, описанная ниже, написана исключительно в исследовательских целях и не предназначена для использования в корыстных целях!
и не предназначена для использования в корыстных целях!

Самопиар — не корысть?
А где самопиар
Вы даже моего настоящего имени не знаете
А где самопиар
Вы даже моего настоящего имени не знаете

Не зачем. Раскрутка же идет под интернет.
Для дальнейших контактов этого более чем достаточно.

Серьезно говоря — я Вас не понял.
Раскрутка же идет под интернет.
— т.е. я пиарю свое имя, которое на каждом проекте я использую разное, окееей.

Для дальнейших контактов этого более чем достаточно.
— Чего? Вот тут совсем не понял. Какие контакты, если я показал косяк Яндекса? В гугл — так у них все норм с их антикапчей, в яндекс — так я же не им эту статью написал и, как следствие, мне там тоже не шибко рады, в мэил — так те обезьянки пусть дальше об уязвимостях в лог пишут.

Так с кем я должен обменяться контактами?
И нет не проще — т.к. нужно платить,
Я решил проблему faster_rcnn_inception_resnet_v2
Быстро и бесплатно
UFO just landed and posted this here
Sign up to leave a comment.

Articles

Change theme settings