tyderh 2 ноя 2012 в 14:27

«Оцифровываем» каптчу единого реестра сайтов, защищающего людей от информации

3 мин

24K

Информационная безопасность *

Туториал

+53

Комментарии 48

nick4fake 2 ноя 2012 в 14:35

Я не могу понять, зачем столько усилий? Не рекапче сидят тыщи китайцев, процент почти 100.

vyacheslav_ka 2 ноя 2012 в 14:37

Не спортивно же :)

+18

AlexP11223 2 ноя 2012 в 15:14

Далеко не 100 и медленно :)

nick4fake 2 ноя 2012 в 15:22

На моих выборках они обычно 99 процентов отгадывают (хотя да, тупят). Как плюс — не нужно под каждую капчу писать дешифратор.

rushter 3 ноя 2012 в 10:53

На рекапче никто не сидит, сидят на антигейтах и подобных сайтах :)

nick4fake 3 ноя 2012 в 11:46

Я об антигейте (конечно не рекапча). :)

Error_403_Forbidden 12 ноя 2012 в 23:40

рекапча? Может быть Pixodrom ( pixodrom.com )?

6opoDuJIo 2 ноя 2012 в 14:36

Также можно скриптом завалить сайт заявками используя гугл в качестве генератора случайных урлов.
UPD. мб сделать? кто что думает?

sagus 2 ноя 2012 в 15:02

Могут по ip заблокировать, надо над прокси подумать еще. Ну и над самими заявками, чтобы сайты побольше были да загружались подольше. Кстати, они же вручную проверяют… Им же случайно могут попасться порноссылки и даже ссылки на вредоносные сайты. Как они с этим борются интересно)

6opoDuJIo 2 ноя 2012 в 15:14

Можно использовать Tor. Да и листы паблик-прокси достать не такая уж и проблема.

6opoDuJIo 2 ноя 2012 в 15:27

И как альтернативный вариант — вебсервер с js-кой, что будет выполнять эти действия и опубликовать ссылку. Кто-то да воспользуется. В реестре не обрадуются.

sagus 2 ноя 2012 в 15:34

Я бы назвал это спам-оберткой вокруг zapret-info.gov.ru/ ))

amarao 2 ноя 2012 в 15:02

Генератор не интересно. Интересно отправлять ссылки на реальные страницы. В этом случае не будет возможности различить стукачество от шумоизоляции, т.е. кому-то там придётся идти и читать всё, что прислали. А это куда эффективнее, чем засирание базы, ибо в условиях перегрузки люди не прекращают обработку новых запросов, а начинают халтурить с существующими.

В принципе, отправка результатов поиска гугла по inurl:a, inurl:b и т.д. — неплохая стратегия.

6opoDuJIo 2 ноя 2012 в 15:08

Вообще-то я и имел ввиду отправку реальных урлов полученных через поиск гугла. По запросу «сайт» например.
p.s. Существуют сервисы типа этого (http://www.randominio.com/ru) что по клику перенаправляют на случайную страницу. Это ещё круче и проще, чем поиск гугла.

НЛО прилетело и опубликовало эту надпись здесь

6opoDuJIo 2 ноя 2012 в 22:25

Смс-подтверждение можно купить на стороне. Где-то в комментах на хабре была ссылочка :)
Плюс ко всему прочему, остро встаёт вопрос передачи данных. Если передавать открыто… ну, сами понимаете. Если передавать хеш, то возможны коллизии, и может получиться неразбериха. Палка о двух концах в общем.

seriyPS 2 ноя 2012 в 21:19

Можно по этим спискам пройтись просто =)
panel.reghouse.ru/ru_domains.gz
panel.reghouse.ru/su_domains.gz

6opoDuJIo 3 ноя 2012 в 22:42

Ну, тогда придётся в любом случае привлекать поиск, чтобы иметь не только главные странички, но и случайные странички с этого домена (например, случайное сообщение на форуме). Используя только поиск гугла, можно будет иметь в спам-списке ещё и сайты с буржундии)

seriyPS 4 ноя 2012 в 00:53

чтобы получить случайную страничку с домена, в 100 раз проще загружать индексную страничку с самого домена и выбирать рандомную ссылку с неё, чем бороться с капчей и баном гугла.

6opoDuJIo 4 ноя 2012 в 02:34

Хм. И то правда — про бан гугла я благополучно забыл -_\\

KORISS 2 ноя 2012 в 21:49

Как-то так и закроют хабр, ведь это подстрекательство на кибер-терроризм.

intermed 3 ноя 2012 в 19:48

Вкину свои 5 копеек. Встала тут недавно задача голосовалку обмануть. Правда она была без капчи зато позволяла голосануть 1 раз с IP адреса. В общем вот вам однострочник на шеле, может сгодится кому:


while read line;
  do echo $line;
  curl http://voteurl.ru/vote/path/ -d "postKey1=postValue1&postKey2=postValue2" -x $line -o ./output.txt ;
done < /home/name/proxy-list.txt

Прокси серверы брал отсюда

6opoDuJIo 3 ноя 2012 в 23:01

Круто, спасибо. Кинул в избранное, буду пользовать в будущем).

megaweber 2 ноя 2012 в 15:27

Ну все теперь…

SADKO 2 ноя 2012 в 15:40

UnixWay!

sagus 2 ноя 2012 в 15:50

И в главном скрипте вторую строку лучше вот такой сделать
c=$(curl -c cook.txt http://zapret-info.gov.ru/ | iconv -f cp1251 | grep capcha | sed -n 's/.*src="$.*$".*/\1/p')

poterin 2 ноя 2012 в 16:12

В конце концов они замучаются и сделают белый список вместо черного. Вот тогда реально весело будет.

+15

sankir 2 ноя 2012 в 16:40

Я удивлен, если честно, что они с этого не начали.

sam002 2 ноя 2012 в 20:52

А что с презумпцией невиновности тогда делать? По такому принципу можно всех садить в тюрьму, а за хорошее поведение выпускать!
Они, конечно могут, я, лично не особо удивлюсь...

mariofag 2 ноя 2012 в 23:46

Тише, sam002, тише.

6opoDuJIo 2 ноя 2012 в 22:32

Возможно что суть в том, что для того, чтобы составить тот самый белый список, нужно время. И немало времени. Результат же нужен уже сейчас, посему, самый простой способ прекращения доступа к «неподходящим» ресурсам — тупо их блочить. А если не подготавливать такой список заранее то это будет сродни банальному отрубанию кабеля. Если приобщить народ к таким действиям (как сейчас) в виде заявок и прочего, то в первые часы (если не минуты) ресурс просто ляжет. Люди будут массово слать просьбы разлочить их любимый форум ветеринаров, вики скейтеров, ещё-что-нибудь и т.д. и т.п. Как по мне, так геморрою будет по самое небалуйся. Посему, проще сделать то, что сделано.

mrThe 2 ноя 2012 в 17:40

Можно повысить кдп до 99%, так как по одному урлу(типа zapret-info.gov.ru/services/capcha/?i=123) отдаются одни и те же цифры(так как, судя по всему, сессия генерируется на странице, а не из картинки). Несколько раз запрашиваем, распознаём, выбираем по большинству.

tyderh 2 ноя 2012 в 17:59

Я об этом написал. 99% не быть, т.к. в большем количестве случаев оно путает 9 и 3, 1 и 7, повторения при таком методе ухудшают результаты

PEgorov 2 ноя 2012 в 18:12

Интересно, а есть зависимость между текстом капчи и параметром i в урле?

tyderh 2 ноя 2012 в 18:14

i строго зависит от phpssid. Нельзя получить каптчу без phpssid или неправильным i. После получения каптчи i аннулируется

PEgorov 3 ноя 2012 в 22:11

Что вы имеете в виду под «получение капчи»? Отправка серверу ответа на капчу? Ибо так-то ничего не аннулируется. В течение весьма долгого времени можно невозбранно запрашивать капчу снова и снова, и она будет возвращаться с одинаковым текстом внутри, и размещен он при этом будет по-разному, как и писалось выше.

tyderh 3 ноя 2012 в 22:12

После отправки, да

nolka 2 ноя 2012 в 18:22

Конечно есть! По значению параметра i они производят сравнение того, какой код ввел пользователь, и какое значение кода на самом деле. в параметре i просто идентификатор кода хранится(не сам код!)

ssneg 2 ноя 2012 в 19:44

> Минимальное КПД
КПД — это коэффициент, поэтому «минимальный», «максимальный».

tyderh 2 ноя 2012 в 19:46

Спасибо, но на будущее: о таком пишут в личку

-1

ssneg 2 ноя 2012 в 19:47

Это не опечатка, а ошибка. Поэтому вполне ещё кому-нибудь пригодится.

bolk 2 ноя 2012 в 21:53

 res=$(cat result.txt | sed -e 's/[^0-9]//g')

Useless cat. Почему сразу-то не сделать так:

 res=$(sed -e 's/[^0-9]//g' result.txt)

tyderh 2 ноя 2012 в 21:54

Как думаю, так и пишу, поэтому такая фигня и получается :)

Lunatik 2 ноя 2012 в 23:22

Попробовал увеличить картинку при перед прогоном через Tesseract.

Случаев, когда совсем распознать не получилось становится сильно меньше, но общий результат от этого не меняется. И работать начинает заметно дольше.

Жаль.