Pull to refresh

Comments 106

Робот ходит и грузит страницы сайтов, игнорируя robots.txt и создавая тысячи запросов в минуту на сервер на котором несколько сотен сайтов…
Бесплатное нагрузочное тестирование.
(«несколько сотен сайтов») * (несколько запросов в минуту) = (несколько тысяч запросов в минуту)

Вроде всё логично, то же самое будет и с обычными пользователями.
Ну и подробности тоже интересны, что у вас за сайты такие, которые сотнями помещаются на сервер, и в чём заключается игнорирование robots.txt?
Да какая разница, что у меня за сайты? — обычные скромные сайтики с посещаемостью в среднем по тысяче человек в сутки, сайтов таких пара сотен, для пользователей они живут нормально… Но есть кривые сервисы типа solomono (который давно забанен), и вот этого «электронного правительства» которые приходят раз в неделю и пытаются загрузить сразу все страницы (их по паре тысяч в среднем на каждом сайте) со всех сайтов одновременно игнорируя прописанные в robots.txt директивы о частоте запросов, в результате перегружают сервак и страницы начинают открываться по 30 секунд…

но пост не только об этом, но и о том какого вообще этому «электронному правительству» надо?
Больше похоже, что пост об умении пользоваться iptables.
А какой хоть порядок задержек?
А воспользоваться методом через кольцевой DoS не пробовали? Тогда чем активнее они будут индексировать — тем хуже для них.
Так, может, этому роботу скормить какой-нибудь гадости? Например, несколько гигов контента на небольшой скорости. Пускай хоть закачаются!
Лучше автоматически генерировать страницу при запросе. бесконечно много страниц :)
/dev/urandom — настало твое время!
А они там пиратский контент случайно не найдут?
Запросы идут идут только с 109.207.13.0/24
109.207.0.0 — 109.207.15.255
У Вас может быть и 109.207.13.0/24, а у других другие адреса с этой подсети /20
А вы проверьте свои логи…
Я полагаю, что они не додумались отдать роботу 65тысяч ip-адресов… хотя с них станется…
Про их ip на своем сервере могу сказать
109.207.13.122
Заходил ко мне последний раз 27/Aug/2013:15:17:40
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
<sarcasm type="I hope so">Может прежде чем создавать интранет, они решили заранее все проиндексировать для рос-поисковика</sarcasm>
Ну при том что существует например ivi, ростелеком запустил забаву.ру, тем самым став конкурентом. За исключением блокировок сайтов(например wordpress.com, приходится через tor там гулять), я не вижу причин не быть клиентом ростелекома, потому что интернет у них явно хороший, на протяжении последних 2-3 лет(не помню когда они онлайм купили).
С чего бы им теперь не запустить поисковик? Думается мне гугл не просто так хотят провайдером стать?)
Яндекс — это не российская компания. Это ООО, учереждённое то ли нидерландским, то ли датским офшором.
UFO just landed and posted this here
Типа и «10 правил бизнеса в России» не делают бизнес в России бизнесом не в России. И умерший в лондонской больнице CTO/сооснователь — это признак истинно российской, из «новой двадцатилетней России» компании?!

ic.pics.livejournal.com/sly2m/9519071/241761/241761_original.jpg

UFO just landed and posted this here
Материнская компания
Нидерланды, Yandex N. V. (100%)
Вики
Думаете будут вносить в черный список всех кого не удалось проиндексировать? :)
Да кто их знает. Издадут по-быстрому новый закон. Свобода в интернете уже не та…
Да вроде Ростелеком не издаёт законы, а в следующем году государство планирует вообще продать свой пакет акций.
Добрый день. Законы не издаёт, но как инструмент очень удобен ввиду последних законотворческих излияний.
Доступ в интернет по приницпу white-list
Они анализируют упоминания слов «Путин», «Медведев» и т.п.
а чем «т.п.» то им не угодила?
оральный секс хочет запретить.
UFO just landed and posted this here
А я бы отметил «разжигание ненависти к определенной социальной группе».
В общем, был бы сайт — повод его закрыть (возможно, вместе с хозяином) найдется, при желании. Пиратский контент, суицид, ненависть, наркотики, шутки-фэйки про депутатов, что угодно — даже нелицензированный шаблон.
На мой взгляд, нужно забанить всех и каждого, кто имеет отношение к трем ветвям власти. Это будет справедливо — предать их общественной анафеме.
«разжигание ненависти к определенной социальной группе»
Цсс… Вдруг кто что не то подумает!
Варианта два — либо строят коммерческий сервис, либо пилят бюджет на какой-нибудь самостоятельной системе поиска запрещенного контента и т.п., потому что яндексом и гуглом можно пользоваться для этой задачи сколько угодно, но это же не сертифицированные отечественные средства, и денег на их использовании не заработаешь. :)
О! Вы — гений!

Отличная идея, создаем черный список айпишников — депутатский корпус, роскомнадзор и прочие выходы в сеть госслужащих и не показываем им контента. Только для них «Service Temporarily Unavailable» :)))

А что — только им разве можно блокировать сайты, можно и наоборот, им показать кукиш, пусть сами выкручиваются.
Да ладно, они и недоступность сайтов запретят. Тоже мне, проблема :)
Скажут что домены принадлежат госудраству в ru/рф зоне. А остальные запретят использовать. Если сайт недоступен значит тебе домен не нужен.
Не подсказывайте ) Двухходовки для них слишком сложны, чтобы придумать самостоятельно.
Мне интересно до какого момента будет продолжаться весь этот абсурд. Ну и я жду что благодаря этому активно будут развиваться i2p и mesh-сети, а может и что совсем новое появиться. Гонка вооружений всегда способствовала прогрессу. Только вот у государства ресурсов и рычагов давления больше, к сожалению.
Они достали уже всех (то есть вообще всех, геев до науки). Я думаю раньше.
Прогноз: или Навальный — мэр, или 93й год (или когда там под белым домом танки стояли?).
Склоняюсь ко второму варианту. Ага, я пессимист.
Он хотел, чтобы божественное ее око сжигало демонов адским пламенем, хотел воздать им террором за террор.
Так настал 93 год.

Виктор Гюго. Девяносто третий год.
Это не то, чего я хочу. Это то, к чему всё идёт.
UFO just landed and posted this here
Есть другие варианты кроме как развивать технические средства? Я очень скептически смотрю на петицию. Когда рассмотрят будет видно уже можем ли мы что-то сделать законными методами.
UFO just landed and posted this here
Наверняка можно сделать такое техническое средство, в которое они руки засунуть не смогут.
UFO just landed and posted this here
Ох, какие большие у этого устройства USB-портыыыы
Это сэндвич-порт.
легко решается, надо не «Service Temporarily Unavailable» им показывать, а заглушку-страницу с текстом «Здесь нет пиратского контента, пропаганды гомо- и педофилии, суицида и далее по списку»
Я давно такое предлагал. Предложил Пиратской партии этим заняться — их почему-то не заинтересовало.
Вот именно после того как они такое сделали на своем хостинге, я им предложил сделать список таких IP открытым. Что-бы и другие могли его использовать.
Я тоже про этот открытый список подумал. Желательно создаваемый сообществом, что-то типа вики-системы.
А для особо ленивых ещё и файликами скрипты с правилами для популярных фаерволов типа iptables/ipfw и тд.

Можно даже на гитхабе всё это держать.
В принципе, было-бы достаточно информации о пулах IP адресов, принадлежащих правительству и гос. организациям. Если знать откуда их взять — можно начать это делать и без поддержки пиратской партии.
Не-не-не, у нас эти идеи уже с прошлого года витают, кое-какие наработки в этом плане уже есть.
Ими заведует ChooJoy, просто у нас у всех многозадачность зашкаливает, рук не хватает, а государство подкидывает каждую неделю новые заботы. В перманентном цейтноте находится костяк деятельных людей в ППР.
Так что это очень перспективная идея и мы вполне можем вписаться со своими наработками в процесс.
Подозреваю что поиском неугодных сайтов могут (смогут) заниматься подрядные коммерческие компании. Их тоже нужно будет как-то идентифицировать и вносить в такой список.

Или ловушки для депутатов (и сопричастных) на сайтах делать? Заметная ссылка «здесь детское порно». Все IP, с которых заходили по этой ссылке — в бан. Зашедшим в первый раз — заглушка «детское порно убрано по распоряжению правительства», от греха.
Этого пула — мало, нужно централизация. Размещаем на своих ресурсах «php» с функцией ip2mail и неудобоваримым именем, сдаем этот url роскомнадзору, формируем блэклист и раздаем его, например, по DHT + добавляем заведомо «government»
Вот пора уже наверное сделать альтернативный «черный список», туда внести подсети всех **надзоров, правообладателей, и прочих борцов против интернета, ну и Милонова вычислить по ip =))
Постоянно обновлять его, а контент-генераторы смогли бы ежедневно делать свежую выгрузку и добавлять в фильтры на хостинге. Они нас — мы их, все честно =)
Аналогичная история с Electronic-government была у меня примерно год назад. Пришлось забанить 109.207.0.0/20.
Пожалуй тоже заблочил на своих серверах эти подсети. Нечего им там смотреть.
Кстати, почему реально нет такого сайта с обновляемыми списками ип-адресов всех этих «правительств» включая роскомнадзор и прочих?

Идею можно неплохо продвинуть, это действительно усложнит им блокировки.
Могу добавить дополнение для Вашей идеи.
Сделать страницу, указать её в robots.txt (заметил что они скачивают его и пытаются пройтись по всем указанным в нём адресам), при заходе на которую IP попадал в black-list и банился на файерволе.
Поисковики «ходят» по таким страницам, даже не смотря на то, что они прописаны в robots.txt. Мысль, правда, хорошая, просто надо сделать условие ещё более гибким и блочить не жёстко на всю жизнь, а на 1 час хотя бы. Это значительно уменьшит их скорость работы в отношении ваших ресурсов.
Хех. Ровно год назад хосты из этой /24 сканили наши внешние адреса на предмет tcp:80
При этом у нас веб-а своего отродясь не было, но домен свой есть, да.

Но это еще что. Работал я как-то в вузе в начале нулевых и однажды внешний адрес институтской транспарент-прокси просканали из сетки яндекса нехило (несколько раз по кругу все 65535 портов). Когда попытался выяснить, в чем же дело, ответ был примерно в том русле, что дескать подозрение на анонимный прокси, ряд поисковых запросов с вашего ip нарушил какую-то там политику поисковика. Надо было сохранить ту переписку для истории.
И кстать (глянул внимательней) — не только из этой (/24). Из других подсетей класса С, что показывает хуиз.

Вот например

109.207.1.108
gu.gas-u.ru

Авторизации просит.

HTTP/1.1 401 Unauthorized
Content-Length: 83
Content-Type: text/html
Server: Microsoft-IIS/6.0
WWW-Authenticate: NTLM
MicrosoftSharePointTeamServices: 12.0.0.6318
X-Powered-By: ASP.NET
Date: Tue, 27 Aug 2013 13:46:26 GMT
Connection: keep-alive
Гхм, прикольно. Из агрегированной статы залез в тектсовые логи — это были вообще обращения на RDP и MSSQL.
Так это молодые единоросы же.

Молодые единороссы начали сотрудничество с Роскомнадзором в феврале этого года, причем, по словам Гурьянова, за этот период в интернете была заблокирована 1701 единица противоправного контента. В конце июня молодежное крыло партии власти запустило специализированную программу-поисковик, которая самостоятельно (по заданным характеристикам и ключевым словам) находит сайты, содержащие противоправный контент.
Эх! Такие молодые, а уже такие единоросы.
Распилу все возрасты покорны.
А там уже от самого человека зависит — как глубоко в нем сидит внутренний единорос.
Получается, что
#iptables -A INPUT -s 109.207.13.0/24 -p tcp -j DROP

просто самый лучший вариант защитить свои сайты от подобного рода проверок? По крайней мере автоматических проверок.
автоматические проверки могут работать и по выдаче Яндекса или Гугла. Получается, надо и их банить. С другой стороны, если с контентом всё ОК, чего бояться?
Нагрузка. Может ресурсы сервака изначально не рассчитаны на большую популярность. Типа той же свалко орг. Ходит туда несколько сот человек и всё. Никаких аудиторий в десятки тысяч человек там нет.
Как тут пишут, запрос один раз в 2 секунды (или ползапроса в секунду) — это разве нагрузка?
Ко мне тоже сегодня утром зашли и за полчаса сделали 900 запросов. Потом сами перестали заходить. User agent: Mozilla/5.0 (compatible; SearchBot). Кстати, заходит уже с 18 июля.

JavaScript их робот не понимает, во всяком случае не использует для переходов между страницами. (Если бы использовал, были бы POST-запросы, а там только GET.) Впрочем, и без JavaScript он скачал немало, например почти все анкеты пользователей.
получается где-то запрос в 2 секунды?
Примерно так. В robots.txt интервал не был указан.
А в чем проблема? То, что на ваш сайт ломятся из правительственных адресов? То, что игнорируется robots.txt, что является логичным действием? Или у вас там с контентом не все хорошо?
С правительством не всё хорошо
Конкретно в данной ситуации проблема в том, что сервак автора ддосит робот электронного правительства, игнорируя robots.txt, но:

1. Автор разместил «пару сотен сайтов» на «одном сервере», при параллельном доступе к сайтам очевидно будет много запросов;
2. Автор не привёл никаких данных, подтверждающих нарушение правил для роботов — ни примера robots.txt хотя бы одного сайта, ни кусков access.log хотя бы одного сайта;
3. У двух комментаторов к топику робот из этой подсети качает страницы с задержкой не менее 2 секунд, даже если задержка явно не указана в robots.txt. Т.е. ддосом назвать это сложно.

Ну а вопрос: «Спрашивается, что им надо от моих сайтов?», по-видимому, риторический. Кто ж здесь на него ответит?
Тут скорее вопрос не в игнорировании robots.txt, т.к. это правило работает для поисковых систем, т.е. тех, которые индексированный контент возвращает в массы(да и как известно стандарты можно не соблюдать при желании). Понятное дело, что некая система анализа может его игнорировать, т.к. скрыть от глаз в robots.txt можно все что угодно, а это не отменяет самого анализа сайта. Техническая сторона тоже отпадает, т.к. наверняка там ещё боты поисковиков тусуются, а автор не говорит, что они так же валят его сайты. Хоть я и не админю «сотни сайтов», но частенько приходилось помогать давнему приятелю с его корпоративным сайтом, и я там не видел ДДОСов с этих адресов(хотя это назвать аргументом сложно).
Поэтому скорее всего вопрос не риторический, а политический и на него, судя по всему, уже ответили :-)
А ведь интереса ради, не надеясь ничего увидеть, решил проверить логи на своей страничке (абсолютно ничего особенного, небольшая утилитка, в день около сотни хитов), и что я вижу:
02.08.2013 22:43:30 — 109.207.13.22 — Mozilla/5.0 (compatible; SearchBot)
16.08.2013 06:41:44 — 109.207.13.132 — Mozilla/5.0 (compatible; SearchBot)
23.08.2013 08:33:44 — 109.207.13.43 — Mozilla/5.0 (compatible; SearchBot)
Глянул дальше августа, первое упомянание аж в марте:
21.03.2013 16:04:18 — 109.207.13.37 — Mozilla/5.0 (compatible; SearchBot)

У них вроде и планов на блокировку сайтов тогда не было?
наблюдаю массовый обход всех страниц сайта
с 109.207.13.14, 109.207.13.86 с юзерагентом «Mozilla/5.0 (compatible; SearchBot)»
может их по юзерагенту банить на нгиксе еще? правда толку от этого…
Кстати! А что мешает выдавать рекапчу на заход с такой подсети?
Вырубит начисто роботов и создаст минимальные неудобства легитимным пользователям.
Автор, приведи запросы из сети ЭП, приведи свой robot.txr

А то пока это выглядит как истерика на фоне вирусной активности в сети «Электронного правительства».
Кстати, а что если написать туда официальный запрос по поводу создания нагрузки на сервер, может ответят? В WHOIS есть же какие-то email адреса:
$ whois 109.207.13.1
...
abuse-mailbox:  ripe@rt.ru
...
Перед блокировкой госсайтов их нужно спрашивать о наличии ордера на обыск.
Посмотрел статистику по 24м сайтам на одном сервере. Все сайты используют ColudFlare

Запросов с 109.207.13"
$ grep «109.207.13» access.log | wc -l
28391

Общее количество запросов в логе:
$ cat access.log | wc -l
809603

Лог c 24/Nov/2013:06:27:53 по 27/Nov/2013:11:35:59
Итого 3,5% от общего количества запросов идет с 109.207.13.*

Максимальное количество запросов в минуту (сорри за адское выражение sed):
$ grep «109.207.13» access.log| cut -d " " -f4 |sed «s/[0123456789][0123456789]$//» |uniq -c | sort -g | tail -n15
88 [25/Nov/2013:00:54:
88 [25/Nov/2013:01:02:
88 [25/Nov/2013:01:03:
89 [25/Nov/2013:00:50:
89 [25/Nov/2013:00:57:
89 [25/Nov/2013:01:04:
89 [25/Nov/2013:01:07:
90 [25/Nov/2013:00:55:
90 [25/Nov/2013:00:58:
90 [25/Nov/2013:01:05:
91 [25/Nov/2013:00:56:
91 [25/Nov/2013:01:01:
91 [25/Nov/2013:01:06:
91 [25/Nov/2013:01:09:
93 [25/Nov/2013:01:08:

Максимум 93. Можно еще посчитать, сколько раз за три дня достигается интенсивность более 1го запроса в секунду, но уже лень… Вот думаю, банить их, или нет? Не будет ли негатива после этого? Бывало, что приходили запросы от фсб дать айпи автора того или комментария…
Sign up to leave a comment.

Articles