Pull to refresh

Comments 95

идите учите матчасть, дорогой.
UFO just landed and posted this here
UFO just landed and posted this here
Для лучшего эффекта запрашивать не просто произвольные страницы, а делать поисковый запрос длиной в километр, начинающийся со слов «Почему наш сайти так нежно индексируют...» (простор для фантазии харбравчан). Думаю, при превышении, скажем, 100К requests per sec. ребята задумаются ;)
И запихнуть этот запрос в какой-нить 1-пиксельный гиф и вывесить на главную )
UFO just landed and posted this here
Мотороллер на Ваш ли? )
Напишите свой комментатор и комментируйте этот топик 1700 раз в секунду. Хабралюди вам в помощь.
Интересно, а кто-то из ЦА Хабра пользуется Рамблером?
Мы тоже так подумали, а потом посмотрели статистику и поняли, что не так и мало народу ходить на Хабр именно с Рамблера.
Которые вводят слово «хабр» и кликают по первой ссылке? :-)

PS
Если можно то ответьте на вопрос здесь а не в тем для вопросов вам. Откуда больше всего приходят(с яндекса, гугла и тп)? Некий Топ10.
1. google (258 515)
2. yandex (58 577)
3. live (463)
4. search (451)
5. yahoo (301)
6. msn (177)
7. altavista (8)

В скобках указано кол-во переходов за последние 30 дней (с 26.07 по 25.08).
В этом списке нет Рамблера. Google Analytics исключил Рамблер из отчета «Поисковые системы».
Жаль, что дедушка больше не с нами.
На сколько мне известно, Рамблера в статистике никогда и не было.
В общем, можно самому добавить любую поисковую система Nigma, GoGo, Mail.ru и т.д.
Вот статья на эту тему www.umade.ru/log/2007/02/209.html
UFO just landed and posted this here
В России DoS-атаки не запрещены законом
В зависимости от вашего адвоката и их прокурора ст.273 УК РФ вполне применима, а заодно и ст.274.
Хулиганство запрещено )
Я 2 месяца пытаюсь сайт в рамблер добавить — никак не хочет индексировать — вот так вот у одних чересчур, у других 0.
Напишите им в саппорт, возможно, что ваш сайт автоматически забанен. У меня так было, никак не мог понять почему он гад не ест ни одной страницы. Смущало то, что обычно поисковик кладет в индекс хоть сколько-то страниц и только потом уже может выкинуть. Оказывается в рамблере это теперь не так.

Если интересно, чуть подробнее описывал случай у себя в жж: urevic.livejournal.com/580.html
Рэмблер гарантированно индексирует те страницы, на которых стоит его счетчик. Если у вас его нет — попробуйте поставить на некоторое время.
Мне бы ваши проблемы…
*мечтательно смотрю в потолок
и зачем вам такие проблемы?=)
а, пригодятся:) мало ли, что я затею…
Я думаю, что лучше всего (если сервер на Linux) настроить limit, limit-burst у iptables на все подсетки рамблера.

могу согласиться с автором поста, рамблер в последнее время уж очень сильно начал гоняться за сайтами
например на мой сайт с рамблера каждый день идет от 500 до 700 хостов в сутки, мне столько трафика ни Яндекс, ни даже Гугль не дает — что очень печально.

Если Рамблер всё-токи оставит свой поиск, а не поставит Гугловский, я скорее буду рад, чем огорчусь — лучше хоть какое-то, но своё.
Заблокировать часть запросов, посмотреть что будет с индексом в Рамблере.
Хочется обойтись без блокировки, просто ограничить скорость. Я и не сомневаюсь, что мы это сделаем, просто у нас своя проблематика, в частности аренда Cisco Guard, это накладывает свои требования и порядок действий
Можно загнать весь траффик с подсетей Рамблера через ipfw в dummynet и резать там трубу до нужного кол-ва килобит в секунду. Запросов не уменьшится, но нагрузка упадет.
Недавно поисковые боты Яндекса ддосили мой сервер, ~50 запросов в секунду, саппорт ответил через полтора дня, к тому времени уже руками в фаере побанил любителей что-нибудь поЯндексировать :) Благо хоть извинились и сказали, что примут меры, мало того, через несколько дней прислали еще 1 письмо, опять извинились и сказали, что всё пофиксили и такого больше не повторится :)
Вот вот. Мой бедный форум на виртуалке вобще чуть не отключили из-за Яндекса, пришлось совсем индекс ему отключить.
яндекс понимает с некоторых пор Crawl-delay
Спасибо, попробую настроить роботс.
Может для рамблера отдавать кеш и раз в сутки его перестраивать?
Он слишком в широком диапазоне ходит, чтобы всё это держать в кеше
хмм может ограничить время хождения запросов? через простой шелл скрипт + иптаблы
т.е с 24 до 9 утра давать ходить например…
как-то не системно, потом он любит очень и ночью поднавалиться. Самый треш происходит в выходные, у всех поисковых систем становится какой-то буйный приступ
Очевидно, это чтобы в будни не прогружать каналы и серверы.
А забанить Рамблер до выяснения причин нельзя?
Уже банили на то время, пока занимались оптимизацией производительности. И, по сути дела, получается, что старались мы для рамблера, чтобы выдерживать эти самые 170 в секунду
Вот, а я думал он только меня так любит… Устав воевать с ним, я ограничил на фаерволе сервера лимит запросов для него. Nginx его держал легко, невзлюбил его mod_evasive, но так как этот модуль призван у меня лишь сигнализировать о возможных детских dos-атаках (при маштабной ddos- атаке от него толку нет вообще, скорее наооборот), то занесение рамблера в BL на 300 секунд отбивали у него охоту таким нахальным образом индексировать сайт ровно на сутки. Выдачу в нем не проверял, но рефералы идут с него, значит что-то он успевает все же проиндексировать
Да, у нас своя канитель, по этому не так всё просто выходит, как в случае, когда можно просто наложить ограничение на ip.

Обошлись ограничением скорости отдачи в nginx. 200 байт в секунду решают проблему
Меня так-же Гугл «полюбил», бан на iptables спас ситуацию
Гугл-то хоть robots поддерживает)
выскажу мысли:
Server: nginx/0.6.31
Date: Tue, 26 Aug 2008 18:19:58 GMT
Content-Type: text/html; charset=utf-8
Transfer-Encoding: chunked
Connection: close
X-Powered-By: PHP/5.2.4
Content-Encoding: gzip

— выдавать верные заголовки (Last-Modified, ETag) (заодно сделать пользователям приятное в виде заголовка Content-Length)?
— php обновить стоит
Есть такое решение nginx.

limit_zone one $binary_remote_addr 10m;



if($http_user_agent ~* «StackRambler») {
limit_conn one 1; # Пока не работает внутри if!
}

Будем решать другими способами
А что, у рамблера еще и поисковик есть?
170 запросов в секунду — то ведь цветочки.
вот когда будет 3-4 мегабита в секунду — тогда имеет смысл перекинуть днс на гугл, и пускай оно всё хоть обиндексируется.
> nginx в шаге от того, чтобы решить эту проблему

Забавное совпадение — автор nginx работает в рамблере :)
На него все надежды
И у него кроме решения проблемы с nginx как бы остается запасной вариант — исправить рамблер :-)
UFO just landed and posted this here
А глупый робот значит просто не заметит, этого редиректа и пойдёт досить рамблер, да? :-)
Наверное базу для нового поиска «улучшенного Гуглом» собирает :)
Это до вас еще GoGo не дошел. Вот где жесть.
Дошёл. К счастью, удалось найти общий язык со службой поддержки, подкрепив свои доводы журналом обращений.

Гого попался первый раз на том, что активно искал слово «google» в поиске, в то время, когда обращения к поиску были запрещены в robots.txt
Да забаньте вы его за несоблюдение robots.txt, пох кто этот рамблер купил. Это самый настоящий DoS.
10 000 посетителей в месяц
UFO just landed and posted this here
UFO just landed and posted this here
Etag, Last-Modified и Expires заголовки помогают
Кстати, на одном из наблюдаемых мной серверов рамблеровский бот, судя по логам, самый гуманный: спросит 5 страниц с интервалом в секунду и ждет минуту.
Ребята, повеселился я. Что сам топик, что комментарии к нему.
Из Рамблера клоуна сделали. По-хорошему постебались.
У нас есть проект Шахматный портал, так вот «внимание» со стороны роботов Yahoo тоже порой бывает очень даже накладным. Мы замечали по 170-200 роботов одновременно. У гугля поменьше аппетиты, но тоже порой на каждую html-страницу запускает отдельного робота
UFO just landed and posted this here
Рамблер как Россия… умом её не понять.
man iptables
ask google «iptables string»

как остановить
iptables -A INPUT -p tcp --dport 80 -m string --string 'rambler user agent uniq header' -j DROP

можно и падлу сделать и перенаправить весь их трафик на них самих
iptables -t nat -A PREROUTING -p tcp --dport 80 -m string --string 'rambler user agent uniq header' -j DNAT --to-destination $RAMBLER_IP:80

и пусть сами разбираются со своим ботом

а если не так жёстко, то вы же знаете блок адресов рамблера? дак ограничьте кол-во запросов в секунду от них
iptables -A INPUT -p tcp --dport 80 -s $RAMBLER_SRC_NETWORK -m limit --limit 10/sec

у вас админ не в курсе?!?!
Про рамблер, кстати. Смотрю так сегодня статистику, никого значит не трогаю. Дохожу до сайта, которым уже в принципе-то и не занимаюсь давно… И вижу такую картинку.
90% этих людей пришли с рамблера. Отмечу, что это не роботы, т.к. по людям есть разная статистика, да и вообще аналитикс подключается js.
Здравствуйте,

Мы сожалеем о том, что доставили вам неудобства.

Тем не менее, обращаю внимание на то, что у вас на одном ip-адресе находится более 25 000 хостов. Мы поддерживаем Crawl-delay и качаем не более некоего разумного количества документов с одного хоста в секунду и при этом не устанавливаем одновременного подключения к одному ip-адресу с нескольких наших адресов. Однако в данной вырожденной ситуации именно такое кол-во хостов привело к данной ситуации.

Кроме того, в связи с недавними изменениями вашего дизайна изменились практически все урлы документов, но наш робот перекачивал старые урлы и получал HTTP-ответ 302. Один такой ответ очень маленького размера, и nginx должен быстро с ними справляться.

Вариант решения данной проблемы — настроить ваши сервера на ограничение скорости отдачи конкретному user-agent. С нашей стороны повторения такой ситуации произойти не должно и активность робота постепенно сойдёт на нет, так как база урлов обновилась.

С уважением,
Дмитрий Федорук
Разработчик поискового отдела Рамблера
Здравствуйте, спасибо за вразумительный ответ.

Но 25 000 хостов это ведь не предел. Учёт фактических ip-адресов, с которых запрашиваются документы в данном случае не представляется лишним. Иначе дериктива Crawl-delay становится просто бессмысленной.
Ещё раз повторю — в один момент времени мы подключены к одному ip-адресу только однажды, в рамках одной сессии выкачки. За эту сессию мы выкачиваем, к примеру, максимум 5 документов с одного хоста. С вами ситуация такая — выкачали 5 документов с хоста a.habrahabr.ru, больше этот хост не трогаем некий промежуток времени, но в этой же сессии выкачали 5 документов с хоста a1.habrahabr.ru и так далее. Crawl-delay cмотрит на хост, а не на ip-адрес. Обработка ip-адреса — мысль хорошая, но никто не даст гарантии, что у данного хоста завтра не поменяется ip.

С такой же ситуацией (много хостов на одном ip) обычно сталкиваются фри-хостеры, но у них это затруднений не вызывает.
Это понятно, но, по сути дела, получается, что если брать не математический момент времени в виде бесконечно малой величины, а то, что все привыкли воспринимать умом — секунду, то получится несколько десятков соединений в секунду, что мало кто любит.

Некоторая недооценка действительности всё же имеет место.
14:26:51 — 150 обращений :-)

Продолжаете жечь

Мне кажется, ясно описана проблема и методы её решения. Дальше дело за вами.
За нами не заржавеет, будьте спокойны
на netradio.by мы вынуждены были забанить индексатор Рамбера, т.к. он запрашивал более 150 запросов в секунду, что вызывало громадную нагрузку на сервер, в то время выдерживающий лишь 100-130 =) Он просто складывался .)
А почему нельзя банально написать в nginx

if ($http_user_agent ~ «Rambler»){
set $limit_rate 100;
}
Можно. Всё же хотелось получить компетеных комментариев, что, собственно, и вышло в итоге.
Но тут не так всё просто, как хотелось бы: надо сначала убедиться, что весь ответ от бэкенда останется в буфере nginx, а тот сможет заниматься своими делами дальше. Занимать апачи медленной выдачей как-то не очень хочется
сразу не скажешь, время покажет
при ограничении в 1k проходит 150 запросов :-) Можно, конечно, меньше поставить, но мне кажется, что мы что-то не так понимаем.

Рамблер водит нас за нос :-)
Судя по всему, 200 байт в секунду — это наше всё, хотя, пока точно сказать не берусь
Наверное имеет смысл поставить такое ограничение на все поисковики… А еще лучше сделать обратное ограничение по известным user agents браузеров

if ($http_user_agent !~ «monit|HostTracker|Pingdom|MSIE||Yandex|Opera|Firefox|Safari|Konqueror|SymbianOS»){
set $limit_rate 200;
}
Не знаю, зачем всех обламывать по дурному примеру. Как-то доверие надо сохранить, всё же
UFO just landed and posted this here
с яндексом боролся так:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} yandex [NC]
RewriteRule .* /shit/huyandex.html [R]
Sign up to leave a comment.

Articles