Comments 95
Рамблер уже гугл, очень жаль (
-46
UFO just landed and posted this here
UFO just landed and posted this here
Для лучшего эффекта запрашивать не просто произвольные страницы, а делать поисковый запрос длиной в километр, начинающийся со слов «Почему наш сайти так нежно индексируют...» (простор для фантазии харбравчан). Думаю, при превышении, скажем, 100К requests per sec. ребята задумаются ;)
+6
UFO just landed and posted this here
Интересно, а кто-то из ЦА Хабра пользуется Рамблером?
+9
Мы тоже так подумали, а потом посмотрели статистику и поняли, что не так и мало народу ходить на Хабр именно с Рамблера.
+4
Которые вводят слово «хабр» и кликают по первой ссылке? :-)
PS
Если можно то ответьте на вопрос здесь а не в тем для вопросов вам. Откуда больше всего приходят(с яндекса, гугла и тп)? Некий Топ10.
PS
Если можно то ответьте на вопрос здесь а не в тем для вопросов вам. Откуда больше всего приходят(с яндекса, гугла и тп)? Некий Топ10.
+6
1. google (258 515)
2. yandex (58 577)
3. live (463)
4. search (451)
5. yahoo (301)
6. msn (177)
7. altavista (8)
В скобках указано кол-во переходов за последние 30 дней (с 26.07 по 25.08).
В этом списке нет Рамблера. Google Analytics исключил Рамблер из отчета «Поисковые системы».
Жаль, что дедушка больше не с нами.
2. yandex (58 577)
3. live (463)
4. search (451)
5. yahoo (301)
6. msn (177)
7. altavista (8)
В скобках указано кол-во переходов за последние 30 дней (с 26.07 по 25.08).
В этом списке нет Рамблера. Google Analytics исключил Рамблер из отчета «Поисковые системы».
Жаль, что дедушка больше не с нами.
+11
На сколько мне известно, Рамблера в статистике никогда и не было.
В общем, можно самому добавить любую поисковую система Nigma, GoGo, Mail.ru и т.д.
Вот статья на эту тему www.umade.ru/log/2007/02/209.html
В общем, можно самому добавить любую поисковую система Nigma, GoGo, Mail.ru и т.д.
Вот статья на эту тему www.umade.ru/log/2007/02/209.html
+2
Это какбэ намёк.
+3
UFO just landed and posted this here
Я 2 месяца пытаюсь сайт в рамблер добавить — никак не хочет индексировать — вот так вот у одних чересчур, у других 0.
+10
Напишите им в саппорт, возможно, что ваш сайт автоматически забанен. У меня так было, никак не мог понять почему он гад не ест ни одной страницы. Смущало то, что обычно поисковик кладет в индекс хоть сколько-то страниц и только потом уже может выкинуть. Оказывается в рамблере это теперь не так.
Если интересно, чуть подробнее описывал случай у себя в жж: urevic.livejournal.com/580.html
Если интересно, чуть подробнее описывал случай у себя в жж: urevic.livejournal.com/580.html
+3
Рэмблер гарантированно индексирует те страницы, на которых стоит его счетчик. Если у вас его нет — попробуйте поставить на некоторое время.
+1
Мне бы ваши проблемы…
*мечтательно смотрю в потолок
*мечтательно смотрю в потолок
+2
Я думаю, что лучше всего (если сервер на Linux) настроить limit, limit-burst у iptables на все подсетки рамблера.
+5
могу согласиться с автором поста, рамблер в последнее время уж очень сильно начал гоняться за сайтами
например на мой сайт с рамблера каждый день идет от 500 до 700 хостов в сутки, мне столько трафика ни Яндекс, ни даже Гугль не дает — что очень печально.
Если Рамблер всё-токи оставит свой поиск, а не поставит Гугловский, я скорее буду рад, чем огорчусь — лучше хоть какое-то, но своё.
например на мой сайт с рамблера каждый день идет от 500 до 700 хостов в сутки, мне столько трафика ни Яндекс, ни даже Гугль не дает — что очень печально.
Если Рамблер всё-токи оставит свой поиск, а не поставит Гугловский, я скорее буду рад, чем огорчусь — лучше хоть какое-то, но своё.
0
Заблокировать часть запросов, посмотреть что будет с индексом в Рамблере.
+3
Хочется обойтись без блокировки, просто ограничить скорость. Я и не сомневаюсь, что мы это сделаем, просто у нас своя проблематика, в частности аренда Cisco Guard, это накладывает свои требования и порядок действий
0
Недавно поисковые боты Яндекса ддосили мой сервер, ~50 запросов в секунду, саппорт ответил через полтора дня, к тому времени уже руками в фаере побанил любителей что-нибудь поЯндексировать :) Благо хоть извинились и сказали, что примут меры, мало того, через несколько дней прислали еще 1 письмо, опять извинились и сказали, что всё пофиксили и такого больше не повторится :)
+9
Может для рамблера отдавать кеш и раз в сутки его перестраивать?
+1
Он слишком в широком диапазоне ходит, чтобы всё это держать в кеше
0
хмм может ограничить время хождения запросов? через простой шелл скрипт + иптаблы
т.е с 24 до 9 утра давать ходить например…
т.е с 24 до 9 утра давать ходить например…
0
А забанить Рамблер до выяснения причин нельзя?
+6
Уже банили на то время, пока занимались оптимизацией производительности. И, по сути дела, получается, что старались мы для рамблера, чтобы выдерживать эти самые 170 в секунду
+1
Вот, а я думал он только меня так любит… Устав воевать с ним, я ограничил на фаерволе сервера лимит запросов для него. Nginx его держал легко, невзлюбил его mod_evasive, но так как этот модуль призван у меня лишь сигнализировать о возможных детских dos-атаках (при маштабной ddos- атаке от него толку нет вообще, скорее наооборот), то занесение рамблера в BL на 300 секунд отбивали у него охоту таким нахальным образом индексировать сайт ровно на сутки. Выдачу в нем не проверял, но рефералы идут с него, значит что-то он успевает все же проиндексировать
0
Меня так-же Гугл «полюбил», бан на iptables спас ситуацию
-3
выскажу мысли:
— выдавать верные заголовки (Last-Modified, ETag) (заодно сделать пользователям приятное в виде заголовка Content-Length)?
— php обновить стоит
Server: nginx/0.6.31
Date: Tue, 26 Aug 2008 18:19:58 GMT
Content-Type: text/html; charset=utf-8
Transfer-Encoding: chunked
Connection: close
X-Powered-By: PHP/5.2.4
Content-Encoding: gzip
— выдавать верные заголовки (Last-Modified, ETag) (заодно сделать пользователям приятное в виде заголовка Content-Length)?
— php обновить стоит
+9
А что, у рамблера еще и поисковик есть?
+44
Рамблероэффект :)
+11
170 запросов в секунду — то ведь цветочки.
вот когда будет 3-4 мегабита в секунду — тогда имеет смысл перекинуть днс на гугл, и пускай оно всё хоть обиндексируется.
вот когда будет 3-4 мегабита в секунду — тогда имеет смысл перекинуть днс на гугл, и пускай оно всё хоть обиндексируется.
-3
> nginx в шаге от того, чтобы решить эту проблему
Забавное совпадение — автор nginx работает в рамблере :)
Забавное совпадение — автор nginx работает в рамблере :)
+10
UFO just landed and posted this here
Наверное базу для нового поиска «улучшенного Гуглом» собирает :)
+1
Это до вас еще GoGo не дошел. Вот где жесть.
+3
Да забаньте вы его за несоблюдение robots.txt, пох кто этот рамблер купил. Это самый настоящий DoS.
+2
UFO just landed and posted this here
Etag, Last-Modified и Expires заголовки помогают
-2
Кстати, на одном из наблюдаемых мной серверов рамблеровский бот, судя по логам, самый гуманный: спросит 5 страниц с интервалом в секунду и ждет минуту.
0
Ребята, повеселился я. Что сам топик, что комментарии к нему.
Из Рамблера клоуна сделали. По-хорошему постебались.
Из Рамблера клоуна сделали. По-хорошему постебались.
-4
У нас есть проект Шахматный портал, так вот «внимание» со стороны роботов Yahoo тоже порой бывает очень даже накладным. Мы замечали по 170-200 роботов одновременно. У гугля поменьше аппетиты, но тоже порой на каждую html-страницу запускает отдельного робота
-7
Рамблер как Россия… умом её не понять.
+2
man iptables
ask google «iptables string»
как остановить
iptables -A INPUT -p tcp --dport 80 -m string --string 'rambler user agent uniq header' -j DROP
можно и падлу сделать и перенаправить весь их трафик на них самих
iptables -t nat -A PREROUTING -p tcp --dport 80 -m string --string 'rambler user agent uniq header' -j DNAT --to-destination $RAMBLER_IP:80
и пусть сами разбираются со своим ботом
а если не так жёстко, то вы же знаете блок адресов рамблера? дак ограничьте кол-во запросов в секунду от них
iptables -A INPUT -p tcp --dport 80 -s $RAMBLER_SRC_NETWORK -m limit --limit 10/sec
у вас админ не в курсе?!?!
ask google «iptables string»
как остановить
iptables -A INPUT -p tcp --dport 80 -m string --string 'rambler user agent uniq header' -j DROP
можно и падлу сделать и перенаправить весь их трафик на них самих
iptables -t nat -A PREROUTING -p tcp --dport 80 -m string --string 'rambler user agent uniq header' -j DNAT --to-destination $RAMBLER_IP:80
и пусть сами разбираются со своим ботом
а если не так жёстко, то вы же знаете блок адресов рамблера? дак ограничьте кол-во запросов в секунду от них
iptables -A INPUT -p tcp --dport 80 -s $RAMBLER_SRC_NETWORK -m limit --limit 10/sec
у вас админ не в курсе?!?!
+7
Про рамблер, кстати. Смотрю так сегодня статистику, никого значит не трогаю. Дохожу до сайта, которым уже в принципе-то и не занимаюсь давно… И вижу такую картинку.
90% этих людей пришли с рамблера. Отмечу, что это не роботы, т.к. по людям есть разная статистика, да и вообще аналитикс подключается js.
90% этих людей пришли с рамблера. Отмечу, что это не роботы, т.к. по людям есть разная статистика, да и вообще аналитикс подключается js.
0
Здравствуйте,
Мы сожалеем о том, что доставили вам неудобства.
Тем не менее, обращаю внимание на то, что у вас на одном ip-адресе находится более 25 000 хостов. Мы поддерживаем Crawl-delay и качаем не более некоего разумного количества документов с одного хоста в секунду и при этом не устанавливаем одновременного подключения к одному ip-адресу с нескольких наших адресов. Однако в данной вырожденной ситуации именно такое кол-во хостов привело к данной ситуации.
Кроме того, в связи с недавними изменениями вашего дизайна изменились практически все урлы документов, но наш робот перекачивал старые урлы и получал HTTP-ответ 302. Один такой ответ очень маленького размера, и nginx должен быстро с ними справляться.
Вариант решения данной проблемы — настроить ваши сервера на ограничение скорости отдачи конкретному user-agent. С нашей стороны повторения такой ситуации произойти не должно и активность робота постепенно сойдёт на нет, так как база урлов обновилась.
С уважением,
Дмитрий Федорук
Разработчик поискового отдела Рамблера
Мы сожалеем о том, что доставили вам неудобства.
Тем не менее, обращаю внимание на то, что у вас на одном ip-адресе находится более 25 000 хостов. Мы поддерживаем Crawl-delay и качаем не более некоего разумного количества документов с одного хоста в секунду и при этом не устанавливаем одновременного подключения к одному ip-адресу с нескольких наших адресов. Однако в данной вырожденной ситуации именно такое кол-во хостов привело к данной ситуации.
Кроме того, в связи с недавними изменениями вашего дизайна изменились практически все урлы документов, но наш робот перекачивал старые урлы и получал HTTP-ответ 302. Один такой ответ очень маленького размера, и nginx должен быстро с ними справляться.
Вариант решения данной проблемы — настроить ваши сервера на ограничение скорости отдачи конкретному user-agent. С нашей стороны повторения такой ситуации произойти не должно и активность робота постепенно сойдёт на нет, так как база урлов обновилась.
С уважением,
Дмитрий Федорук
Разработчик поискового отдела Рамблера
+15
Здравствуйте, спасибо за вразумительный ответ.
Но 25 000 хостов это ведь не предел. Учёт фактических ip-адресов, с которых запрашиваются документы в данном случае не представляется лишним. Иначе дериктива Crawl-delay становится просто бессмысленной.
Но 25 000 хостов это ведь не предел. Учёт фактических ip-адресов, с которых запрашиваются документы в данном случае не представляется лишним. Иначе дериктива Crawl-delay становится просто бессмысленной.
0
Ещё раз повторю — в один момент времени мы подключены к одному ip-адресу только однажды, в рамках одной сессии выкачки. За эту сессию мы выкачиваем, к примеру, максимум 5 документов с одного хоста. С вами ситуация такая — выкачали 5 документов с хоста a.habrahabr.ru, больше этот хост не трогаем некий промежуток времени, но в этой же сессии выкачали 5 документов с хоста a1.habrahabr.ru и так далее. Crawl-delay cмотрит на хост, а не на ip-адрес. Обработка ip-адреса — мысль хорошая, но никто не даст гарантии, что у данного хоста завтра не поменяется ip.
С такой же ситуацией (много хостов на одном ip) обычно сталкиваются фри-хостеры, но у них это затруднений не вызывает.
С такой же ситуацией (много хостов на одном ip) обычно сталкиваются фри-хостеры, но у них это затруднений не вызывает.
+1
Это понятно, но, по сути дела, получается, что если брать не математический момент времени в виде бесконечно малой величины, а то, что все привыкли воспринимать умом — секунду, то получится несколько десятков соединений в секунду, что мало кто любит.
Некоторая недооценка действительности всё же имеет место.
Некоторая недооценка действительности всё же имеет место.
0
14:26:51 — 150 обращений :-)
Продолжаете жечь
Продолжаете жечь
0
на netradio.by мы вынуждены были забанить индексатор Рамбера, т.к. он запрашивал более 150 запросов в секунду, что вызывало громадную нагрузку на сервер, в то время выдерживающий лишь 100-130 =) Он просто складывался .)
0
А почему нельзя банально написать в nginx
if ($http_user_agent ~ «Rambler»){
set $limit_rate 100;
}
if ($http_user_agent ~ «Rambler»){
set $limit_rate 100;
}
0
Можно. Всё же хотелось получить компетеных комментариев, что, собственно, и вышло в итоге.
0
Но тут не так всё просто, как хотелось бы: надо сначала убедиться, что весь ответ от бэкенда останется в буфере nginx, а тот сможет заниматься своими делами дальше. Занимать апачи медленной выдачей как-то не очень хочется
0
Останется в буфере, для этого nginx и нужен.
sysoev.ru/nginx/docs/http/ngx_http_proxy_module.html#proxy_buffering
sysoev.ru/nginx/docs/http/ngx_http_proxy_module.html#proxy_buffering
0
Помогло?
0
сразу не скажешь, время покажет
+2
Карма покажет )
-1
при ограничении в 1k проходит 150 запросов :-) Можно, конечно, меньше поставить, но мне кажется, что мы что-то не так понимаем.
Рамблер водит нас за нос :-)
Рамблер водит нас за нос :-)
0
Судя по всему, 200 байт в секунду — это наше всё, хотя, пока точно сказать не берусь
0
UFO just landed and posted this here
с яндексом боролся так:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} yandex [NC]
RewriteRule .* /shit/huyandex.html [R]
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} yandex [NC]
RewriteRule .* /shit/huyandex.html [R]
-2
Sign up to leave a comment.
Как остановить Рамблер?