Pull to refresh

Comments 9

А почему кравлер должен делать какую-то отсечку по таким страницам? С его точки зрения это самая обычная страница сайта, разрешенная к индексации. Я может что-то не уловил, но кравлер же не проводит же смысловой анализ, а что перед ним.
UFO just landed and posted this here
UFO just landed and posted this here
> новый сайт с 10к товаров
Типовой небольшой интернет-магазин

> никогда не поднимется
Это плохой, негодный пример того, как не надо делать интернет-магазины.
По сути, у паучков есть проверка по загруженности, и если появляются страницы, которые способны наплодить себе подобные в геометрической прогрессии, должна срабатывать отсечка по использованию ресурсов. Но соль в том, что до этого всегда всё было нормальны. Данный фильтр существует 3 года.
p.s. Как оказалось, чеснок протух, серебро окислилось. В общем, роботс не отсекает роботов от индексации. Всё закрыли через отдачу 404 ошибки ботам при обращении к адресу с вхождением filter.
Сталкивался с этой же самой проблемой.
Боты Яндекса настойчиво долбили по сайту с неистовой скоростью.

Техподдержка Яндекса ответила:
Да, этот робот принадлежит нам. Если Вы хотите снизить нагрузку на Ваш сервер, я рекомендую Вам разместить директиву Crawl-delay с соответствующим значением в файле robots.txt: yandex.ru/support/webmaster/controlling-robot/robots-txt.xml#crawl-delay.



После добавления директивы боты «подуспокоились»
кажется, проблема не в фильтре, а в постраничной навигации, судя по url из логов
/catalogue/kotli/?176&filter=1&fldX=0&page=8&page=6&show=10&page=111&show=50&page=1&page=23&show=30&page=26
Для таких каталогов Crawl-delay: обязательный параметр, другой момент что есть еще куча ботов, котом на него начхать.
Тот же Бинг майкрософта, управлять им можно только из их вебмастера, зато можно выбрать время для сканирования сайта и его интенсивность.
А еще есть кучка
$badBots=array(
	  "80legs"
	 ,"AhrefsBot"
	 ,"linkpad"
	 ,"megaindex"
	 ,"BLEXBot"
	 ,"bingbot"
);

Которым приходится принудительно отдавать 403
Sign up to leave a comment.

Articles