Как стать автором
Обновить

Комментарии 70

Смех смехом, а на 200 000 пользовательских обращений нап приходится обрабатывать 800 000 обращений от роботов и ботов.

А вообще суть вашей проблемы не представляется ясной.
Я не описываю случившееся как проблему — лично для меня трафик бесплатен. Речь о самом феномене — различиях в работе поисковых ботов, столь разительных…
Я имел в виду, что сходу не ясно, может у вас там есть что индексировать и яндекс просто этим лучше всех справляется
Совершенно не исключено. Это и хотелось бы выяснить…
а может он просто заблудился?
Проголодался =)
А зря смеетесь :-) «Заблудить» бота не так-то и сложно, у меня было. Достаточно заиметь циклические ссылки, которые бесконечно множатся в глубину, можно с одинаковым контентом (вобщем если кому интересно, могу подробнее). Так ли это, проверить легко, достаточно взглянуть на количество страниц в индексе поисковика по выбранному сайту.
Аэто только в последние месяцы? Может, после покупки Рамблера Гуглом, яндексовские боты стали более агрессивными? Чтоб уж точно не упустить пальму первенства?
Бегун != Рамблер;
Тише… забанят… :-)
Тогда забаньте его и всего делов. С одной стороны жалуются — сайт не индексируют или плохо индексируют, с другой стороны — слишком много индексирует. Честно говоря 5 Гб исходящего трафика для проекта в МЕСЯЦ — это капля в море (сужу по обычным проектам с 10К посетителей).
Также можно посоветовать разместить сайт, где трафик условно бесплатен при поддержке соотношений.
Ну, есть надежда, что сотрудники Яндекса обратят внимание на эту заметку и доходчиво объяснят, отчего у их робота такие аппетиты. А уж на основе их комментариев можно будет делать выводы — банить бота, или нет.
А писать им не пробовали?
Ссылку на пост отправил…
Вот, кто-то ждет каждого появления Яндекса на своем сайте и лезет позиции проверять ежечасно, а кто-то жалуется на это. (Но вообще 5 гигов — это, конечно, не хило)
Как-то возникала подобная ситуация, яндекс стал кушать до 600 Мбайт в день (точнее за ночь). Проблему вычислили достаточно быстро — множество различных адресов для практически одинакового контента. Как решение — для части адресов запретили индексацию, некоторые действия перевели на javascript. В итоге всё вернулось на круги своя.
Бала подобная проблема с IPB форумом. Там на страницу с темой можно попасть по 7 различным ссылкам :)

Меня тоже спас robots.txt.
а можно решение данной проблемы?
тоже форум ipb, тоже боты довольно таки много индексируют
а может кто то под видом яндексбота парсит ваш сайт? ))
Ага, и IP у него DNS-ится как spider3.yandex.ru:)
НЛО прилетело и опубликовало эту надпись здесь
Может фишинг?
Почти наверняка Яндекс качает какую-нибудь одну страничку миллион раз. И Google и Yandex это обычно просекают, но, видать, у вас что-то не сработало. Посмотрите в логи и выясните — откуда у вас вообще взялось такое количество «разных» страниц и нет ли где-нибудь ссылок на страницы типа http://yourdomain/forum/view.php? id=42&refresh=1219858995
Нет, весь трафик идет исключительно на /index.php…
Тогда может стоит выставить какое-нибудь кеширование главной? Начиная от HTTP-заголовков, заканчивая обычной статикой — а то ведь наверняка приходит бот на главную и каждый раз «новое узнаёт».
Кэшируется. Иначе друпал просто еле двигался бы :) Да еще с такой-то нагрузкой от ботов…
А там может часики с временем в милисекундах или скорость загрузки страницы?
Нет, ничего экстраординарно динамичного…
НЛО прилетело и опубликовало эту надпись здесь
Не понял?
Если Вы о webalizer, то он сам ничего не считает, а лишь обрабатывает логи вебсервера.
НЛО прилетело и опубликовало эту надпись здесь
Может, проблема была в awstats? Логи же не подделаешь…
НЛО прилетело и опубликовало эту надпись здесь
Двже боюсь представить, что будет, когда заблудится бот Гугла :)
Блин, «Даже»

Ну почему нельзя редактировать комментарии?
Хабр зависнит :) Очередно жесткий ддос будет, пока бота «за ручку» не выведут с сайта
Несколько моих сайтов хостер неожиданно отключил. На вопрос? «За что?» обнаружил в логах превышение допустимых нагрузок из за запросов поисковой машины яндекса.

Это стало двойным неприятным сюрпризом. Первое за то что яндекс дает нагрузку побольше чем все пользователи вместе взятое, а второе что хостер не ограничивает потолком возможного потребления ресурсов -а дает возможность превысить этот потолок и отключает за превышение (превышение процессорной нагрузки).

Хорошо еще, что через пару месяцев после неприятного случая хостер все таки добавил возможность не превышать установленный лимит
пол шестого утра уже — приношу извинения за огромное число ошибок в тексте )
У меня ситуация проще — свой выделенный сервер. Но это не означает что я не переживаю за его нагрузку :)
«кусок минеральной породы» — некорректное словосочетание.
Правильно: кусок горной породы, так как, по всей видимости, имеется ввиду камень.

Я, как учившийся на геологическом факультете, не мог это просто так оставить, уж извините за назойливость.
Спасибо, чрезвычайно познавательно — геология наше все :)
Яндекс решил подхватить аудиторию.
Попробуйте в robots.txt прописать директиву Crawl-delay (задержка между запросами паука).

Видел похожую проблему, где за месяц бот Яндекса 1300 раз искал favicon.ico на сайте, хоть нигде он не был указан. Вот так он вымагает у вебмастеров, чтобы они иконки выкладывали.

Пару дней назад словил 35к заходов яндекса в сумме на три сайта.
С месяц назад словил 78к заходов гугля, в сумме на три сайта.
На один сайт залезло 45к роботов и 10к человек, на другой 15к человек и 25к роботов.
И наверное второй сайт лучше :). Полезнее :)

Итак о чем я…
Красная линия показывает сколько БОТ заходит
Зеленая — сколько человек переходит с сайта
График строиться на основе тех данных которые юзера разрешили считать в сумме. 60% графика получается суммой пары сотен сайтов по 10 посещений в день :)
график Яндекса

график гугля

на главной www.scanlog.ru/ можно просто сводную статистику посмотреть.
Детальную дает только по прямым адрессам.

В общем тоже самое что и webalizer|aw_stats только онлайн :)
Если бы боты могли по рекламным баннерам щелкать, наверное никто уже и не жаловался бы на трафик: D
у меня рекордсменом по трафу является бот Yahoo, качающий с сайтов раза в 4 больше чем яндекс с google'ом
а яндекс с google'ом примерно поровну
Если бы боты перед тем как начать качать трафик умели регистрироваться на сайте, то владельцы стартапов тоже думаю не жаловались бы… :)
НЛО прилетело и опубликовало эту надпись здесь
Представляешь, сколько кармы было бы здесь у бота Яндекса? )))
Предлагаю заняться написанием таких ботов и торговать бототрафом :)
vbote.ru?
социальная сеть для ботов, anyone?
Изменение рейтинга комментов идет с помощью AJAX, без перезагрузки страницы, а значит цифру ставит java script. Undefined скрипт выдает, когда не определена переменная или ее тип. Причин может быть несколько- не до конца загрузился скрипт, произошел сбой при передаче данных с сервера в браузер и т.п. Обновите страницу и все должно прийти в норму.
Вот интересно, можно ли траффик, созаваемый ботами, монетизировать?
«ваш муж еврей?»
можно, но недолго — рынок сгниёт.
Не вопрос. Вся сложность — обменять валюту ботов на человеческие деньги:)
А ты что думал, у тебя не какая нибудь страничка васи пупкина… У тебя хабрахабр, это же дохрена страниц!
Сделайте sitemap. Там можно устанавливать периоды индексации для каждой страницы, например, раз в неделю.
Подробнее см. webmaster.yandex.ru
НЛО прилетело и опубликовало эту надпись здесь
Хм. А как с к-вом переходов с Яши? Если наблюдается резкий рост — я бы расширил канал, и тихо радовался :)
НЛО прилетело и опубликовало эту надпись здесь
Ресурс англоязычный — траф с яндекса не особо интересен…
НЛО прилетело и опубликовало эту надпись здесь
Проверьте, правильно ли выдает ваш iddex.php время содания документа и expired. Если у Вас страница меняется раз в секунду, то робот имеет основания раз в секунду ее и обновлять. Укажите роботу, как часто нужно заходить.
Яндекс. Искалось ВСЕ :)
«Бог Яндекса сошел с ума»

так и хочется перефразировать…
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории