Pull to refresh

Как WEBO Рунет посчитало

Reading time 3 min
Views 644
WEBO Pulsar Не так давно мы закончили собирать базовые данные для рейтинга доступности популярных сайтов Рунета. Данные получились очень неожиданные, но самым интересным оказался подсчет потерянных посетителей как для одного конкретного сайта, так и для всех популярных сайтов сразу.

Забегая немного вперед, скажу, что ежедневно сайты теряют порядка миллиона посетителей. И примерно в половине случаев эти потери практически незаметны, потому что происходят либо из-за «плавающих» сбоев, либо из-за большого наплыва посетителей (и превышении времени ожидания ответа). Происходит это, к счастью, не так часто, но в финансовом плане эффект получается весьма ощутимым. Например, только avito.ru потерял за прошедшую неделю почти 140 тысяч посетителей.


Технология


Сеть серверов WEBO Pulsar сейчас включает 3 независимых точки (2 в Москве и 1 в Амстердаме), дополнительно каждую минуту проверяется ряд внешних точек, которые должны быть «всегда доступны». Только на основе этой информации делается вывод о недоступности какого-то конкретного ресурса.

Для составления рейтинга было выбрано несколько сотен сайтов с посещаемостью более миллиона человек в месяц, и для каждого из них раз в минуту проверяется возможность осуществления соединения (проще говоря: можно ли на сайт зайти из браузера, или же сайт ответит неправильно, с ошибкой или вообще не ответит). По накомпленным в течение недели данным и составляется сам рейтинг.

Реализация описанной технологии, конечно, не является тривиальной. Но самое интересное, на мой взгляд, заключается в сборе информации о посещаемости сайтов (для включения их в рейтинг и расчета потерь посетителей).

Посещаемость сайтов


Очень удобно, что примерно 2/3 сайтов использует статистику Liveinternet, в которой данные по посещениям за месяц открыты. Это существенно упростило задачу. Но что делать с оставшимися?

На помощь приходит Alexa, которая измеряет долю сайта в общемировом трафике. У нее есть распределение по странам и поддоменам, поэтому почти во всех случаях можно точно узнать, какая доля общемировых посетителей попала на интересующий сайт.

Только вот одна загвоздка: доля общемировых посетителей переводится в конкретное число, только если знать общее число пользователей Интернета (которых считает Alexa). И количество этих посетителей будет сильно варьироваться от стране к стране: т.е. из Штатов, например, обсчитывается половина пользователей, а из России — только 20%. Что же делать?

Здесь мы вспоминаем про пропорции и берем за основу данные Liveinternet. Построив две модели (для самых крупных и средне-крупных сайтов) мы можем, зная долю трафика Alexa, рассчитать примерное число пользователей веб-ресурса, для которого счетчик Liveinternet не установлен. Точность получается примерно 20%, чего вполне достаточно для проведения оценки и составления рейтинга.

Наиболее популярные веб-ресурсы Рунета выбирались на основе как самой статистики Liveinternet и рейтинга Alexa, так и рейтинга TNS. Комбинированные и перепроверенные данные позволили получить достаточно точную картину по популярным сайтам.

Для всех сайтов в рейтинге рассчитывается доступность (в терминах «девяток»), фактическое время простоя (в часах и минутах) и число посетителей, которые не смогли попасть на сайт. Зная доходность сайта (например, 25 или 50 копеек с одного посетителя), можно легко рассчитать убытки от его простоя. К сожалению, финансовая информация по доходам сайта является закрытой, в противном случае, мы бы автоматически подсчитали и убытки. :)

P.S. Сейчас рейтинг пересчитывается раз в сутки, охвачено порядка 150 топовых сайтов. Мы планируем довести это число до 250-300. По вопросам включения (или наличия) сайта в рейтинге можно писать нам на почту либо в комментариях к статье. Сейчас мы насчитали уже 1,3 млн. потерянных посетителей за неделю. С учетом охвата только 10-20%, получается озвученная выше цифра — миллион потерянных посетителей в день.
Tags:
Hubs:
+31
Comments 32
Comments Comments 32

Articles