Pull to refresh

Опечатки приносят Google $500 млн в год

Reading time 2 min
Views 1.6K
Всё очень просто: так называемые тайпосквоттеры регистрируют домены с «опечатками», чтобы собирать случайный трафик, и размещают там контекстную рекламу, обычно Google AdWords. На конференции Financial Cryptography and Data Security специалисты из Гарварда обнародовали своё исследование (PDF), в котором попытались оценить объём рынка. Авторы также делают предположение, что Google оказывает техническую помощь домейнерам и делит с ними прибыль.

По их оценкам, в Сети присутствуют по меньшей мере 938 000 доменов, которые являются ошибочными вариантами написания 3264 крупнейших сайтов зоны .com (учитывались как минимум пятибуквенные). На каждый популярный сайт приходится в среднем 281 домен с опечатками. «Ошибочными» является около 1,16% всего интернета в зоне .com.

Немного о методологии исследования. Опечатки генерировались по модели Дамеро-Левенштейна, то есть каждая замена буквы, отсутствие буквы, лишняя буква или перемена букв местами считается, что новое слово находится от оригинала на дистанции в 1 шаг. Для исследования сгенерировали список доменов в двух шагах от оригиналов. Плюс были добавлены характерные сетевые опечатки (например, буквы www в начале названия каждого сайта и др.). Для 3264 крупнейших сайтов получилось 1 910 738 кандидатов. Затем была составлена случайная выборка из 2195 сайтов, которую исследователи проверили вручную, чтобы определить процент достоверности. По результатам проверки оценка количества тайпосквоттерских доменов было уменьшено до 937 918.

В рамках исследования был запущен краулер, который обошел 284 914 доменов из списка, предполагаемых как тайпосквоттерские. Оказалось, что на 80% доступных сайтов размещена контекстная реклама, а на остальных 20% стоит редирект.



Большой процент блокировки связан с тем, что на некоторых серверах хостятся десятки тысяч тайпосквоттерских доменов, так что доступ краулера был заблокирован в рамках обычной защиты от DDoS-атак. Абсолютное большинство из них потом нормально открываются с других IP-адресов. Что касается «неклассифицированных» доменов, то это, в основном, сайты с использованием JavaScript, которые краулер не умеет нормально обрабатывать.

Какая именно контекстная реклама размещается на доменах тайпосквоттеров? На 36% это контекстная реклама оригинального сайта с правильным написанием. Основная масса остального — это ссылки на его конкурентов.

Были также выявлены 1250 идентификаторов партнёрской программы Google, которые размещают рекламу на этих доменах. Идентификаторы можно увидеть в URL после параметра “client=”. Так вот, оказалось, что некоторые из этих идентификаторов встречаются чаще обычного.



Пять крупнейших партнёров Google покрывают 63% рынка, а топ-10 покрывают 76% рынка.

Среди партнерских программ самыми популярными являются Commission Junction (905 доменов из выборки) LinkShare (652) и Performics (Google Affliate Network, 290).

Что касается редиректа, то были выявлены 75 легитимных веб-сайтов, которые собирают трафик с тайпсквоттерских доменов. Например, сервис хостинга картинок Pict.com получает трафик со 128 доменов, где ошибочно написаны названия конкурентов. Или известное казино Bet365.com собирает трафик с доменов, где ошибочно написано название конкурента Sportsbook (saportsbook.com, sxportsbook.com и ещё 326 вариантов).

via New Scientist
Tags:
Hubs:
+26
Comments 16
Comments Comments 16

Articles