Pull to refresh

Robots Exclusion Profile

Reading time1 min
Views499
Очень часто на странице, которую стоит индексировать, находится информация, которая для индексации не предназначена.

image

Это четвёртый результат по запросу «туда сюда» на хабре.

И не надо думать, что это относится только к навигации, которая повторяется на каждой странице. Наверное, почти никто не хочет, чтобы индексировались новостные потоки других сайтов, реклама, очень динамический контент («на сайте сейчас находятся…»). Кто-то отключил бы индексацию комментариев, а кому-нибудь захочется скрыть поисковикам содержание своих постов и оставить только заголовки.

В принципе, в семантическом вебе такой проблемы не будет; но у каждого из нас есть шанс не дожить до тех светлых времён.

Оказывается, решение уже давно существует: микроформат Robot Exclusion Profile.

Вот как это должно выглядеть:
<head profile=”http://example.org/xmdp/robots-profile#”>
...
<div class=”robots-noindex>There once was a man from Nantucket…</div>
<p>This page is not about <span class=”robots-noindex>pornography</span>.</p>

* This source code was highlighted with Source Code Highlighter.


Омрачает эту сказку только одно: насколько мне известно, на данный момент микроформат не принят окончательно и не поддерживается поисковыми системами.

Кто-нибудь, кто бывает на Google Developer Day или Яндекс Субботниках, спросите у разработчиков, не хотят ли включить хотя бы драфт в алгоритмы своего поисковика. :)

P.S. Если уже сейчас существует возможность исключать часть страницы из индекса, то расскажите, пожалуйста, о ней.

UPD: Про <noindex> я знаю. Но он нарушает стандарт и не воспринимается Google.
Tags:
Hubs:
+27
Comments40

Articles