Pull to refresh

Google PageRank: Что мы знаем о нем?

Reading time7 min
Views10K
Original author: Smashing magazine
UPD. Статья уже переведена уважаемым Jenek и находится по адресу: designformasters.info/posts/google-page-rank

По просьбам здесь начал переводить статью "Google PageRank: What Do We Know About It?". Пока только то, что успел за вчерашний вечер. Если это кому-нибудь нужно продолжение — напишите, я переведу и выложу все остальное. Вычитка и замеченые ошибки приветствуются, т.к. специально переводить мне еще не приходилось. :)

Google PageRank: Что мы знаем о нем?


Его использует каждый, но почти никто не знает, как он в действительности работает. Google PageRank – это наверно один из важнейших алгоритмов, когда либо разрабатывавшихся в сети. Миллиарды существующих страниц и миллионы страниц появляющихся каждый день – поисковая выдача намного сложнее, чем вы себе представляете. PageRank – один из сотен факторов, которые учитывает Google, чтобы определить наилучший поисковый запрос, помогающий делать поиск простым и эффективным. Но как он на самом деле сделан? Как работает Google PageRank, какие факторы на него воздействуют, а какие нет? И что мы действительно знаем про PageRank?
В этой статье будут только голые факты.
Несколько недель мы производили интенсивные исследования и выбрали массу фактов и предположений о PageRank, которые похожи на действительность. Кроме того, мы собрали научные статьи, относящиеся к поисковой выдаче – таких, как предложения для лучших результатов поиска (например, PageRank, чувствительный к теме). Вы прочитаете про математическую составляющую PageRank, также как и про 16 полезных инструментов для работы с PageRank, которые вы можете использовать для анализа и слежения за вашими веб-проектами.


Кратко: как он работает?


  1. PageRank – один из многочисленных методов, которые использует Google для определения релевантности или важности страницы.
  2. Google интерпретирует ссылку со страницы А на страницу В как «голос» А за В. Он следит не только за объемом голосов, анализируются более сотни иных аспектов страницы, которая этот голос дает.
  3. PageRank базируется на входящих ссылках, но не только на их число – также имеют значение их релевантность и качество.
  4. PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn)). Это формула, которая считает PageRank.
  5. Не все ссылки имеют одинаковый «вес», когда это касается PR.
  6. Если у вас есть сайт с PR=8 и 1 ссылка с него на другую страницу, то она получит определенную добавку к своему PR. Но если у вас есть 100 ссылок на эту страницу, то каждая из них будет давать сотую часть этой добавки.
  7. Битые входящие ссылки не влияют на PR.
  8. При подсчете популярности учитывается возраст сайта, релевантность обратных ссылок и их длительность. При подсчете Page Rank — нет.
  9. При подсчете PR контент не учитывается.
  10. PageRank не определяется для всего сайта сразу, а для каждой страницы по отдельности.
  11. Каждая ссылка на ваш сайт важна для результата. Исключая забаненые сайты, которые исключаются из подсчета.
  12. PageRank не определяется от 1 до 10. Это число с плавающей точкой. Также, изначально значение PR немного больше 0.
  13. Каждый следующий уровень Page Rank достичь труднее с прогрессивной зависимостью. Мы полагаем, что он считается по логарифмической шкале.
  14. Google считает PR каждой страницы раз в несколько месяцев.
  15. Google пытается найти такие страницы, которые релевантны и «уважаемы» им одновременно.

Коротко: влияние на Google PageRank


  1. Частое обновление контента не означает автоматическое улучшение Page Rank.
  2. Высокий Page Rank не означает высокие позиции в результате поиска.
  3. Нахождение в каталогах DMOZ и Yahoo! не означает автоматическое улучшение Page Rank.
  4. Расположение сайта на доменах .edu или .gov не означает автоматическое улучшение Page Rank
  5. Вложенные каталоги не обязательно имеют более низкий Page Rank, чем корневые каталоги.
  6. Ссылки с Википедии не означают автоматическое улучшение PageRank (но страницы, которые используют ее материалы могут улучшить PR).
  7. Ссылки с атрибутом nofollow не помогают работе PageRank.
  8. Эффективные ссылки внутри сайта влияют на PageRank.
  9. Релевантные сайты с высоким рангом имеют преимущество при подсчете.
  10. Текст якоря ссылки часто намного более важен, чем просто ссылка на странице с высоким PR.
  11. Исходящие или входящие ссылки на качественные релевантные сайты имеют значение на PR.
  12. Множество ссылок в определенное место с одной страницы означают столько же, сколько одна ссылка на это же место с этой же страницы.
  13. Сайт может быть исключен (забанен) за ссылки на исключенные (забаненые) сайты.

1.1. Почему PageRank?


  • «PageRank – [только] один из методов, которые использует Google, чтобы определить релевантность или важность страницы.» [PageRank Explained Correctly]
  • «Google использует множество факторов ранжирования. Поэтому алгоритм PageRank может быть наиболее известным. PageRank выражается в двух вещах: 1. как много существует ссылок с других сайтов на данный; 2. качества этих сайтов. Ссылки с пяти или шести высококачественных сайтов (таких, как cnn.com, nytimes.com) будут означать больше, чем вдвое больше ссылок с менее известных сайтов.» [Google Librarian Central]
  • «PageRank – это только приблизительная оценка качества веб-страницы и ни в коем случае не мера ее тематической релевантности. Тематическая релевантность зависит от содержания ссылок и таких факторов, как соотносимость контента и ключевых слов, заголовка и т.п.» [PageRank: An Essay]

1.2. Как он работает?


  • Никто полностью не уверен. «Никто точно не знает, как в данный момент Google считает PR.» [Google PageRank Explained]
  • PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn)). «Эта формула показывает, каким образом вычисляется PageRank. Здесь ‘t1 — tn’ — это страницы, ссылающиеся на страницу А, ‘C’ — это количество исходящих ссылок на странице, а ‘d’ — регулирующий фактор, обычно равный 0.85.»
  • Мы можем записать проще: PageRank = 0.15 + 0.85 * («долю» каждой страницы, ссылающейся на данную). «Доля» равна PR'у ссылающейся страницы, деленному на количество исходящих с нее ссылок. A page “votes” an amount of PageRank onto each page that it links to. The amount of PageRank that it has to vote with is a little less than its own PageRank value (its own value * 0.85). This value is shared equally between all the pages that it links to.” [Google’s Page Rank]
  • Суть алгоритма Google PageRank в распределении собственного PR между исходящими ссылками. Если у вас есть страница с PR=8 и одна ссылка на другую страницу, то эта страница получит полный «вес» вашего PR. Но если у вас есть не одна, а сотня ссылок, то каждая ссылка будет иметь равную с остальными часть «веса» вашего PR (иначе говоря 1/100 его).» [The Importance of PageRank]
  • «Отсюда следует, что страница с PR=4 и пятью ссылками будет значить больше, чем страница с PR=8 и сотней ссылок. PageRank страницы, ссылающейся на вашу важен, но так же важно и количество ссылок на ней. Чем больше ссылок на странице, тем меньше «веса» PR несет каждая их них.» [Google’s Page Rank]
  • «PageRank [..] использует структуру ссылок как индивидуальный индикатор каждой страницы. Google интерпретирует ссылку со страницы А на страницу В как «голос» страницы А за страницу В. Google учитывает гораздо больше факторов, чем просто количество таких «голосов» или ссылок на страницу; он также анализирует страницу, от которой был получен «голос». Голоса от «важных» страниц значат намного больше, чем от остальных, и помогают другим страницам увеличить свой «вес». [Google: Technology]
  • «Не все ссылки «весят» одинаково, когда это касается PR. Т.о. «важные» страницы дают больше пользы для вашего PR, чем «менее важные» (по версии Google конечно). […] Сила распространения PR – это количество исходящих ссылок на «голосующей» странице. Т.о. Страница с PR=4 и одной ссылкой может дать больше веса, чем страница с PR=5 и сотней исходящих ссылок на ней. Типичным примером в данном случае может быть знаменитая страница-на-миллион-долларов (milliondollarhomepage). PR этой страницы равен 7, но сотни ссылок на ней дают очень мало веса страницам, на которые ссылаются.» [Google PageRank Explained]
  • Каждый следующий уровень PR намного сложнее достичь (в прогрессии). «PageRank считается с помощью логарифмов. Точно так же, в экспоненциальной зависимости, измеряются землетрясения по шкале Рихтера, т.е. за словом PageRank стоят математические вычисления. Требуется один шаг от PR=0, до PR=1, немного больше шагов от 1 до 3, намного больше до 4, еще больше до 5 и т.д.» [Google Page Rank FAQ]


[via einfach-persoehnlich]
  • «PageRank не определяет сайты целиком, а считает каждую страницу по отдельности. Далее, PageRank страницы А рекурсивно определяется рангами других страниц, ссылающихся на страницу А.» [The Page Rank algorithm]
  • «Google объединяет PageRank с тонкой технологией текстового поиска для того, чтобы найти одновременно важные и релевантные страницы для пользователя. Google анализирует все детали контента страницы (и контентов страниц, ссылающихся на данную) для того, чтобы добиться наилучших результатов поиска.» [What Is Google PageRank?]
  • «Google считает PR каждой страницы один раз в несколько месяцев (обновление PR). После того, как обновление завершено, все страницы получают от Google новый PR, который будет у них до тех пор, пока не придет время нового обновления. Ранг новых сайтов равен 0 до тех пор, пока не произойдет обновление и им не будет присвоен определенный уровень PR.» [Google PageRank Explained]
  • Значение PageRank не изменяется от 0 до 10. PageRank – это число с плавающей точкой. «Более точным будет считать PR числом с плавающей точкой. Конечно, наши внутренние вычисления PR имеют намного больше знаков, чем значение от 0-10, показанное на панели инструментов.” [Matt Cutts]
  • «Мы уверены, что их кривая подобна экспоненциальной, где каждый новый уровень труднее достичь, чем предыдущий. Я лично провел несколько исследований на эту тему и результатом стала экспоненциальная база, равная 4. Итак, PR=6 в 4 раза труднее достичь, чем PR=5. [..] Разница между верхней границей PR=6 и нижней границей PR=6 может быть в сотнях и тысячах ссылок.» [Top 10 Google Myths Revealed]
  • «Полагается, что PageRank считается по логарифмической шкале. Это значит, что разница между PR=4 и PR=5 приблизительно в 5-10 раз выше, чем разница между PR=3 и PR=4. Так, вероятно, что существует в 100 раз больше страниц с PR=2, чем с PR=4. Это значит, что если вы достигли PageRank равный 6 или выше, вы находитесь в рейтинге выше, чем 0.1% всех остальных сайтов.» [Importance of Google PageRank]
  • «PageRank базируется на входящих ссылках, но не просто на их количестве. Вместо этого, ваш PageRank зависит от «веса» входящих ссылок. Чтобы найти «вес» входящей ссылки, поделите PR страницы с этой ссылкой на общее количество ссылок на ней. Очень возможно получить PR равный 6 или 7 от малого количества входящих ссылок, обладающих достаточным весом.» [Top 10 Google Myths Revealed]
  • «Google пытается найти страницы, одновременно авторитетные и релевантные. Если две страницы имеют примерно одинаковый уровень авторитетности и соответствия информации поисковому запросу, то выбирается та страница, на которую ссылается больше авторитетных сайтов. Но, не смотря на это, мы часто повышаем в результатах поиска страницы с меньшим количеством ссылок или меньшим PR, если другие факторы показывают, что страница более релевантная. Для примера, страница, целиком посвященная гражданской войне, будет намного более полезна, чем статья, мимоходом ее упоминающая, но располагающаяся на таком авторитетном сайте, как Time.com.» [Google Librarian Central]
  • Ссылки не отдают свой PR кому-либо, они дают «голос». «Когда страница «голосует» своим значением PageRank за другие страницы, ее собственное значение PR не уменьшается. Собственный PR не раздается и не может закончиться в результате «голосований». Также, не существует передачи своего PR. Существует только «голосование», зависящее от PageRank каждой страницы.» [Page Rank Explained]
  • «Из материала «Анатомия крупных гипертекстовых поисковых систем» («The Anatomy of a Large-Scale Hypertextual Web Search Engine») мы знаем, что PageRank страницы – это число, получающееся в результате работы рекурсивного алгоритма, в котором страница получает общий PR каждой страницы, ссылающейся на данную.» [Google PageRank]
  • Робот Google не анализирует сайт мгновенно. «В большинстве случаев требуется два месячных обновления, чтобы все ссылки на ваш сайт были найдены, подсчитаны и показаны.» [Google FAQ]

 
Tags:
Hubs:
+22
Comments32

Articles