Pull to refresh

База Google достигла триллиона страниц

Reading time1 min
Views1.1K
База Google достигла знакового рубежа в триллион URL и продолжает расти в геометрической прогрессии.

В этом триллионе учтены только уникальные веб-страницы, после удаления всех дубликатов. Хотя поисковый робот зарегистрировал их все, но фактически не все они реально проиндексированы для полнотекстового поиска, потому что многие слишком похожи друг на друга, а другие содержат только служебную информацию.

Поисковик начал работу в 1998 году с 28 млн страниц в индексе, а к 2000 году база достигла 1 миллиарда. За последние восемь лет индекс вырос ещё в тысячу раз. Как сообщается в официальном блоге, даже разработчики Google не могли предположить такого стремительного роста количества информации веба. В настоящее время интернет прирастает на несколько миллиардов страниц в день.

Чтобы обрабатывать такие массивы данных, Google в последние годы значительно нарастил мощность своих дата-центров. Если десять лет назад одна рабочая станция в серверной стойке способна рассчитать граф PageRank для всего веба (26 млн страниц) за пару часов, и потом неделю поисковик работал без переиндексации, то сегодня Google обновляет индекс гораздо чаще. Связи между триллионом веб-страниц пересчитываются несколько раз в сутки.
Tags:
Hubs:
+19
Comments11

Articles