alizar Nov 8 2011 at 18:20

Общедоступный индекс веба (5 миллиардов веб-страниц)

1 min

3.7K

Search engines*Hadoop*

+58

Comments 39

frig Nov 8 2011 at 18:26

Просто подарок любителям сеток ГС и автоматической генерации контента. Контента… бери не хочу.

Claud Nov 8 2011 at 20:38

И чего они будут делать с этим? Проще парсить RSS для этого. А вот создать сервис для SEO-шников, чтобы смотреть беки это можно. Вот только таких сервисов уже есть пара штук и как я знаю базу они собирают сами: индексируют web своим пауком.

frig Nov 8 2011 at 20:43

Можно и RSS парсить. Там, где он есть, конечно. А тут громадные объемы наверняка не просто сырой а как-то структурированной информации. Причем с графом ссылок! Для генерации контента, имхо, очень вкусная должна быть основа.

И для мирного использования можно применять, конечно. Мне, правда, кроме скармливания этого потока какому-то подобию ИИ для обучения больше ничего сразу в голову не приходит.

UFO just landed and posted this here

abiruba Nov 8 2011 at 22:50

Анатоле улыбается, когда кто-то заморачивается сохранением интернета на диск. Лишние телодвижения.

AVGUR Nov 9 2011 at 10:26

Анатоле сохраняет в мозг, что бы лишний раз не шевелится? :-)

-1

chegor Nov 9 2011 at 11:48

Вообще то мозг Анатоле — это и есть интернет.

LORiO Nov 8 2011 at 19:50

Так и представляю картину, В метро В ларьке «Весь интернет на 1 dvd, без потерь качества»

Deranged Nov 9 2011 at 10:29

3 интернета в 1.

UFO just landed and posted this here

eZyatev Nov 9 2011 at 20:51

Gold Edition by Saduga!

-1

KirEv Nov 8 2011 at 19:56

> Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.
Интересно, каким образом? Не вижу закономерности.

Goder Nov 8 2011 at 19:58

Оффлайн-гугл. Качаешь себе 50 Тб данных и ищешь, что нужно, у себя на компьютере! %)

LORiO Nov 8 2011 at 20:00

только скорость поиска будет так себе)

KirEv Nov 8 2011 at 20:05

И качать больше года, при канале в 10мбит)

Harkonnen Nov 8 2011 at 22:46

гугла не выйдет. 50Тб весят урлы, а не контент

Goder Nov 8 2011 at 23:59

Вы всегда такой зануда?:)

Harkonnen Nov 9 2011 at 08:45

Просто люблю обламывать мысли о халяве :)

arty Nov 9 2011 at 00:20

50 ТБ / 5 миллиардов страниц = 10 000 байт на урл. Не верю.

-1

kAIST Nov 9 2011 at 03:39

А как же связи?

arty Nov 9 2011 at 12:23

10000 байт записи / ~100 байт на связь ≅ 100 связей у страницы. Не верю.

-1

crwin Nov 8 2011 at 19:59

Когда на торрентах?

frig Nov 8 2011 at 20:16

Кстати отличнейший способ распространения такого объема информации.

dmitriid Nov 8 2011 at 22:54

Если оно выложено на S3, то оно уже доступно в виде торрента.

undead_ekb Nov 9 2011 at 02:06

Что, что?

dmitriid Nov 9 2011 at 11:29

Охохох. Как на хабре любят минусовать…

aws.amazon.com/s3/faqs/#What_is_the_BitTorrent_TM_protocol_and_how_do_I_use_it_with_Amazon_S3

Правда, сейчас перечитал топик, они таки не полностью в открытый доступ выложили, жаль

SFx Nov 8 2011 at 21:51

пошел затариваться домашним поисковым кластером…

aNDREIQA Nov 8 2011 at 21:58

информация в сети генерируется очень быстрыми темпами, как их паук справляется с задачей получения актуальной информации?

kunfuzi Nov 8 2011 at 22:14

А что тут не понятно? Когда ему на пути встречается другой паук, он его пожирает, тем самым поглощая собранную информацию.

+38

diamant Nov 9 2011 at 00:15

Главное, чтобы ему не встретился паук Гугла.
Хотя, автор сервиса — работник Гугла, наверное гугловский паук примет его за своего.

SergeyNeiger Nov 9 2011 at 10:35

В конце останется только Один!
Борн ту би кинг оф зе Юнивёрс! (и музыка Queen из Горца)

RomanL Nov 8 2011 at 22:17

Интересно что там в этой базе с русским интернетом.

kunfuzi Nov 8 2011 at 22:36

не хочу показаться капитаном, но выше я уже ответил на этот вопрос, если им на своем пути, встречался например паук Яндекса, то там с русским должно быть все в порядке

dmitriid Nov 8 2011 at 22:55

Хороший датасет для тестирования вских GraphDB

Methos Nov 9 2011 at 01:19

Да кому нужна эта куча мусора?
Лучше бы хабр проиндексировали — этого достаточно =)

-1

UFO just landed and posted this here

Funcraft Nov 9 2011 at 11:30

Как показывает история, такой объём данных лишним не бывает.

sergtop Nov 9 2011 at 14:26

Лет 10 назад Гугл (тогда еще мало кому известный… да, были времена) присылал по почте 5 cd с данными пауков для участия в конкурсе по программированию каких-то алгоритмов… похоже опять конкурс только рассылать cd теперь накладнее

impass Nov 9 2011 at 22:06

теперь шкафчик с жёсткими дисками будет

Show the best of all time