Pull to refresh

Comments 39

Просто подарок любителям сеток ГС и автоматической генерации контента. Контента… бери не хочу.
И чего они будут делать с этим? Проще парсить RSS для этого. А вот создать сервис для SEO-шников, чтобы смотреть беки это можно. Вот только таких сервисов уже есть пара штук и как я знаю базу они собирают сами: индексируют web своим пауком.
Можно и RSS парсить. Там, где он есть, конечно. А тут громадные объемы наверняка не просто сырой а как-то структурированной информации. Причем с графом ссылок! Для генерации контента, имхо, очень вкусная должна быть основа.

И для мирного использования можно применять, конечно. Мне, правда, кроме скармливания этого потока какому-то подобию ИИ для обучения больше ничего сразу в голову не приходит.
UFO just landed and posted this here
Анатоле улыбается, когда кто-то заморачивается сохранением интернета на диск. Лишние телодвижения.
Анатоле сохраняет в мозг, что бы лишний раз не шевелится? :-)
Вообще то мозг Анатоле — это и есть интернет.
Так и представляю картину, В метро В ларьке «Весь интернет на 1 dvd, без потерь качества»
UFO just landed and posted this here
> Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.
Интересно, каким образом? Не вижу закономерности.
Оффлайн-гугл. Качаешь себе 50 Тб данных и ищешь, что нужно, у себя на компьютере! %)
только скорость поиска будет так себе)
И качать больше года, при канале в 10мбит)
гугла не выйдет. 50Тб весят урлы, а не контент
Вы всегда такой зануда?:)
Просто люблю обламывать мысли о халяве :)
50 ТБ / 5 миллиардов страниц = 10 000 байт на урл. Не верю.
10000 байт записи / ~100 байт на связь ≅ 100 связей у страницы. Не верю.
Кстати отличнейший способ распространения такого объема информации.
Если оно выложено на S3, то оно уже доступно в виде торрента.
пошел затариваться домашним поисковым кластером…
информация в сети генерируется очень быстрыми темпами, как их паук справляется с задачей получения актуальной информации?
А что тут не понятно? Когда ему на пути встречается другой паук, он его пожирает, тем самым поглощая собранную информацию.
Главное, чтобы ему не встретился паук Гугла.
Хотя, автор сервиса — работник Гугла, наверное гугловский паук примет его за своего.
В конце останется только Один!
Борн ту би кинг оф зе Юнивёрс! (и музыка Queen из Горца)
Интересно что там в этой базе с русским интернетом.
не хочу показаться капитаном, но выше я уже ответил на этот вопрос, если им на своем пути, встречался например паук Яндекса, то там с русским должно быть все в порядке
Хороший датасет для тестирования вских GraphDB
Да кому нужна эта куча мусора?
Лучше бы хабр проиндексировали — этого достаточно =)
UFO just landed and posted this here
Как показывает история, такой объём данных лишним не бывает.
Лет 10 назад Гугл (тогда еще мало кому известный… да, были времена) присылал по почте 5 cd с данными пауков для участия в конкурсе по программированию каких-то алгоритмов… похоже опять конкурс только рассылать cd теперь накладнее
теперь шкафчик с жёсткими дисками будет
Sign up to leave a comment.

Articles