marks 26 окт 2018 в 16:54

Справочная: “Архив Интернета” — история создания, миссия и дочерние проекты

6 мин

30K

Хранение данных*Облачные сервисы*

+32

Комментарии 6

NeoCode 26 окт 2018 в 21:18

Интересно, а удаленные видео с Youtube они тоже хранят?

pnetmon 26 окт 2018 в 21:28

У сервиса есть собственный «паук», который регулярно обследует все доступные в сети сайты и сохраняет их на специализированных серверах. Чем популярнее веб-сайт, тем чаще робот копирует его содержимое. Если администратор ресурса не желает, чтобы информация сайта копировалась ботом, достаточно прописать запрет в файле robots.txt.

Это заблуждение.
Полно сайтов чьи страницы, тех же СМИ, отсутствуют в архиве, даже если прошли годы после публикации на сайте. Эти страницы попадают в архив когда пользователь указывает вручную занести в архив.
И да есть сайты, страницы которых нельзя даже в ручную занести в архив. Пример: https://web.archive.org/save/https://spacenews.com/ This URL has been excluded from the Wayback Machine.

QtRoS 26 окт 2018 в 21:44

Копия всего* интернета с дублированием информации… Поразительные объемы!
А сам сервис отличный, я как-то зашёл туда посмотреть свои комментарии на одном сайте в 2009 году. И они нашлись, восторгу не было предела!

HSerg 26 окт 2018 в 23:53

… у «Архива» есть запасные мощности в Египте ...

Египетский «Архив» работает независимо от родительского, даже версия ядра и сайта всегда была более старая. К сожалению, во время последней из революций он ушёл в длительный offline, а после возрождения — многое из него куда-то потерялось… ;(

Eaglers 27 окт 2018 в 11:53

Интересно, а как насчёт легальности? Авторское право ведь никто не отменял.

DaneSoul 27 окт 2018 в 13:51

Про хранение ничего не сказано о том, инкрементальное хранение или просто куча копий?
Вот есть куча версий одной страницы с изменениями — там один оригинал + данные изменений (как git делает) или же просто куча дублирования?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Справочная: “Архив Интернета” — история создания, миссия и дочерние проекты

Комментарии 6

Публикации

Истории