Как стать автором
Обновить

Комментарии 6

Интересно, а удаленные видео с Youtube они тоже хранят?
У сервиса есть собственный «паук», который регулярно обследует все доступные в сети сайты и сохраняет их на специализированных серверах. Чем популярнее веб-сайт, тем чаще робот копирует его содержимое. Если администратор ресурса не желает, чтобы информация сайта копировалась ботом, достаточно прописать запрет в файле robots.txt.

Это заблуждение.
Полно сайтов чьи страницы, тех же СМИ, отсутствуют в архиве, даже если прошли годы после публикации на сайте. Эти страницы попадают в архив когда пользователь указывает вручную занести в архив.
И да есть сайты, страницы которых нельзя даже в ручную занести в архив. Пример: https://web.archive.org/save/https://spacenews.com/ This URL has been excluded from the Wayback Machine.

Копия всего* интернета с дублированием информации… Поразительные объемы!
А сам сервис отличный, я как-то зашёл туда посмотреть свои комментарии на одном сайте в 2009 году. И они нашлись, восторгу не было предела!

… у «Архива» есть запасные мощности в Египте ...
Египетский «Архив» работает независимо от родительского, даже версия ядра и сайта всегда была более старая. К сожалению, во время последней из революций он ушёл в длительный offline, а после возрождения — многое из него куда-то потерялось… ;(
Интересно, а как насчёт легальности? Авторское право ведь никто не отменял.
Про хранение ничего не сказано о том, инкрементальное хранение или просто куча копий?
Вот есть куча версий одной страницы с изменениями — там один оригинал + данные изменений (как git делает) или же просто куча дублирования?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории