marks 24 апр 2017 в 17:23

Internet Archive будет сканировать сайты вне зависимости от настроек robots.txt

2 мин

16K

Лайфхаки для гиков

+23

Комментарии 68

Agel_Nash 24 апр 2017 в 17:37

Теперь некому будет отвечать за утечку персональных данных через Internet Archive. Жаль, далеко не все понимают, что прятать персональные данные через robots.txt это не выход…

grishkaa 24 апр 2017 в 20:23

Какая утечка, если эти «персональные данные» уже и так доступны всему интернету?

Agel_Nash 24 апр 2017 в 21:54

Ога, да. Смотрим сюда:

https://partsnb.ru/user/basket?id=17632

 <form action="https://money.yandex.ru/eshop.xml" method="post">
            <input name="shopId" value="117447" type="hidden"/>
            <input name="scid" value="64408" type="hidden"/>
            <input name="sum" value="605.00" type="hidden">
            <input name="customerNumber" value="Lavmotorz@mail.ru" type="hidden"/>
                        <input name="paymentType" value="AC" type="hidden"/>
                        <input name="orderNumber" value="17632" type="hidden"/>
            <input name="cps_email" value="Lavmotorz@mail.ru" type="hidden">
            <input name="cps_phone" value="+7(919)348-11-11" type="hidden">
            <input name="custName" value="Лавров Георгий Олегович" type="hidden"/> 
            <input name="custEmail" value="Lavmotorz@mail.ru" type="hidden"/> 
            <input name="custAddr" value="Челябинск Челябинск, академика королева, 14-54" type="hidden"/> 
            <input type="hidden" name="shopSuccessURL" value="https://partsnb.ru/payment-thanx">
            <input type="hidden" name="shopFailURL" value="https://partsnb.ru/payment-error">
            <input type="submit" value="Оплатить" style="padding:12px 24px;" />
        </form>

А затем в robots.txt

И таких сайтов тысячи. Через yandex/google и прочее их не найти, но зато Internet Archive оказывается в вашем распоряжении…

edogs 24 апр 2017 в 23:18

И каким образом интернет архив найдет эту ссылку?
Гугл понятно — по гугл аналитиксу, по панелькам и так далее.
Но интернет-архив декларирует именно браузинг.
Так что проблема именно с данным примером несколько надуманная.

Agel_Nash 25 апр 2017 в 02:20

И каким образом интернет архив найдет эту ссылку?

Да хотя бы из моего комментария. Гугл увидя эту ссылку и заглянув в robots.txt — ее просто проигнорирует. А интернет-архив пойдет дальше. Поэтому давайте не будем путать мягкое с теплым…

Ziptar 25 апр 2017 в 13:33

А может, всё таки, люди будут отучаться оставлять ценности за запертой дверью, в замочной скважине которой оставлен ключ от замка этой двери?
Какая может идти речь о сохранности персональных данных или о какой либо безопасности, если вся безопасность обеспечивается табличкой «пожалуйста, не заходите сюда и сюда, спасибо за понимание»?

edogs 26 апр 2017 в 01:40

Да хотя бы из моего комментария.

Политика вебархива — индексирование ресурса с главной страницы по внутренним линкам.
Поэтому на Вашу ссылку на левом ресурсе ему плевать. Это как бы его политика — такая же как раньше соблюдение роботса и теперь отказ от него.

Поэтому давайте не будем путать мягкое с теплым…

Например гугл с вебархивом.

skylevels 28 апр 2017 в 14:02

Только вчера наткнулся:
http://webcache.googleusercontent.com/search?q=cache:38y06wAJM0MJ:elpts.ru/node/69/webform-results/table%3Fresults%3D50%26sort%3Dasc%26order%3D%25D0%259E%25D1%2582%25D0%25BF%25D1%2580%25D0%25B0%25D0%25B2%25D0%25BB%25D0%25B5%25D0%25BD%25D0%25BE+&cd=2&hl=ru&ct=clnk&gl=ru
причем в этой анкете не последние

Agel_Nash 28 апр 2017 в 19:16

В robots.txt не запрещены эти страницы

НЛО прилетело и опубликовало эту надпись здесь

staker 24 апр 2017 в 18:00

Странное решение. Могли бы сохранять сам robots.txt и не удалять ранее сохранённый контент. Теперь веб мастера будут просто блокировать ненужный им Internet Archive по useragent.

andreymal 24 апр 2017 в 18:05

Наконец-то здравый смысл восторжествовал!

Старые сайты не вернут, с концами удаляли?

Вообще возможность запретить сохранять сайт в Wayback Machine хорошо бы оставить для совсем уж параноиков, но не так радикально, как это было раньше (а через явное прописывание какого-нибудь User-Agent: Wayback в robots.txt например)

hardegor 24 апр 2017 в 18:50

Хуже всего то, что когда робот Internet Archive видит в файле инструкцию по закрытию директории от индексации, он удаляет уже сохраненный контент для сайта, который раньше находился на этом домене.

Я правильно понимаю, что если robot.txt изменился, то уже скачанная информация в архиве удаляться не будет?
А то статья выглядит как-будто Internet Archive вообще будет игнорировать наличие robot.txt.

alan008 24 апр 2017 в 21:17

А он и будет просто его игнорировать, если я правильно понял.

edogs 24 апр 2017 в 23:25

Именно игнорировать.
we stopped referring to robots.txt files on U.S. government and military web sites for both crawling and displaying web pages

hardegor 25 апр 2017 в 09:47

Печалька. У меня сайт с большой базой файлов, каталог сканировать разрешено, а скачивание файлов ограничено robot.txt — т.е. отдать юзерам 300-400 файлов в день не проблема, а вот если начнет скачивать какой-нибудь crawler, то канал ляжет. Делать динамическую отдачу не очень-то хочется…

andreymal 25 апр 2017 в 10:24

Сабж — очень ленивый crawler, думаю он не создаст проблем

НЛО прилетело и опубликовало эту надпись здесь

seven_hh 24 апр 2017 в 19:24

Архив на то и архив чтобы создавать историю. Для меня это новость что архивариусу указывает какой-то robots.txt

Gendalph 25 апр 2017 в 04:13

Как бы robots.txt он на то и robots.txt чтобы указывать всем краулерам куда смотреть, а куда — нет. Чем бот Архива отличается от других ботов?

seven_hh 25 апр 2017 в 17:51

Это все равно что
1. говорить шпиону вот эти данные бери, а эти не трогай
2. вести исторические данные о ВОВ но при этом намеренно закрыть глаза на что-то важное
3. и последующие можно придумывать на свой вкус

Одно дело когда рекомендации robots.txt помогает игнорировать ненужные данные (мусор), другое дело когда намеренно упускается возможность сохранить ценный материал имеющий или будет иметь не только историческую ценность но и народное достояние

Gendalph 25 апр 2017 в 19:18

Пример из жизни:

Сайты на WordPress в определенной конфигурации прячут нутря в /wp/

Поєтому в robots.txt пишут

Disallow: /wp/

На дев-версии у нас стоит

Disallow: /

Теперь просто будем по UA закрывать доступ.

andreymal 25 апр 2017 в 22:53

Что такое «нутря» в данном случае? У меня пара рандомных вордпресс-сайтов по /wp/ выдаёт ошибку 404

Gendalph 25 апр 2017 в 23:23

Мы ставим WP используя Bedrock

Поэтому сайты видны как обычные сайты, но WP находится в директории '/wp/', соответственно для входа в админку надо идти по адресу /wp/admin

Barafu 24 апр 2017 в 19:48

За robots.txt важную информацию прячут дураки, а нормальные люди прячут там управляющие и технические страницы. Так и вижу: начинающий админ что-то криво настроил и спрятал за robots.txt. Пришёл бот и закольцевался в этой нетленке. Молодому админу пришёл счёт за трафик.

НЛО прилетело и опубликовало эту надпись здесь

Garbus 24 апр 2017 в 22:33

Хм, ни у кого не возникает ощущения, что всё это до того момента как они пару-тройку раз наступят на «любимую мозоль» правообладаелей? После чего вынуждены будут делить на тех кого пожно архивировать нормально, и тех кого по предварительному договору?

LSDtrip 25 апр 2017 в 02:19

А что могут предъявить то? Все сайты в интернете и их страницы, доступные без авторизация, являются публичной информацией доступной каждому, в том числе и боту. Файл robots.txt лишь рекомендация для бота, если бот не хочет рыть лишние объемы информации, но он вовсе не обязан придерживаться её. Если критические данные по какой-либо причине не должны оказаться в сети, то они должны быть отделены через air gap. Свободы должно быть максимально много для всех (для ботов тоже) и не только в инете.

Garbus 25 апр 2017 в 04:25

Ну для сравнения, некоторые здания фотографировать нельзя, владелец данное запрещает. Хотя ходить мимо, и смотреть можно. Так и тут — появиться возможность отсудить денежку, долго ждать не будут.

Deosis 25 апр 2017 в 07:57

Приведите пример.
Иначе можно штрафовать всех художников, прошедших мимо этого здания.

EnigMan 25 апр 2017 в 14:42

Насколько я помню, подсветка Эйфелевой башни является предметом авторского права, и распространять ее фото без лицензии ни-ни.

А по сути возможных претензий правообладателей — веб архив копирует и распространяет информацию. Т.е. правообладатели не против того, чтобы человек зашел на сайт и просмотрел лицензионный контент, но против, чтобы его распространял еще кто-либо.

Charg 25 апр 2017 в 09:25

Ну для сравнения, некоторые здания фотографировать нельзя, владелец данное запрещает.

И насколько юридически корректен такой запрет (и в какой, кстати, стране)? А то с таким успехом можно запретить с себя взимать налоги.

drcolombo 25 апр 2017 в 12:34

В Германии, при попытке фотографирования частного дома хозяин может выйти и попросить этого не делать, а также удалить уже снятый контент. Маловероятно, конечно, что он пойдет до суда, если Вы откажетесь, то полицию вызвать может запросто.
Также запрещена (именно запрещена) фотосъемка самих полицейских во время их работы.

EviGL 25 апр 2017 в 18:30

Забавно, это, видимо, тот случай, когда российские законы лучше немецких.
Интересно, какой смысл в запрете съёмки полиции?
В гугле нашёл пишут что это, мол, из-за права полицейского на приватную личную жизнь (в общественном месте при исполнении служебных обязанностей, ага).
Ну и, вроде как, не запрещена именно съёмка полицейских во время работы, а запрещена ровно так же как и съёмка кого угодно когда угодно. Или я не прав и есть какой-то смысл?

-1

edogs 26 апр 2017 в 01:47

какой смысл в запрете съёмки полиции?

Где-то это сложилось исторически, по разным причинам.
Где-то это направлено на защиту прав неискажения информации о работе полиции (видео с камер видонаблюдения — ок, а вот частная съемка обрезанная в самом интересном месте уже нет). Вполне достаточно съемок когда полицейского сначала битой избивают трое малолетних имбицилов за то что он увидел их за изнасилованием девочки из детского сада, а потом появляется видео как полицейский гонится за «несчастным ребенком» и вбрасывается в общество.
А где-то это связано с закрытостью информации о работе полиции, в основном это касается спец.подразделений. По той же причине закрывают методы их подготовки, инструктаж, не дают фотографировать стратегические объекты и т.д… Затрудняется незаметность получения информации для криминальных элементов.
В общем ситуации разные, где-то обоснованные, где-то нет, вот так сразу запрет съемок действий полиции назвать чем-то плохим нельзя.

При чем запрет по 2 варианту часто снимается в тех случаях, когда полицейских обязывают носить камеру для регистрации своих действий, т.к. тогда шансы на фейки резко уменьшаются.

LSDtrip 25 апр 2017 в 10:57

Почти все запреты на фотографию в общественных местах незаконны. Независимо от страны. Могут быть проблемы с фотографированием режимных объектов в некоторых странах типа Израиля, но они связаны с подозрением на шпионаж, а не нарушение авторских и прочих прав.

ksil 25 апр 2017 в 13:23

Еще может быть нарушение частной жизни (как в примере про Германию, видимо).

FSA 25 апр 2017 в 00:01

А в чём проблема не применять ограничения robot.txt для уже созданного архива? Берём текущий файл и создаём с этого момента копию по его правилам. Если они дропают весь сайт, то флаг в руки. на кой чёрт его сохранять. Нормальный сайт не будет так делать, да и старой информации там, скорее всего, уже нет.

Stiver 25 апр 2017 в 00:47

Инструкций, сохраненных в этом файле, слушаются почти все поисковики

По опыту последних лет скорее наоборот — почти все игнорируют. Помогает только фильтровать user agent и показывать им вручную ~~шиш~~ 403.

-1

hardegor 25 апр 2017 в 09:50

А меня на сайте постоянно пасутся разные поисковики — ни разу «за флажки не заходили».

НЛО прилетело и опубликовало эту надпись здесь

Alter2 25 апр 2017 в 08:30

Странное решение. Чтобы справиться с описанной проблемой, достаточно бы было отключить влияние robots.txt на прошлое: был документ доступен тогда-то — значит и в снимке сайта на указанную дату должен быть доступен. Зачем полностью игнорировать — непонятно. Хотя «приватности больше нет, смиритесь», наверняка какой-нибудь АНБ-аналог архива уже давно выкачивает и сохраняет все доступное содержимое, в том числе через не прикрытые общеизвестные уязвимости, под видом хакерской активности. Терабайты дешевеют, а информация дорожает.

EndUser 25 апр 2017 в 08:47

Можно точнее рассказать, что произошло, а) или б)?
а) архив отныне будет архивировать всё, невзирая.
б) при противоречии нового robots.txt с архивом архив отказывается стирать ранее архивированное.
Мне кажется, что б), но комментаторы имеют в виду а)

Tachyon 25 апр 2017 в 08:54

Стоп!

Другими словами, был сайт в базе Internet Archive,

И их ещё не забанили в России? странно, там же по любому есть архив какого-нибудь запрещённого сайта. Сожжём библиотеку из-за одного листа! Вперёд Роскомпозор! (сарказм, для тех кто не понял, а то наминусуют сейчас тут)

herr_kaizer 25 апр 2017 в 11:51

Давно уже забанили.

KorDen32 25 апр 2017 в 12:54

Еще в 15 году. Ну и так еще много

Temych 25 апр 2017 в 14:03

Угу.
Правда год назад все записи исключили из реестра.

НЛО прилетело и опубликовало эту надпись здесь

Ziptar 25 апр 2017 в 13:10

Поскольку Internet Archive — это не тот сервис, который каким-либо образом влияет на доходы сайтов с рекламы — этот шаг давно пора было сделать. Вопросы безопасности иррелевантны, т.к. никакой безопасности, обеспечиваемой robots.txt нет и быть не может.

herr_kaizer 25 апр 2017 в 15:55

Это вопрос банальной сетевой этики.

Ziptar 25 апр 2017 в 15:57

Персональные данные — это вопрос безопасности, а не сетевой этики.

l0ser140 26 апр 2017 в 05:00

Я имел дело с одним криво написанным каталогом интернет магазина. Когда по нему начинали ходить кравлеры, они индексировали сотни тысяч страниц (за счет использования фильтров каталога), генерируя сотни гигабайт кэша в сутки.
Одной регулярной в robot.txt вышло отучить их использовать фильтры.

Если какие-то кравлеры будут игнорировать предписания robot.txt, ну будут получать 403 по юзер-агенту.

Ziptar 26 апр 2017 в 06:53

Я имел дело с одним криво написанным каталогом интернет магазина.

Ключевое слово — криво.

Если какие-то кравлеры будут игнорировать предписания robot.txt, ну будут получать 403 по юзер-агенту.

Опять же, безопасность тут не при делах. Проверка юзер-агента как средство обеспечения безопасности — как robots.txt, то есть не имеет к безопасности никакого отношения.

Подчёркиваю, я говорю о безопасности, а не о способе, правилах и этике взаимодействия кравлеров и сайтов.

l0ser140 26 апр 2017 в 16:45

Так а при чем тут безопасность? robots.txt задуман был не для обеспечения безопасности, а для управления кравлерами.

А теперь получается, что владелец «легального» кравлера заявляет, что не собирается следовать стандарту. Что мгновенно переносит его в разряд «нелегальных» на один уровень со сканерами уязвимостей и т.д.

Ziptar 26 апр 2017 в 17:17

Скорее для взаимодействия с поисковыми краулерами. Логично, что владелец сайта хочет, что бы индексировался не весь контент, и логично, что поисковикам не нужно индексировать всякий мусор.

Проблема здесь в том, что механизм взаимодействия сайта с поисковиками владельцы сайтов расширили до взаимодействия с любыми краулерами вообще. Это неправильная позиция изначально.

Ziptar 26 апр 2017 в 17:21

~~Скорее для взаимодействия с поисковыми краулерами.~~

Скорее для взаимодействия с краулерами поисковиков.

Так точнее.

fukkit 28 апр 2017 в 14:02

Согласен.
Из серии «Нам плевать, что вы просите не ходить здесь и не фотографировать. Мы будем. Потому что можем и законом не запрещено.»

daggert 25 апр 2017 в 17:22

Вообще немного странно. У меня через robots.txt закрыты разделы статистики людей (никакой приватной инфы) и разного рода временные файлы. Получается при скане этот мусор будет попадать в архив? Зачем?

andreymal 25 апр 2017 в 17:58

Вот статистику как раз будет очень интересно отслеживать в зависимости от времени)

daggert 25 апр 2017 в 23:31

Поверьте — там не та статистика которая будет интересна кому-либо кроме своих десктопных приложений. А файлы еще xml — они точно в индекс попадут… По итогу будут лежать и впустую занимать место архива. Мне, как архивисту, это не очень понятно.

DistortNeo 25 апр 2017 в 17:44

Больше всего раздражает, когда после изменения robots.txt перестают быть доступными старые, уже скачанные страницы. Надеюсь, именно это они и исправили.

Darth_Biomech 26 апр 2017 в 01:54

Это не «эксперимент».
the Internet Wayback Machine изначально так и работал. Потом они включили это корявое «уважение» robots.txt, и в архиве стали полностью недоступными истории этак 70% сайтов, включая тот, который мне был очень нужен (один форум образца 2006 года, на котором я создавал тему которую был бы не прочь перечитать).

andreymal 26 апр 2017 в 08:13

Продублирую свой коммент сюда, чтоб новый народ увидел

Проверить прям щас не на чем, но у меня иногда прокатывало открытие страницы как ифрейма или как (внезапно) картинки, то есть если вместо
https://web.archive.org/web/ГГГГММДДЧЧММСС/http://example.org/
написать
https://web.archive.org/web/ГГГГММДДЧЧММССif_/http://example.org/
или
https://web.archive.org/web/ГГГГММДДЧЧММССim_/http://example.org/
, то веб-архив может показать страницу, игнорируя все эти robots.txt

edwardspec 28 апр 2017 в 13:48

Ну вот на сайте с MediaWiki на каждой странице есть ссылка «Редактировать», открывающая форму для редактирования.
Сама страница статическая и легко кэшируется (и отдаётся CDN или местным reverse proxy типа Varnish), а все хиты по ссылке «Редактировать» доходят до вызова PHP.

Соответственно, в robots.txt прописывают URL страницы редактирования, и краулеры там без надобности не бегают. А игнорируя robots.txt, они будут напарываться на throttling в fail2ban.

ppl2scripts 28 апр 2017 в 14:02

if ($http_user_agent ~ (archive.org_bot)) {
return 403;
}

Protagores 28 апр 2017 в 14:02

А как же «ловушки» для спам-ботов?

Поясню — на некоторых сайтах присутствуют обработчики специального вида URL, содержащего что-то наподобие /guestbook. При этом на страницах имеются анкоры, запрятанные от пользователя, просматривающего его через браузер, но видимые для парсера такого спам-бота. При первом же GET-запросе на такой URL IP-адрес источника автоматически вносится в банлист, дабы таким образом прекратить дальнейшие пакости с его стороны. А для «хороших» индексирующих роботов явным образом указывается правило Disallow в robots.txt, что в случае с Internet Archive, полагаю, уже не поможет.

Конечно, есть ещё атрибут rel="nofollow", но он имеет свойство «отпугивать» и зловредов, которые в результате такую «ловушку» обходят стороной.

dimm_ddr 2 мая 2017 в 10:35

А что мешает спам ботам также читать robots.txt?

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Internet Archive будет сканировать сайты вне зависимости от настроек robots.txt

Комментарии 68

Другие новости

Истории