Pull to refresh

Comments 58

Это смотря что спарсил:
если прогноз погоды — то норм,
если базу данных спецслужбы какой-нибудь — то за тобой придут, и отмазка что ты делал это «в личных, научных, образовательных целях» не прокатит.
Соцсети, доски объявлений, мессенджеры, магазины конкурентов и т.д. тоже, как бы, «норм» скрейпить, но реальность совершенно другая.
Я когда-то написал плагин для парсинга Хабра к своему Инструменту.

Он работает (извлекает все статьи/комменты, лингво-визуал 'анализ любого юзера, юзера с юзером).
Изучил соглашение, robots Хабра (про robots в статье нужно было упомянуть). Но так в свет и не выпустил пока по причине того, что не Хабр мне запрещает скрапить, а размытие ответственности, те кто моим плагином пользуется или + разработчик инструмента. Можно конечно в лицензии сканера прописать всякое, но 'размытие' едва ли станет четче, как и вывод без ответа в этой статье.

Ах, да, еще в конкурсах (развитие цифры/IT в РФ) черным по белому в ТЗ пишут, что в приоритете (одно из направлений) автоматически «скрапить» Рунет на предмет поиска экстремизма…

Про robots.txt — да, есть такая история, и когда заходит речь о правомерности парсинга, этот файл тоже пытаются использовать в качестве одного из аргументов «за» парсинг или «против» него. То есть если robots.txt разрешает доступ для роботов, то парсить как будто бы можно, а если запрещает, то как будто бы нет. Но с точки зрения закона (то есть ≈ как это всё будет рассматриваться в суде на основании норм права) статус robots.txt ещё более неясный, чем у пользовательского соглашения: с одной стороны, этот файл косвенно свидетельствует о каких-то намерениях владельца сайта, с другой стороны — он машиночитаемый, поэтому признать его «договором в письменной форме» будет довольно сложно (во всяком случае, сейчас). Кроме того, возникает другая сложность: что делать, если в пользовательском соглашении написано одно, а в robots.txt — другое? В общем, чтобы не влезать в эти дебри, в которых вообще ничего не понятно, я о robots.txt в статье писать не стал. Хотя, наверное, можно было упомянуть.
Про «размытие ответственности». Ну, в принципе отвечает тот, кто парсит. Разработчик — ну, разве что в очень гипотетическом случае уголовной ответственности по ст. 273 УК (где о создании вредоносных компьютерных программ, но, на мой взгляд, это надо о-о-очень постараться, чтобы подвести парсер под эту статью). И ещё есть один риск, правда, тоже довольно гипотетический — он вытекает из статьи 1299 ГК о технических средствах защиты авторских прав. Если предположить, что на Хабре используются какие-то технические средства защиты авторских прав, то можно (с большой натяжкой) сказать, что разработка парсера — это «изготовление… любой технологии… если в результате таких действий становится невозможным использование технических средств защиты авторских прав либо эти технические средства не могут обеспечить надлежащую защиту». Но это именно с большой натяжкой. То есть Хабр (или кто-то из авторов) должен реально поднапрячься, чтобы такое доказать, и скорее всего, не получится. Статья 1299 ГК больше про DRM и подобное.
Что касается парсинга Рунета на предмет экстремизма, то здесь в случае возникновения претензий будут, скорее всего, ссылаться на государственные интересы. В законе о персональных данных есть правило, что согласие не требуется, если обработка данных осуществляется для исполнения полномочий органов власти. В ГК (об интеллектуальных правах и пользовательских соглашениях) не нашёл напрямую ничего подобного (есть только свободное использование произведения для целей правоприменения, ст. 1278, но поиск экстремистского контента в «правоприменение» по этой статье не попадает), так что, скорее всего, тут «серая зона», в которую правообладатели просто не захотят лезть, чтобы не связываться лишний раз с органами, отвечающими за борьбу с экстремизмом.

Вы путаете мух с котлетами (не просто не отделяется, а натурально путаете).


Представим себе интернет-магазин, который «упал» на пять часов из-за нагрузки от парсера.

Т.е. дело не в парсинге, а в нагрузке. Если парсер не будет создавать нагрузку — то всё нормально.


Почему бы и нет: предположим, что доступ к некоторым страницам сайта запаролен, и парсер взламывает пароль.

Т.е. посадят не за парсинг, а за взлом пароля, что, согласитесь, далеко не одно и то же.


По остальным трём пунктам: опять-таки дело не в степени автоматизации извлечения данных, а в сути самих данных.

Смысл статьи в том, чтобы показать, на какие правовые «грабли» можно (случайно) наступить, если начать парсинг. Понятно, что сама по себе автоматизация ни к каким проблемам не приведёт: с юридической точки зрения вообще безразлично, будут ли данные собирать боты или кто-то наймёт 10 тысяч работников, которые будут делать то же самое. А далее возникают разного рода вопросы: а что, если ваш парсер создаёт нагрузку? а что, если вы попутно будете обходить блокировки или подбирать пароли? а что, если вы начнёте собирать ПД? — и так далее. Понятно, что в принципе таких вопросов вообще миллион («а что, если вы не заплатите разработчику, который написал парсер?»), но я собрал в статье те, которые более-менее традиционно относят к ИТ-праву и чаще всего рассматривают в научных и научно-практических статьях, касающихся парсинга.
Как я понял из статьи, то парсить можно.
Ни фига не понял насчет подвести сайт под определение базы данных. Я как бы не сайт рассматриваю, а файлы закешированные моим браузером на моем компьютере.
Каким боком тут владельцы сайта со своей базой данных? Если данные на странице открытые и публичные, не охраняются законами о гостайне, персональных данных и авторском праве.
А еще например гугл с яндексом кешируют страницы сайтов, технически, чтобы получить информацию даже на сайт заходить не надо, можно с кеша поисковиков собирать.
Скорее так: «Парсить можно, но…» — и дальше куча уточнений.
По поводу базы данных: сайт — база данных, файлы, закэшированные браузером, в любом случае уже были им скачаны с сайта = извлечены из базы данных, а извлекать материалы из базы данных без согласия изготовителя базы данных, по общему правилу, запрещено (хотя есть довольно большое исключение).
Если собирать из кэша поисковиков, то кэш поисковиков тоже можно рассматривать как базу данных, так что изготовитель базы данных поменяется (им станет владелец поисковика), но извлечение материалов из базы данных все равно присутствует.
Т.е. если запрещено извлекать из базы данных сайта, то смотреть сайт через браузер, по вашим словам, незаконно?
А вот есть такая штука, которая называется яндекс.советник. Так вот она извлекает информацию из кеша браузера, отсылает себе на сервер, там формирует на основе этих данных свои предложения и показывает пользователю на странице открытого сайта.
Так по вашим словам можно обычным пользовательским соглашением запретить деятельность этой штуки?
А вот судебная практика говорит об обратном и деятельность яндекс.советника считается очень даже законной, можете задать этот вопрос юристам яндекса.

И Вы еще привели пример с решением по Вконтакте и Дабл Дата, то насколько я знаю суд разрешил извлекать открытые данные с сайта Вконтакте. Последнее решение от 12 февраля было. Вот пруфы www.rbc.ru/technology_and_media/12/02/2021/60267e8f9a79474fbd968df3

Интересно кстати было бы почитать почему такое решение принято. И кстати Устанавливая себе Google Chrome, вы соглашаетесь распространять "общедоступную информацию", publicly-available factual возможно имеет другие интерпретации. Но вот инфа, которую выложил в соцсеть становится общедоступной, только если не защитить её приватностью.
What’s not covered
This license doesn’t affect your privacy rights — it’s only about your intellectual property rights
This license doesn’t cover these types of content:
publicly-available factual information that you provide, such as corrections to the address of a local business. That information doesn’t require a license because it’s considered common knowledge that everyone’s free to use.
feedback that you offer, such as suggestions to improve our services.

Смотреть через браузер законно, потому что просмотр попадает сразу под два исключения из прав изготовителя базы данных: 1) возможность извлекать материалы в целях, для которых база данных была предоставлена (если сайт — это база данных, то для просмотра через браузер она точно предоставляется); 2) возможность извлекать материалы в незначительном объёме (просмотр через браузер обычно затрагивает небольшую часть страниц сайта).
Кроме того, есть ещё вопрос с тем, что значит «извлечь материалы». Если извлечь = скопировать = воспроизведение по смыслу авторского права (хотя в случае с базами данных действуют смежные права), то временное копирование, связанное исключительно с каким-либо технологическим процессом и не имеющее самостоятельного значения, воспроизведением не считается. Поскольку при просмотре страниц через браузер копирование файлов с сервера на клиентское устройство происходит, грубо говоря, «в фоновом режиме», технологически необходимо для отображения страниц и не имеет самостоятельного значения (так как пользователю обычно все равно, что делает браузер, когда открывает страницу), то под определение «воспроизведения» такое копирование не попадает. Если же пользователь начинает целенаправленно сохранять скопированные с сайта файлы, то это уже является воспроизведением = извлечением (конечно, при условии, что аналогия между авторским правом и смежным правом здесь уместна).


В деле ВК против Дабл пока нет мотивированного решения суда первой инстанции, так что сложно сказать, что именно разрешил суд. Сейчас можно сказать только то, что суд отказал в иске. Это не означает автоматически, что суд разрешил извлекать открытые данные, потому что причин для отказа в иске бывает много. Если смотреть последний из опубликованных по данному делу судебных актов (постановление Суда по интеллектуальным правам), то из него можно сделать следующие выводы: 1) ВК доказал наличие базы данных и свои права на неё; 2) ВК не смог доказать, что Дабл действительно извлекал материалы из базы данных. При этом «не смог доказать» — значит буквально не смог собрать достаточно подтверждений: сослался только на заявления представителей Дабл о том, что они как-то используют данные со страниц ВК, но более конкретно ничего не объяснил, то есть не доказал, что там есть программа, которая действительно делала запросы к серверам ВК, получала с них данные и сохраняла их. Поэтому не исключено, что в мотивированном решении суда первой инстанции теперь будет написано то же самое: ВК, вы не смогли доказать, что Дабл вас действительно парсил, поэтому в иске вам отказываем. Но в таком случае это будет не то же самое, что «разрешить извлекать открытые данные»: фактически суд просто скажет, что ВК его не убедил, а решать, как там было на самом деле, в таком случае не задача суда.


По Яндекс-советнику будет хорошо, если пришлёте ссылки на конкретные судебные акты — посмотрю.


В целом же история с базами данных при парсинге несколько сложнее, чем однозначное «запрещено / разрешено»:
1) неясно, применяются ли правила о базах данных к использованию сайтов вообще;
2) если применяются, то не каждый сайт можно назвать базой данных;
3) если конкретный сайт — это база данных, то есть исключения, которые разрешают его парсить;
4) даже если исключений нет, то ещё нужно доказать, что парсинг был.

Вы все больше и больше закручиваете интригу до состояния «закон, что дышло».

Разберите пожалуйста пример.
Кто-то собрал открытую информацию в базу данных (интернет магазин, товары и характеристики) и выставил ее у себя на сайте.
Сайт успешно проиндексирован поисковой системой и его копия теперь хранится в кэше поисковой системы.
Теперь, я беру и собираю информацию из кэша поисковой системы.
Данные не защищены авторскими правами, информация собрана не с сайта, но у меня уже по сути есть копия всех товаров из этого интернет-магазина.
Владельцу сайта очень неприятно, что я теперь буду плодить ему конкурентов.
Но что вы теперь скажете с правовой точки зрения, где я нарушил какой закон?
Вряд ли владелец сайта сможет предъявить к вам какие-либо претензии в данном случае.
Чисто теоретически до вас может «докопаться» поисковая система, но ей это, скорее всего, не нужно.
Так что в целом вы описали, на мой взгляд, довольно неплохой вариант обойти все «острые углы» и минимизировать риски лично для себя.
Остаётся ещё угроза того, что права на дизайн сайта и фотографии товаров принадлежат владельцу интернет-магазина, но если не копировать дизайн сайта и не брать фотографии (ну, или если говорить в терминах минимизации рисков — изменить фотографии так, чтобы по ним нельзя было определить источник), то эта угроза тоже нейтрализуется.
Я Вас умоляю. Дизайн сайтов никому не нужен, та еще ценность. Фото хранить еще накладнее, можно просто ссылки на фото.
Если самозанятый (физ.лицо) сделал сайт, разместил свои ПД в открытом доступе для коммерческой деятельности (в разделе Контакты) — не является ли это фактом того, что субьект ПД сам сделал данные общедоступными и тем самым дал кому угодно право их обрабатывать?!

Если буквально толковать поправки в закон о персональных данных, вступившие в силу 1 марта 2021 года, то получается именно так: факт того, что кто-то разместил ПД в открытом доступе, не значит вообще ничего. Все равно нужно согласие, причём даже не простое согласие на обработку ПД, а специальное «согласие на обработку персональных данных, разрешенных субъектом персональных данных для распространения». Вообще эти поправки в закон о ПД, насколько я понял, основаны на утверждении: мол, если человек разместил свои данные в открытом доступе, то ещё не факт, что он хочет их распространения и не факт, что он сам их разместил, поэтому нужно получить согласие. Звучит, на мой взгляд, довольно странно, но формально действительно выходит такая вот странная ситуация: да, ПД размещены в открытом доступе, но нет, юридически они не общедоступные.

ох… звучит как легкий бред. Я написал запрос в РКН, и жду когда буду послан нахер :)
Почему бы и нет: предположим, что доступ к некоторым страницам сайта запаролен, и парсер взламывает пароль.
По моему, парсеры таким не занимаются, и такое ПО по другому называется, и к самому парсингу это никакого отношения не имеет.

Парсинг запретить не реально, от слова — совсем. Ведь Google, Yandex и другие поисковики как раз таки парсят сайты, хранят у себя данные из них, анализируют эти данные и т.д.

Взлом пароля — это заведомо «преувеличенный» пример, так что согласен, что парсеры таким вряд ли занимаются. Реальный пример, который мне известен, примерно такой: на сайте был закрытый раздел, но доступ к нему можно было получить простым перебором id страниц. Парсер ходил-ходил по сайту, дошёл до закрытого раздела, спокойно зашёл в него и всё скачал, а дальше возник вопрос: это не взлом?
В целом да: Яндекс, Гугль и другие поисковики — это первый аргумент, который приходит в голову, когда думаешь о том, законен ли парсинг и могут ли даже чисто гипотетически его запретить. И вроде бы получается, что не могут, конечно… Однако поправки в закон о персональных данных уже заставляют меня сомневаться: по сути они запретили парсить и Яндексу с Гуглом — во всяком случае, если на странице есть персональные данные. Как они теперь будут выкручиваться, не знаю.

Так браузер же тоже «парсинг» по сути.
Протокол специально разработан открытым чтобы его было удобно парсить, смотреть внутрь и т.п.
Поисковики тоже «парсят».

То есть владелец инфы по сути хочет чтобы одни парсеры работали а другие нет, он не хочет запретить парсинг в принципе.
Если бы владелец инфы.
Я вот все выяснить пытаюсь, но не разъясняет автор. Если кто-то собрал открытую информацию себе в базу и выставил ее для браузеров, то собирать ее почему нельзя?

Вот интернет-магазин с товарами, мне нельзя собирать названия товаров, свойства и характеристики?
А как же статья 495 ГК РФ?
Тогда это можно уточнить.

Владельцы сайтов хотят монопольно предоставлять информацию. Сам парсинг, чтение и сохранение этому никак не мешают, а вот публикация в общий доступ очень даже мешает.

Поисковики со своим парсингом предлагают стратегию win-win, когда выигрывают оба — они публикуют информацию, но не в полном объеме, заставляя пользователя посещать источник информации.
Но если допустим поисковик предоставляет слишком много информации, когда у посетителя отпадает надобность в посещении источника то очевидно владельцы сайтов становятся недовольны (что мы периодически наблюдаем с новостными сайтами и агрегаторами новостей)
Погодите. Опять возвращаемся на круг. Там выше zenitchik оставил комментарий.
опять-таки дело не в степени автоматизации извлечения данных, а в сути самих данных.


Дело не в том что парсить нельзя, а в том, что есть еще какие-то права на данные у владельца сайта. А если таких прав нет, как в моем примере с информацией по товарам, то запреты лицензионных соглашений всего лишь чьи-то хотелки ничем не подкрепленные с правовой стороны.

Если кто-то собрал открытую информацию в базу, то у него появляется смежное право на базу, и только он сам теперь решает, кто и что может делать с информацией из его базы. Если кого-то это не устраивает, то он может собрать свою базу из той же самой открытой информации.


Статья 495 ГК говорит об обязанности продавца предоставить информацию. Предоставить — значит дать возможность ознакомиться. Это не означает автоматически, что всю такую информацию можно скопировать себе (точнее, так: эта статья вообще ничего не говорит о копировании — она не запрещает его, но и не разрешает. Вопрос о возможности копирования будет решаться в соответствии с другими статьями).

Т.е. если кто-то собрал общедоступную информацию из открытых источников (считай других сайтов) и выставил у себя на сайте также открыто и бесплатно.
Теперь объясните на основании чего ему можно было так делать с другими сайтами, а с его сайтом проворачивать такой же фокус нельзя? У нас теперь право не общее для всех, а кто-то вдруг стал равнее?

Второй вопрос как доказывать что информация, которая содержится в нескольких источниках (на многих сайтах) была собрана именно с моего сайта, если ее собирают из кэша браузера? Предъявить в суде что кто-то заходил на мой сайт браузером?
По первому вопросу: никто не сказал, что другому человеку можно было так делать с другими сайтами. Вполне вероятно, что ему тоже так было делать нельзя.
По второму вопросу: а вот это действительно сложный момент. Ну, если бы доказывать какие-то обстоятельства в случае парсинга было бы легко, то, думаю, тем, кто парсит, жилось бы гораздо тяжелее, чем сейчас. Впрочем, сложность доказывания для ответа на вопрос «законно или нет» особого значения не имеет: если доказать коррупционные правонарушения сложно, то они не становятся от этого законными (но привлечь к ответственности без доказательств невозможно).
Вообще, конечно, если говорить о некотором более оптимальном регулировании, чем сейчас, то все эти факты — и то, что сложно доказать, откуда конкретно была взята информация, и то, что она вообще-то спокойно «перетекает» с сайта на сайт в рамках совершенно обычных и широко используемых технологий — нужно было бы как-то учесть и перестать рассуждать о парсинге в категориях авторских и смежных прав. Ну, или во всяком случае не цепляться за конкретные объекты, а говорить о потоке информации, объёме допустимого использования, накоплении массивов данных, риске их монопольного использования и защите конкуренции. В целом мне из того, что есть на данный момент, нравится точка зрения М. А. Рожковой: пользование сайтом ≠ использование базы данных, поэтому работают нормы об общедоступной информации. Однако эта точка зрения вряд ли является общепринятой, и боюсь, что она вряд ли найдёт своё отражение в законодательстве.
Да вот пугает риск монопольного использования. У нас же все хотят себе монополию сделать, чем развивать и улучшать. И ваша точка зрения иногда напрягает, особенно в отношении открытых данных. Присваивать права на открытые данные только на основании того что они содержатся у кого-то в базе.
А конкурирующие базы не могут появляться теперь? Прямо рай для монополистов.
Опять нам рассказывают что мы неправильно понимаем свободу и конституцию, но СЕЙЧАС НАМ РАССКАЖУТ.

Вопрос не в том, что кто-то неправильно понимает. Вопрос в том, что те, кто парсит, читают в Конституции статью о свободе информации и делают вывод, что всё ОК: можно парсить без ограничений. А те, кого парсят (то есть владельцы сайтов), читают в той же Конституции про «интеллектуальная собственность охраняется законом» (а там это тоже написано, только чуть дальше), и делают вывод, что для них тоже всё ОК: их никто парсить не будет, а если будут, то их можно забанить, засудить, а если совсем будут возмущаться, то и посадить. И дальше эти люди со своими пониманиями свободы сталкиваются, и приходится как-то выкручиваться. Ну, то есть условный Фейсбук понимает свободу и Конституцию примерно так: «Это мои данные, я их собрал, я с ними что хочу, то и делаю, а если кто-то встанет у меня на пути — раздавлю». И для него это тоже свобода, а то, что для других свобода — значит скачать все данные Фейсбука, его не устраивает. Так и возникает необходимость в ограничениях и для тех, и для других.

Считаю, что необходимо отстранить юристов, некомпетентных в сфере IT, от формирования законодательной базы. Нельзя повторить историю «Церковь против еретиков». только потому что «Церковь» и простой люд не понимает сути происходящего. Законы, касающиеся регулирования и защиты информации должны формировать специалисты из сферы IT, «Ведьмы» и «Еретики». Иначе будет как в средневековье — будут жечь «ведьм» — только за то, что они немного умнее инквизиторов и народа.

Довольно опасное предложение: если специалистами в сфере ИТ, формирующими законы, будут те, кто парсит сайты, то они, конечно, разрешат парсинг полностью и без каких-либо условий. Но если эти специалисты будут из Яндекса и Мэйл-ру (и любой другой крупной компании), то они с лёгкостью напишут такие законы, что лучше уж писали бы юристы, потому что им нет никакого смысла писать законы не в своих интересах. Вообще же, на мой взгляд, качество законов в сфере ИТ оставляет желать лучшего, равно как и их реализация. Но решить это механическим «пусть пишут айтишники» вряд ли получится.

Я когда работал в Yelp, гугловский бот генерировал примерно 20-30% всех запросов, тк данные быстро и часто менялись и они хотели иметь свежие результаты.
У вас действительно всё несколько в кучу. Давайте попробуем на пальцах. Вот есть два СМИ — бумажное и онлайн. Содержание идентичное. Я взял газету, ножничками вырезал нужные мне строчки и наклеил себе в журнал. И так из номера в номер. Это легально? Да (причём даже если эту газету я украл). Чем это отличается если я виртуальными ножничками с сайта ту же информацию к себе сложу? Могу даже распечатать и наклеить в тот же журнал.
Почему в случае онлайна должны применяться какие-то другие нормы?

Нужно различать действующее законодательство и некое гипотетическое «идеальное» законодательство. Вопрос о том, чем отличаются действия с одними и теми же объектами в реальном мире и в виртуальном и почему в их отношении действуют разные правила, как эти правила должны формироваться, какое регулирование является более справедливым — это вопросы из области теории и философии права, и там действительно можно привести пример с газетой, виртуальными ножницами и долго и утомительно спорить о том, какие правила есть сейчас и какие должны быть. Но я об «идеальном» законодательстве рассуждать не хочу. Что касается реального законодательства, действующего в настоящий момент, то тут всё максимально просто: в случае с бумажной газетой действует правило об исчерпании прав. Грубо говоря, если текст напечатали на листе бумаге, то с этим листом бумаги можно делать что угодно, не обращая внимание на права автора. Но «делать что угодно» можно именно с листом бумаги. С самим текстом по-прежнему можно делать только то, что разрешил автор. К сайтам правило об исчерпании прав не применяется, поэтому «виртуальные ножницы» не работают.

Но «делать что угодно» можно именно с листом бумаги.

Да пожалуйста, распечатал сайт на «листе бумаги». Дальше вы в курсе — ножницы, журнал. Так можно?
Сделал снимок экрана, распознал текст, записал в журнал. А так?
Распарсил кэш страницы на _собственном_ компьютере, а?
Да даже сохранил себе html (я так делаю на одном своём проекте) — замучаетесь доказывать, что это «копия сайта». Если вообще докажете, что это я, как вы как раз справедливо пишете.
В общем мне кажется, что вы очень сильно теоретизируете и/или совсем уж притягиваете за уши (сломанный при парсинге пароль).
Если вопрос в том, можно ли парсить, не особо опасаясь каких-либо неблагоприятных последствий для себя, то по большому счёту ответ: да, можно, и единственное, что обычно грозит — это бан. Потому что можно привести и множество контраргументов, и с доказыванием возникнут проблемы, и связываться с рядовым пользователем невыгодно.
Что касается вопросов о распечатке сайта, снимке экрана, кэше и сохранении html — всё рассуждение вокруг них строится на пп. 1 п. 2 ст. 1270 ГК. То есть если нужно понять: «А вот если сделать X, и если это X технически представляет собой копирование, то можно ли так делать?» — лучше всего открыть этот пункт статьи и применить его к каждому X. Иногда получаются довольно неожиданные выводы, но я и не говорю, что право интеллектуальной собственности хорошо адаптировано к современным информационным технологиям.
Что касается вопросов о распечатке сайта, снимке экрана, кэше и сохранении html — всё рассуждение вокруг них строится на пп. 1 п. 2 ст. 1270 ГК.

А вот тут вы уже ощутимо передёргиваете. Потому что парсят как правило информационную вкуснятину: цены-каталоги (парсинг сайтов конкурентов ооо, там такие бои местного масштаба идут), котировки, спортивные результаты, букмекеров, погоду и т.д и т.п., что объектом АП не является — вы же сами об этом пишете в статье, поэтому нет, не строится всё рассуждение вокруг них «на пп. 1 п. 2 ст. 1270 ГК». Иногда может строиться, но это будут вырожденные случаи, например, когда автор выкладывает произведение по главам (сейчас это модно), парсер это сразу забирает и подклеивает на условную флибусту — это да. Или фотки у модного фотографа утаскивает. Но повторюсь, это скорее частные случаи, чем общая практика.
Стоп-стоп, примеры были о «распечатать страницу сайта», «сделать скрин» и подобные. То есть в целом о странице сайта, которая, как сложное произведение, может являться объектом авторского права. Если говорить об отдельных фрагментах, имеющих чисто информационное значение, то с точки зрения авторского права к ним не прикопаться.
Т.е. опять возвращаемся не к парсингу, а к сути самих данных.
Данные защищенные АП, ПД, гостайной нельзя, а все остальное можно.
На самом деле этот закон изобрели совсем для других целей. Не там где вы ищите. Все это сделано для того чтобы на законных основаниях максимально затруднить сбор информации с различных государственных сайтов, таких как например Картотека Арбитражных Дел, или сайт налоговой, сайт кадастровой службы. Эти сайты зачастую позволяют собрать и выявить весьма интересные закономерности. Которые помимо того, что становится проще раскрыть, так можно еще и придать огласке. Этот закон никогда не будет работать в интересах участников рынка ИТ или граждан РФ.

Просто сейчас на всех гос сайтах появятся капчи с предложением решить дифференциальное уравнение или посчитать синус угла в 57 градусов в уме или что-то подобное. Вот основное назначение данного закона, а не то что государство заботится о наших персональных данных или что-то подобное.

Я и не говорил, что поправки в закон о персональных данных приняли в интересах заботы о гражданах… Статья на roem.ru, на которую я сослался, вообще, по-моему, написана довольно саркастически и явно не пытается похвалить Роскомнадзор с Государственной Думой.
Мысль, что данный закон в целом можно использовать и для того, чтобы затруднить сбор данных о конкретных людях, которые хотели бы избежать публичности, у меня тоже была. Точнее, я думаю, что здесь будет затруднён не столько сбор данных, сколько их использование: например, если какое-то СМИ сейчас напишет статью, используя персональные данные, полученные из открытых источников, то при необходимости к ним можно будет сразу же «пригласить» Роскомнадзор, который затребует у них согласие на обработку персональных данных. Такого согласия, естественно, не будет, а дальше штраф. После пары-тройки штрафов (особенно если они будут крупные) СМИ вряд ли захочет продолжать писать статьи на основе персональных данных, взятых из открытых источников.
Что касается КАДа, сайта налоговой или Росреестра — ну, тоже не исключено. Хотя, возможно, дело не в том, что прямо специально целились на эти сайты, а просто написали какой-то очередной запретительный закон широкого действия, который попутно затруднил сбор данных с гос. сайтов.

Вы правы как в своем посте так и в ответе на мой комментарий, просто в статье вы рассмотрели правовой аспект, а я пытался на это посмотреть с точки зрения власти, чем это может быть полезно, и мы с вами пришли к одному и тому же выводу, что в общем и целом просто государство в очередной раз защитило свои права за счет очередного витка уменьшения личной свободны граждан, ну и компаний конечно же действующих в рф.
>> например, если какое-то СМИ сейчас напишет статью, используя персональные данные, полученные из открытых источников
так там вроде есть нюанс а-ля «не запрещено в рамках исполнения профессиональной журналистской деятельности»…
журналистам в этом плане вообще многое разрешено…

Парсинг никогда законным особо и не был, авторские права и все такое.
А вот то, что теперь персональные данные юридически защищены это уже норм.

Написали такую простыню, хотя суть в следующем: парсинг происходит на стороне клиента, с точки зрения сервера это обычные клиентские запросы. Поэтому все что вы можете сделать плохого (если речь идёт о публичной инфе) — DoS сервера чрезмерным количеством таких запросов. Но в реальности в той стране вас могут посадить за что угодно, если вы не тем людям перейдете дорогу своим парсингом. Это и раньше возможно было, но теперь вот и закон есть, под который все можно подвести

А мне показалось, что кто-то уже собрал себе бигдата и делает на этом деньги. Только вот теперь надо законы так повернуть, чтобы конкурентов не появлялось.
Вот господин автор почву прощупывает, как под правовые основания закрепить монополию законодательно.
А мне показалось, что кто-то уже собрал себе бигдата и делает на этом деньги. Только вот теперь надо законы так повернуть, чтобы конкурентов не появлялось.

Естественно, все, кто оперируют большими объёмами данных, в этом и заинтересованы.
Вот господин автор почву прощупывает, как под правовые основания закрепить монополию законодательно.

Это вряд ли.
При парсинге контент копируется. С юридической точки зрения, копирование — это «воспроизведение» объекта интеллектуальных прав. Без разрешения автора оно запрещено.


контент копируется в кеш браузера. Значит как только зашел на сайт, так уже и преступник. :)
Или наоборот. Я скопировал ваш сайт в кеш. Храню информацию, значит оказываю услугу сайту, не создаю нагрузку, а услуги должны быть оплачены. Вывод — сайт мне еще и денег должен. :) :)
Вся проблема в том, что законы печатают люди, далекие от IT.
Кэширование с точки зрения закона рассматривается как исключение, поэтому воспроизведением не считается. То есть: копирование = воспроизведение, не считая кэширования.
По поводу оказания услуг, боюсь, потребовать деньги с сайта не получится: услуги должны быть оплачены, если это предусмотрено договором. Если кто-то скопировал что-то в кэш, то договора нет, поэтому правовых оснований для оплаты нет. Экономический смысл в том, чтобы кэширование как-то оплачивалось, возможно, есть, но тут уже нужно смотреть баланс выгод, которые получают владельцы сайта и владелец кэширующей системы.
Я не понял про деятельность сервисов по парсингу. На ком теперь лежит ответственность — на сервисе или на том, кто им пользуется? И если на сервисе, есть ли разница между тем, на сервере ли они парсятся или в браузере (или на компьютере) пользователя?
Артём Гавриченков в выступлении про DDOS-атаки рассказывал:
— Поисковый робот должен уважать robots.txt — если там записано делать не больше одного запроса в секунду, робот должен делать не больше одного запроса в секунду.
Google и Bing уважают robots.txt — делают не более одного запроса в секунду.
Microsoft тоже делает не более одного запроса в секунду… с одного сервера Microsoft.
* хохот в зале *
Я правильно понимаю, что вся эта простыня сводится к тому, что сам парсинг всегда законен, т.к. подразумевает такой же доступ к данным, какой есть у обычного пользователя.
Проблемы будут если:
— есть эффект DoS
— используются «средства преодоления защиты»
— имеет место неправомерное использование полученной информации

Т.е. единственная потенциальная проблема именно парсинга — повышенная нагрузка на ресурс.

Ну… тогда за последние 20 лет ничего в этой области не изменилось…
Вся эта простыня сводится к тому, что за 20 лет в этой области ничего не изменилось, и по-прежнему никто не может сказать точно, законен ли парсинг и при каких условиях. Поэтому юристам (как со стороны тех, кто парсит, так и со стороны владельцев сайтов) приходится в каждом конкретном случае выкручиваться, вспоминая огромную кучу разных законов и ссылаясь на них, а иногда и откровенно притягивая за уши.
Юристы тут выкручиваются не из-за законности парсинга, а из-за желания получить какой-то бенефит.
Sign up to leave a comment.

Articles