Comments 206
просто забить и предоставлять бесплатное легковесное API
то, есть, дать возможность любому человеку создать легитимный клон сайта, и смириться с мыслью, что он может стать выше в поисковой выдаче, чем оригинал?
А так вопрос хватит ли у вас сил заниматься каждым сайтом в отдельности, или проще будет забить на парочку вредных?
И гугло-яндекс-боты соответственно понижали вас поисковой выдаче =)
И гугло-яндекс-боты соответственно понижали вас поисковой выдаче =)Да с чего бы вдруг? Вообще не вижу никакой связи. У нас был аналогичный и, по моему, единственный случай — набегал бот с User-Agent: WebIndex, создавал большую нагрузку и был заблокирован только из за этого. Остальных ботов это никак не коснулось, пусть сканят на здоровье.
Такой подход понятен, но вместо того чтобы блокировать более оптимальные пусть и более затратные способы это тротлинг или CDN+cache.
В первом случае говорим что мол из вашей сети подозрительные запросы — введите капчу
Во втором не паримся и просто ставим тот же Cloudflare
А если еще попробовать отдавать зип-бомбы ботам, станет совсем весело..
Главный вопрос остается — какие выгоды и стоимость такого решения для сайта?
Особенно порадуются пользователи которые будут видеть, то что предоставит им гугл, яндекс и тд на запрос об этом сайте )))
Суть предлагаемого метода как раз в том, чтобы для пользователя все было так же как и всегда, для сердств которыми бот парсит страницу всегда по разному. И такое парсится только если известен алгоритм формирования страницы, или как сказано выше — скриншот и распознавание.
SEO для интерфейса покупки билета? Вы собрались кешировать два килобайта текстовой информации?На киносеансах свет клином не сошелся. Как насчет фотоблогов, авторских статей и публичных интерфейсов баз данных? Боты бывают как плохие, так и вполне хорошие — поисковые. Как же специальная разметка для виджетов гугла и яндекса?
Аксесабилити тоже не причем, потому что для пользователя все будет так же как и в первый раз — визуальноКажется, мы это слово трактуем по-разному. Если юзер пользуется скринридером, ему ваш CSS ни о чем не скажет, будет такая же семантическа каша, как и для бота.
Если юзер пользуется скринридером,Видимо, слабовидящие для кинотеатра не так важны?
И еще раз:
На киносеансах свет клином не сошелся.
Это повлияет на пользователей. Слепые пользователи не смогут пользоваться сайтом, readability перестанет работать, копирование сломается, сайт перестанет находиться в поиске
Вся статья о том, что не существует гарантированно работающего алгоритма, который смог бы отличить бота от реального пользователя. Таким образом, у вас нет надежного способа понять, кому из зашедших отдавать "белый шум", а кому — нормальный контент. А вот у авторов ботов нет совершенно никакой проблемы сравнить выдачу, которую получает бот, с выдачей реальному пользователю (и, соответственно, есть ли некие меры противодействия или нет).
Вообще не могу понять этого: кинотеатру бесплатно предоставляют покупателей, а он пытается заблокировать деятельность агрегатора.
PhantomJS отвалился потому что хром теперь нативно умеет...
Л — логика.
А headless chrome умеет все то, что умеет PhantomJS? Насколько я знаю — пока не умеет.
Правильный вопрос не зачем, а почему. Потому что API удобное, а ещё легаси, которое нужно поддерживать.
А уж про то, насколько удобна связка CasperJS + SlimerJS я и не говорю.
Не потому что сама технология плоха, а только потому что есть нативный Chrome Headless.
Возможно, я предпочитаю Google Headless, т.к. через какое-то время разработка фантома прекратится.
Собственно не так уж важно какой движок запускать.
Очень аргументированная статья. Прямо руки опускаются. Но вот вопрос.
Сможет ли квалификация автора преодолеть наше изобретение
СПОСОБ ИНТЕРАКТИВНОГО ТЕЛЕВИДЕНИЯ, ИСПОЛЬЗУЮЩИЙ ФОВЕАЦИОННЫЕ СВОЙСТВА ГЛАЗ ИНДИВИДУАЛЬНЫХ И ГРУППОВЫХ ПОЛЬЗОВАТЕЛЕЙ И ЗАЩИЩАЮЩИЙ ВИДЕОИНФОРМАЦИЮ ОТ НЕСАНКЦИОНИРОВАННОГО ДОСТУПА, РАСПРОСТРАНЕНИЯ И ИСПОЛЬЗОВАНИЯ
Зарегистрированный в США. Патент 7950029
https://patents.google.com/patent/US7950029
и в России патент 2220514
http://www1.fips.ru/fips_servl/fips_servlet?DB=RUPAT&rn=1189&DocNumber=2220514&TypeFile=html
Может пора перейти на сторону защиты контента.
Мне кажется, недалёк тот день, когда авторы кино будут платить юзерами за просмотр их творений, просто чтобы рекламу показывать. Потому что уровень кино падает, к сожалению, просто пока «пипл хавает».
Но вы защищайте, никто не против.
Один смотрит с устройством, все остальные без.
Ну и дополнительное оборудование которое нужно маловероятно, что взлетит. Иначе можно к каждому просмотру фильма отсылать в помещение человека контроллера обязанность которого следить, что бы смотрело телевидение не больше народу чем уплачено.
Дальше чем определить блокировать/не блокировать Пк или еще чего-то такое не взлетит.
Конечно можно запускать hedaless chrome но это же крайне медленно и затратно по ресурсам?
Если мы говорим об умных ботах, то брать headless chrome — это вообще самый разумный шаг. Это несложно (ставишь puppeteer и вперёд) и такого бота очень сложно отличить от реального пользователя chrome даже через Javascript, а со стороны веб-сервера тем более. То, что скорость и затраты RAM намного хуже, чем у тупых парсеров DOM — это приемлимые издержки.
В скрипт можно добавить медленную утечку памяти и какое нибудь тяжелое вычисление, которое будет грузить процессор, например майним крипту, если юзер превысит порог активности. Если вы бот который использует селениум и аналоги, то определить вас уже можно на клиентской стороне, по линкам вы ходите, а мышкой не двигате и прям на клиенте можно начать водить вас за нос.
Но будущее защиты от ботов, которое не за горами, за машинным обучением и тогда перевес будет на стороне защищающихся. МО отлично подходит для выявления паттернов поведения, но совсем не подходит для поиска новых путей обхода защиты.
Да. И можно навскидку еще несколько витков накрутить. Поэтому “сопротивление бесполезно», это открытый вопрос. И победит не тот, кто взламывает и не тот, кто защищает, а тот настырней.
Хм. Не ставьте замки на двери вашей квартиры, домушник всё-равно вскроет любой.
Сдается мне, что здесь определяющим фактором является мотивация, а не инструмент.
Более того, не всегда скрапинг осуществляется ради копипаста. Бывает «тыренный» контент проходит обработку и уже полученные данные (например статистич. метрики) располагаются на сайте скрапера. Вы тоже это расцените как «тырить контент»? А гугл/яндекс получается тоже контент тырят?
Мне видится разница между тырить авторский контент (статьи, видео, аудио) и просто список событий где/когда/стоимость.Элементарно аудитория скорее предпочтет пользоваться агрегатором, чем ползать по десятку сайтов. То есть такой копипастинг напрямую наносит ущерб сайтам-источникам.
Бывает «тыренный» контент проходит обработку и уже полученные данные (например статистич. метрики) располагаются на сайте скрапера.То есть уже не копипастинг, а самодельный контент по мотивам, да еще наверняка со ссылкой на оригинал. Тут вряд ли есть конкуренция, а возможно даже наоборот — партнерство и PR.
Но подобным разделением мух от котлет как раз и занимаются суды.
Но тут тонкие моменты насчет персональных данных (например, сбор данных с закрытых для роботов профилей), так что не буду ручаться. Нужно читать их договора о приватности.
Ну в этом случае на наличии конкуренции с фб я внимание не заостряю — тут ее похоже нет. А вот касаемо договора о приватности в фб — интересует насколько он что-то решает при условии, что его контент виден без регистрации.
Правда поисковики тоже не найдут и все равно можно парсить — пусть и придется OCR прикручивать.
Всё зависит только от суммы в $ которую придётся потратить на преобразование данных.
Еще вопрос в SLA. Скажем, есть бизнес, полностью завязанный на парсинг некого портала, а точнее его бинарного протокола. И вдруг этот портал выкатывает новую версию бинарного протокола. Даже, если $ не проблема в принципе, то сколько потребуется дней, чтобы восстановить работоспособность? А ведь это простой бизнеса. И к затратам на парсинг добавляем затраты на простой и репутационные потери.
У нас есть клиент у которого скрапятся 200+ магазинов, и вот раз в месяц 20%+ меняют селекторы или js библиотеки(которые меняют селекторы на страницах)
Отличная статистика. Ко мне иногда обращаются с задачами по парсингу. При этом мои опасения воспринимаются примерно так: больной все время рвется проверять валидность верстки, какие-то измененные селекторы. При их этом аргумент что такое может произойти ну раз в год на пару сайтов. Я не против парсинга как такового. Но если заказчик адекватно понимает что это не один раз заплатил за черный ящик, а постоянная работа (не доработка и исправление «ваших багов») плюс для прайс-агрегаторов еще штат операторов которые будут сверять номенклатуру, заводить описания товаров (если это прайс-агрегатор на те же 200 магазинов).
Правда поисковики тоже не найдут
Я думаю, тему, как с SPA будут делать. 1 сайт для людей на WebGL, и параллельная структура на чистом html для поисковых ботов. Но, снова таки, если идет речь о сильно динамическом контенте (букмекеры со ставками во время матча, онлайн-аукционы, магазины с часто меняющимися ценами), то скорее всего притворение гугл-ботом (что тоже нетривиально в случае вайтлистинга) поможет получить информацию не первой свежести. Так, как сайтец для поисковых ботов будет лежать в кеше со временем инвалидации.
Что является контентом сайта с расписаниями?
Помогает ли чужой контент пользователям не заходить на оригинальный сайт?
Не могу считать скрапинг такого контента кражой. Это освещение фактов, что в таком-то кинотеатре в такое-то время пройдет показ фильма. Никаких рецензий и отзывов там не будет (ну или будут цитаты из рецензий с ссылкой на источник).
«Помогает ли чужой контент пользователям не заходить на оригинальный сайт?»
А это уже имхо не важно, кражи контента у сайта не происходит.
А это уже имхо не важно, кражи контента у сайта не происходит.Ущерб для сайта вполне очевидный: если нет юзеров, то они не смотрят рекламу, т.е. не приносят доход от партнеров и/или не привязываются к конкретному заведению (реклама премьеры).
если нет юзеров, то они не смотрят рекламу
Кинотеатр зарабатывает деньги рекламой на своем сайте… Плохи дела.
не привязываются к конкретному заведению
Билеты в кинотеатр «Красная звезда» действительны только в этом кинотеатре. Какая еще привязка нужна?
Кинотеатр зарабатывает деньги рекламой на своем сайте… Плохи дела.
Почему бы и нет?) Например, кинотеатр в БЦ. Почему бы не порекламировать сервисы в двух шагах?
Какая еще привязка нужна?Чтобы вы в эту «Красную звезду» пришли через месяц снова пришли на премьеру чего-то интересного. Зайдите на сайт любого кинотеатра, там куча всякой ерунды, типа конкурсов, мероприятий и конечно же инстаграм организации (=
Критерием имхо должна быть совокупность двух факторов: что это за данные и как именно эти данные используются после скрапинга.
Критерий один и очень простой: нарушаете вы или нет пользовательское соглашение сайта. И не надо за владельцев сайта решать, что они якобы обязаны вам разрешить с их сайтом делать, а что нет. Это их сайт и им решать, кому и как разрешать его просматривать. Если вас не устраивает их соглашение — не пользуйтесь сайтом, и всё.
Критерий один и очень простой: нарушаете вы или нет пользовательское соглашение сайта. И не надо за владельцев сайта решать, что они якобы обязаны вам разрешить с их сайтом делать, а что нет. Это их сайт и им решать, кому и как разрешать его просматривать.
Это не совсем так. Юридически не всякое пользовательствое соглашение сайта легально. Например, требования принесения первенца в жертву богу-крокодилу.
Вообще, если говорит о РФ, авторское право не защищает факты, новости и т.п., то есть газета не может написать пользовательское сообщение, что ты не имеешь права перепечатывать или распостранять новости, которые прочитаешь в газете. Поэтому далеко не всякое пользовательское сообщение законно (про мораль все тоже сложно, если пользователям экономят часы, чтобы найти информацию, при этом все равно они купят у того же продовца — сложно судить морально это или нет создание таких агрегаторов, так и гугл с яндексам кто-то из продовцов хотел бы запретить).
Обход механизма подписки юридически карается или нет?
Нет всегда. И не все ограничения доступа законы, например в РФ нельзя запретить дать приятелю прочитать выписанную газету.
Ну а получили законный доступ, прочитали — можете перепечатывать (если закон разрешает), но вручную, тратя своё рабочее время.
Эээ, а в каком законе какой страны сказано вручную? Если у меня есть право скопировать содержимое сайта, кто юридически помешает мне сделать сохранить страницу как? Или ctrl-c, ctrl-v? Дайте ссылку на такой закон?
Интересно как бы отнесся автор статьи и одновременно владелец бота к тому что его статью так же кто-то ботнул, См. ravikash.com/do-not-protect-your-website-from-scraping-part-1-technology-barriers
В чем бизнес владельца сайта ravikash.com я так и не понял. Единственное что ясно, так это то что это сайт своего рода потемкинская деревня. Автор создает впечатление движняка на сайте а на деле боты парсят контент по ключевым словам.
Эта статья там вообще не в теме. Я подумал как она могла попасть на этот сайт. Мое подозрение такое, что часто употребляемое автором слово Blocking бот попутал со словом Blokchain. А поскольку этот сайт вряд ли читают даже его владельцы статья не по теме там зависла навечно.
Что касается правовой части то могу предположить что не так уж много будет случаев доведения дел до суда — как иначе закон подействует? Т.к. в результате может быть установлено что и у исходного варианта сайта не так уж много прав на этот контент. Поэтому вопрос все тот же — в цене.
Спасибо автору статьи он показал какую инфраструктуру необходимо задействовать чтобы гарантировать постоянную доступность ботов (это сотни или там тысячи ip адресов из пула) плюс вместо сервера с 1Гб памяти и одним процессором для запуска простого бота на скажем php или python нужно будет приобретать ресурсов на 1000$ в месяц чтобы запускать там «безголовые» браузеры.
И я все о том же. Средне-статистический сайт парсят довольно примитивные боты, которые даже не собираются мимикрировать под реального юзера. И если владелец сайта считает что его бизнесу этом может принести вред, то защиту от таких ботов поставить очень просто.
А я не про "дать почитать" говорил. А, например, газету не выписывать, но стащил у почтальона из сумки, прочитал, положил назад. В случае с цифровым вариантом — взломал сайт газеты, прочёл из базы. Мне кажется, оба случая явно незаконны.
сохранить страницу как? Или ctrl-c, ctrl-v?
Это тоже можно приписать к "вручную". Граница несколько размыта, да (и так везде, не только в ИТ), но при желании её можно уточнять.
А, например, газету не выписывать, но стащил у почтальона из сумки, прочитал, положил назад.
Взял в магазине газету и пока продавец не видит прочитал — юридически наказуемо? Сомневаюсь. В случае, с цифровым вариантом, например, случайно обнаружил как попасть в закрытую паролем страницу. В случае взлома сайта газеты, это уже аналог взломал офис издательства, чтобы прочитать газету, накажут не за то что прочитал, а за то что взломал.
Это тоже можно приписать к «вручную». Граница несколько размыта, да (и так везде, не только в ИТ), но при желании её можно уточнять
Можно, но это уточнять должны не правила сайта, а законы страны. Скажем, запретить записывать видео с программы ТВ на видеомагнитафон просто пользовательским соглашением телеканала нельзя (точнее это будет юридически ничтожно). Все будет зависит от законов и того что вы копируете. И редко где в законах проводят границу по инструменту для копирования (может я программой для себя самого, чтобы почитать оффлайн, сайт копирую? Есть и такие программы, нельзя просто пользовательским соглашениям в общем случае определять как пользователь имеет право просматривать ваш сайт).
Взял в магазине газету и пока продавец не видит прочитал — юридически наказуемо? Сомневаюсь.Или же достал фотоаппарат и начал методично копировать информацию из недешевого издания, лист за листом?
В случае взлома сайта газеты, это уже аналог взломал офис издательства, чтобы прочитать газету, накажут не за то что прочитал, а за то что взломал.В УК как раз пишут про неправомерный доступ к охраняемой информации, а не про сам взлом.
Нет всегда. И не все ограничения доступа законы, например в РФ нельзя запретить дать приятелю прочитать выписанную газету.
Некорректный пример. В оригинале — коммерческое использование. Причём даже очень натянуто "коммерческое". Например, радио заплатило за трансляцию музыки, а парикмахерская заплатила за проводную радиоточку. Но если они включат музыку из радио в присутствии посетителей (например, из РАО), то огребут проблем и штрафов.
И кстати как быть если сайт В КУРСЕ что оферта не принята (например мой браузер отправляет HTTP-заголовок где прямо сказано что оферту — не принимаю, буду вести себя так то и так то, если не устраивает — отвечайте стандартным статус-кодом из диапазона 400...499, ну да это ни в одном стандарте не описано — ну так где мне на сайте оферту искать тоже ни в одном стандарте не описано). Почему то считается что сайт может отдать данные в каком попало формате и считать что пользователь — прочитал и понял а обратное — неверно. А собственно с чего вдруг?
Собственно, вопрос цены для всех сторон: если автор достанет кого-то конкретно, его найдут и физически. Пока вредит по мелкому, его не замечают. Собственно, он даже клиентов приводит кинотеатрам.
и известных VPN сервисовМногие сервисы этим злоупотребляют и обычные юзеры с VPN негодуют.
Сделать можно и по другому: текст для просмотра разложить на несколько картинок так, чтобы часть точке на кажой была прозрачной, и только если наложить через css одну на другую, получались бы слова. Сделай так — и будет большой гемор это собрать, тебя просто проигнорируют. Но тут возникает мыслишка «ой, нас же гугл не проиндексирует!»
Вот и выбирай: либо всем, либо только для глаз людей (да-да, и слепые, скажем уже не смогут прочесть).
А скраперы создают же проблемы не только сайтам, если уж по теме поста: тем же VPN тоже придется защищаться.
Но против такого дешевого парсинга и защиту поставить довольно просто. Ссылку я дал выше на то как это сделать (статья на Хабре (не моя))
— Мы сделали красивый интерфейс для доступа к вашим данным. Пользователи могут покупать билеты через нас
— Мы вам данные не разрешали брать
— Да, но у вас они и так не покупали. Мы вам помогаем зарабатывать
— Пускай покупают с нашего сайта. А не хотят — не надо. Мы вам данные не давали
По мотивам 42.tut.by/437580…
Я могу привести по крайней мере две причины.
1) Одинаковый контент сильно понижает рейтинг у поисковых систем. Если например оригинал поисковик не успел проиндексировать а я уже благодаря парсингу успел за пару секунд опубликовать у себя копию то дальше поисковик скорее всего «назначит» оригиналом тот текст который проиндексирует первым.
2) Для улучшения продажи нужны подробные описания, точные характеристики и изображения товаров. Я уже не говорю о там каком-то авторском тексте уникального содержания. Тот кто подключился к сайту с хорошей базой по описаниям товарам получает практически даром и может стать конкурентом, т.к. его интернет-магазин будет выглядеть уже солидно.
Понижение рейтинга в поисковых системах — это все больше пользователей будет уходить на агрегатор.
В большинстве случаев парсинг который покупают для себя хитрые заказчики задешево может быть не сильно сложными средствами отсеян. И если собственник сайта считает что его контент должен быть защищен он имеет на это полное право. И не только право. Для того чтобы отсеять 99% реально работающих на curl/node-request парсеров достаточно простого вычислителя ботов как в статье на Хабре на которую я привел ссылку.
сделать бота для их сайта и делать запросы на фейковые заказы из нескольких редких комбинаций кресел (далее вычислять всех по ип откуда идут эти заказы). в дальнейшем отдавать им похожие на настоящие но фейковые(или немного подпорченные) данные.
Я собственно не понимаю зачем это все? Что теряют кинотеатры? Наоборот, чувак покупает у них билеты для своих пользователей. Они ему ещё и доплачивать должны.
Можно возразить, что аггрегатор пользователя привел, он же и увел. Но тут надо детальнее понимать ситуацию. Пытается ли аггрегатор через контекстную рекламу забирать себе пользователей, ищущих конкретный кинотеатр, какой % людей, из раза в раз покупавших билет на сайте ближайшего к дому кинотеатра ушел покупать на go2cinema из-за лучшего UX и так далее.
Все таки надо понимать, что интернет — это поле битвы за внимание. И внимание контролирует тот, чей домен пользователь вводит в адресной строке. А как монетизировать, это уже другой вопрос
без аффилиатского вознаграждения в 15% покупатели будут направлены на другие кинотеатры, а для конкретного всегда будет написано «все места проданы»За такое можно нарваться на иск. Тем более, что это претензия на монополизацию бизнеса.
За такое можно нарваться на иск. Тем более, что это претензия на монополизацию бизнеса.
Уверен, что поводы для исков и так есть. Часто в terms of use пишут, что запрещен сбор информации для коммерческого использования.
Просто надо понимать, что люди, делающие такие проекты морально к искам готовы. Сайт может быть зарегистрирован на Доминиканских островах. И, к тому же, попробуй доказать, что выдвигающий условия == владелец сайта. А вот кинотеатр, подав иск, усыхание ручейка прибыли почувствует сразу. У аггрегатора гораздо больше рычагов давления. Можно просто повесить бляшку на главной странице, что «участились жалобы на кинотеатр N, покупайте билеты на свой страх и риск», а разбираться, кто прав среднему зрителю не надо. Ему лучше просто выбрать кинотеатр, который без вопросов.
к моменту, пока прокатчики поднимут связи, можно бляшку и снять, осадок и так у людей останется.Значит и останется состав дела для иска. Речь про законные методы, когда суд будет снимать бляшки и взыскивать ущерб. Там еще могут потребоваться новые бляшки, но уже официально и с извинениями-опровержениями.
Таким образом, сопротивление бесполезно в долгосрочной перспективе, и вредно в краткосрочной (агрегатор же покупателей приводит!).
агрегатор же покупателей приводит!
и уводит тоже. Аггрегатор может чуть-чуть увеличить пирог для всех (к примеру, часть тех, кто смотрел Apple TV, начнет в кино ходить), пусть это будет +5%. И при этом может серьезно менять расклад сил, лишая кинотеатры своих фишек и маркетиговых уловок при выборе. Скажем, один кинотеатр получит +25% зрителей, потому, что он дешевый, и о нем люди просто мало знали, а второй -20% зрителей, потому, что дорогой, и люди узнали о первом, зайдя купить билет на второй.
И человеку\компании всё же следует понимать, что они всего лишь человек\компания. Одни из многих. Есть другие люди, другие компании (кинотеатры). Мы уникальны, но не настолько. Есть масса альтернатив. Бороться нужно за внимание. Его уделяют. Значит чем-то полезны. Не будут уделять. Будет меньше влияния, прибыли. И в конечном итоге это приведёт к тому, что люди уйдут. Как раз к конкурентам.
И даже такие сайты, аля авито, которым выгодно бороться со скраппингом (ведь они уникальные и такие единственные, сейчас) будут «наказаны». Ведь людям нужно не авито, а получить нужную услугу\информацию, и желательно максимально быстро, чтобы потом заняться чем-нибудь более важным и полезным. А это значит удобный доступ и отображение информации в нужном нам виде. Именно это и делают скрапперы.
Простой вывод. Сайты без полноценного апи для доступа к ним со временем полностью отомрут. За ненадобностью. Ведь зачем пользоваться тем, что неудобно. Если можно получить то что нужно, в удобном для каждого виде. Нужны быть полным идиотом, чтобы даже думать ограничивать доступ к своему сайту и своим услугам. Вы либо нужны, либо нет.
А нас уже совсем скоро будет 8 миллиардов. Вся эта «борьба» со скраппингом скорее напоминает позицию — «Назло маме уши отморожу». Ну… Успехов им. Добровольный путь к собственной деградации.
Сайты без полноценного апи для доступа к ним со временем полностью отомрут.
Если в одиночку не способны противостоять тем, кто аггрегирует информацию, то да. Если готовы предоставить ценность конечному пользователю больше, то нет. К примеру, FB.
Ведь людям нужно не авито, а получить нужную услугу\информацию, и желательно максимально быстро, чтобы потом заняться чем-нибудь более важным и полезным. А это значит удобный доступ и отображение информации в нужном нам виде. Именно это и делают скрапперы.
Что? Люди чтобы получить информацию пишут скраперы. Эх… мне бы машину купить тысяч на 20 долларов, напишу скрапер, который спарсит все б/у машины региона с ценой от 19 до 21 тысячи, натренирую ML модель, и выберу оптимум? Нет, в реальном мире люди так не поступают. А на том 0.01%, кто так делает, много не заработаешь.
Бороться нужно за внимание.
Золотые слова. И кинотеатр, пользователи которого покупают билеты через аггрегатор, его уже потерял. Он стал коммодити. Теперь аггрегатор сам решит, скольким пользователям его подсунуть, а от скольки запрятать на последнюю страницу поиска.
А на том 0.01%, кто так делает, много не заработаешь.
И, кстати, конкретный пример с хостером очень показателен. Если такой ажиотаж, то, очевидно, что сервер можно было продать и дороже. То есть, хостер, по сути, просто жертвовал разницу между рыночной ценой, и ценой, по которой продавал фактически, и делал это ради маркетингового хода, чтобы люди паслись на сайте, и в конце концов купили по полной цене что-нибудь. А ботоводы, не давая реальным «мануальщикам» купить ни один сервер, этот маркетинговый ход портили, намекая им, что, возможно, серверов то и нет, и все это кидло)
мне так заказывали скрапер для букмекерской конторы — там Flash
Я, кажется, даже понимаю, какой (если говорим об одной и той же, то там мобильный сайт с такой же скорость обновления, и на js). Как правило, есть мобильная версия не на Флеш, или мобильное приложение с простым протоколом, или можно протокол, который флеш использует, раскрутить.
Есть другой подход к защите от скрапинга, это подсовывание некорректного контента. К примеру кинотеатр может вычислить бота и начать подсовывать ему неправильные даты показа или искаженную информацию по свободным местам. В этом случае сложно определить в какой момент вас заметили. Я использовал этот подход и он отсек часть скраперов, самые мотивированные конечно остались.
Вот чтобы их защитить и можно приложить усилия по шифрованию, обфускации js, чтобы тяжело было алгоритм шифрования вычленить, обфускации DOM и структурно и на уровне названий,
Открываем хром, формируем картинку, картинку в библиотеку OCR — профит. В конце концов, можно даже нанять девочку Леночку, которая будет сидеть перед монитором переодически нажимать F5 в браузере и помечать занятые места на сайте агрегатора. Дорого, но возможно.
вы оформили билеты, а там 10 место в 5 ряду, а 5 место в 10 (в выдаче внезапно слова поменялись местами и добавилась, — вместо 10 место, ряд 5 стало 10 ряд, место 5)?
Странное решение странной проблемы.
Несколько десятков отзывов довольных пользователей, в том числе и по сарафанному радио (в кино обычно за 200 км не ездят) — и у вас билеты больше никто не купит. Да и кинотеатр тот будут обходить подальше.
Я купил билет у мошенников, и мне продали фантик? Заявление в полицию на агрегатора. Кинотеатр — свидетель. Не хочет быть свидетелем? Не соучастник ли он?
Руководство кинотеатра по каким-то своим странным мотивам организовало продажу фиктивных билетов? Тогда они точно соучастники.
Агрегатор действуя на СВОЙ страх и риск и ПО СВОЕЙ инициативе без какого-либо договора сканирует сайт кинотеатра и оформляет на ваше имя билет.
Я, как покупатель, не имею возможности знать, в каких отношениях находится агрегатор и кинотеатр.
Но, если агрегатор продает фантики — его очень быстро прикроют. А если выяснится, что в продаже фантиков замешано руководство кинотеатра… Если их хваленый скрипт продаст обычному человеку, но с неизвестным броузером, фантики…
Вы купили билеты у руководства кинотеатра?
Покупать билеты лично у директора кинотеатра в присутствии нотариуса? К этом ни я, ни он не готовы ;)
Но и покупать билеты через агрегатора я, кстати, не вижу смысла. Что оригинальный сайт, что агрегатор находятся на расстоянии клика мышки.
Кинотеатр никак не обязан этому агрегатору
Кто-то получил деньги за билет-фантик.
Кто-то мошенник.
Если билет продан — в базе кинотеатра от отмечен как проданный. Если отмечен — значит кинотеатр получил (или намерен получить) деньги.
Если кинотеатр деньги получил, но билет не признает — налицо мошенничество.
Если билет продан — в базе кинотеатра от отмечен как проданный.
Давайте начнем с того, что билет кинотеатром продан не вам, а аггрегатору.
То есть, отправить папу, чтобы тот купил билеты в кино всему семейству, уже нельзя? Билет продан Васе Пупкину, а в кино идет Гена Шишкин — это недопустимо?
Потому, что оплата проведена с его (аггрегатора) карточки. То есть с вами кинотеатр ни в каких отношениях не состояит.
Это какая-то ооооочень запутанная схема получается. Деньги с карточки Васи Пупкина списаны, на счет агрегатора еще не поступили. Агрегатор покупает билет за свои деньги? Я бы так не делал.
Кстати… Вообще неплохая идея печатать на билете данные того, кому билет продан. Имя, фамилию, e-mail. Указанные при регистрации на сайте кинотеатра, разумеется :-)
В кино обязательно ходить с паспортом?
Отели давно уже не воюют с агрегаторами и даже со своих сайтов отправляют делать заказ к аргегатору. Авиакомпании тоже не против продаж билетов через агрегаторы. Почему кинотеатры сопротивляются — мне непонятно вообще, если они получают продажи. Видимо владелец сайта кинотеатра хочет построить на сайте кинотеатра свой какой-то мелкий бизнес, что является еще бОльшим паразитизмом, чем агрегация.
Контент типа текстов с авторскими правами — это вообще другая тема и ее сюда не надо мешать.
Если написать скрипт, который бы анализировал характеристики агента, то отличить бота от человека будет довольно просто.
В примере с тачскрином, живой человек может промахиваться по элементам, совершает лишние движения, нажимает на элементы в разных местах, время сессии у живого человека при достижении цели навигации будет больше.
Некоторые средства защиты типа серверного рендеринга в картинку с слегка меняющимся фоном на сервере реализуются проще, чем дальнейшая с ними борьба.
Некоторые средства защиты усложняющие работу с сайтом для бота, вроде кастомного поля ввода CVV у желтого банка, для пользователей наоборот полезны — они защищают их от ботов которые не контент воруют, а данные кредиток.
Если скрапингом занимается агрегатор с десятка сайтов, из которых скажем у 7 стоит защита, то агрегатору придется реализовывать обход 7 раз, а владельцу сайта делать защиту только один раз.
Автор проигнорировал также возможное нарушение закона при скраппинге и возможные ответы на это как законные: суды, штрафы, блокировки, так и не очень: DDoS, взлом, физическое воздействие.
Ну и в целом для начала нужно решить может от скраппинга вашего сайта пользы больше, чем вреда, и с хозяином бота можно договорится. Чтобы он указывал ваше авторство (если вы СМИ), свою наценку (если он агрегатор билетов), не хранил данные пользователя и явно писал, что он не официальный клиент (если вы админ госсайта и по ошибке зашли на Хабр).
Касательно кастомного ввода поля и т.п. — если пользователь может ввести это из браузера, бот это тоже может сделать, нет ничего сложного скрапить через Chrome/Firefox, любой другой живой браузер и выполнять любые живые действия.
Пытаются делать какие-то непонятные действия например
/wls-wsat/CoordinatorPortType
check.proxyradar.com/azenv.php?auth=***********3&a=PSCMN&i=**************&p=80
web-dengi.net/HttpRequest/checkPoxy.ashx?ip=**********&port=80
/phpMyAdmin/scripts/setup.php (miublackcat)
Потом как-то долго был бот Мичеганского университета researchscan192.eecs.umich.edu который перебирал по алфавиту все доменные имена и пытался по ним получить доступ к моему ip-адресу.
Боюсь что такая же картина наблюдается на всех без исключения сайтах.
как же будет справляться скрапер сайта с JavaScipt-рендерингом **БЕЗ** всяких штук типа headless browser
Обращаться напрямую к api к котором обращется JavaScipt-рендеринг? Обычно в таком случае анализируются все сетевые подключения и определяется как JavaScipt обращется к бекэнеду, потом делаются такие же запросы, но уже из php/java и т.п. Это работает не всегда, можно придумать хитрую схему как этому помешать, но если сайт сильно не заморачивается защитой это возможно.
Если заморачивается тут уж что проще и дешевле тащить из кэша гугла или подключать headless browser. В некоторых случаях, даже перепечатывания илии копипаст информации человеком — оправданы.
Не защищайте сайт от скрапинга: сопротивление бесполезно