Как стать автором
Обновить

Комментарии 98

А разве такие вещи не делаются максимально автоматизированно каким нить curl-ом? Там могут вполне зачищать каждый раз кукисы перед новой доской, а в юзерагент ставить какой нить стандартный браузер.
cURL'овские есть конечно, но их намного меньше, чем «ручных» мошенников (просто я сам знаю многих московских мошшеников по теме недвижимости и как они работают).
Да и потом, с cURL'ом даже легче будет: сайт скажет ему, что объявление опубликовалось, так что всё ок, мошенник ничего и не заподозрит.
Избавиться никак не получится. Дураки были есть и будут. А вот вовремя предупреждать — можно. На авито, например, стоит жёсткая система проверки, представленная группой модераторов.

Если говорить о наплыве тонн — тот делать ограничение между подачей объявлений от пользователя. И если, например, пользователь имеет высокий рейтинг, то этот период уменьшать.

Ну а по поводу мошенников — это уже не люди, с ними по-хорошему нельзя. Я даже на домашней страничке отдельным пунктом посылаю таких людей на большой и толстый. И что особенно — приходит обратная связь :) видимо что-то их задевает.
В топике рассматривается на самом деле более сложный случай: живой человек. Живой человек, в отличие от автоматизированных скриптов, видит реакцию сайта, может проверять его, анализировать и при необходимости подстраиваться.
Стандартную капчу никто не отменял.
Десятки скриптов антикапчи тоже, кстати.
reCAPTCHA?
да
это не вопрос-интерес, это вопрос-предложение.
не хотите же вы сказать, что есть обход рекапчи?
Я имел ввиду, что на ряду с капчами, давно уже придумали рекапчи, которые их ломают.
походил по ссылкам. нашел сервисы, использующие индусов для обхода каптчей.
поубыбвавбы!
Тут практический обход для одного конкретного сайта-жертвы. Думаю, что поднапрягшись, можно сделать и универсальный.
Собственно, можно попробовать сделать нейронную сеть, которую учить базой «плохих» объявлений, после чего автоматизировать вообще весь процесс. И только в ручную редактировать если уж совсем припрёт.
Да, пожалуй, так очень даже хорошо было бы. Python?
Зачем делать сложно и долго, если просто и быстро тоже отлично работает? Принцип KISS никто не отменял…
Вот и я про что… зачем делать сложно и долго? Подобная программа-анализатор, которая будет автоматически принимать решения — это максимум 6-8 часов усердного кода.

Это же лучше, чем драгоценные минуты, складывающиеся в дни, недели и даже месяцы упорного ручного труда :-)
Ну да, а обучающая выборка появится из ниоткуда аки манна небесная?
Кстати, а что, собственно, подавать на вход сети? Отдельные слова? Предложения? А как быть с сокращениями? А с суффиксами/окончаниями? Намеренными опечатками? А ещё, при каждом изменении обучающей выборки придётся переучивать всю сеть, — а это может быть весьма ресурсоёмким процессом, в зависимости от количества и размера слоёв. Последние два параметра, кстати, тоже нужно будет определить — задача, вообще говоря, нетривиальная.

Так что перед «6-8 часов усердного кода» потребуется 6-8 недель усердной работы головой и кандидатская по machine learning, — а это уже совсем другой расклад…
Судя по вашим словам это настолько сложная и дорогая работа, что проще забыть об этой идее.
А как же двигатель прогресса? Обязательно ли иметь или стремиться к кандидатской для создания подобной машины? Что-то мне подсказывает, что у гугла, который уже обладает некоторыми признаками искусственного интеллекта процесс становления был как-то проще )
«Лень — двигатель прогресса» — красивая, но не особо правдивая фраза. Судя по ней, если бы всему человечеству повально было лень — прогресс летел бы как скорый поезд; ан нет, оказывается, что прогресс двигают не лентяи, а те, кто реально работает.

Что касается гугла, то его, как Вы знаете, основали два Стэнфордских аспиранта, причём PageRank они придумали в ходе своей научной работы. А сегодняшний гугл — результат многолетнего труда сотен весьма квалифицированных учёных (например, такого «малоизвестного» в ИИ человека, как Питер Норвиг).
Так что простота — кажущаяся…
Я бы перефразировал так, «лень одних — источник заработка для других»
Кому-то лень чем-то заниматься — и уже найдется куча товарищей, помогающих решить твою проблему за вознаграждение ))
Чтобы не изобретать колесо…

Как вариант, объявление перед отправкой компонуется, как письмо(хедеры и пр.). Скармливается какому-нибудь почтовому спам-фильтру(коммерческому(более надежно) или опенсорсному). После чего передается обратно веб-приложению. Чтобы это сделать, особого творчества не нужно. Обучающая выборка в базе уже будет, хотя бы по имеющемуся спаму. Потом база дополнится отправляемыми сообщениями.

А дальше веб приложение, на основе результатов проверки может проводить премодерацию. Нагрузку на живых модераторов это вполне может снизить. Хотя отказаться целиком не получится…
Байесовы классификаторы на всё это легко натаскиваются. Обучающая выборка, конечно нужна… Но вы же сами говорите, что удаляете тонны — вот их надо было не удалять, а откладывать для Байеса.
Мусорные объявления ничем не отличаются от обычных, более того часто агенты тупо копипастят обычные объявления меняя телефон и сумму (чтобы потом выступив посредником отдать за %) — поэтому смысла в анализе нет никакого — это я вам говорю как владелец одной из 100500 досок… Только комплексный анализ с куками, номерами телефонов и т.д. более менее работает
Хмм, хорошо. Что должно входить в комплексный анализ? Если вам не сложно, опишите пожалуйста подробный алгоритм выявления «плохого» объявления на доске. Ну убеждён я, что можно и даже нужно использовать систему автоматизации.
И что эта нейронная сеть будет анализировать?
«Если в номере телефона пятая цифра „7“, то это скорее всего мошенник, что ли? :)
Ваше представление о возможностях нейронных сетей ограничено угадыванием капчи, а это плохо. Я убеждён, что в наше время возможности сетей ограничиваются только воображением их создателей, поэтому анализ цифр телефона — это совершенно не то, о чём я говорил.
Без обид, но «а у вас представления о возможностях нейронных сетей несколько наивные».
Нейронная сеть не делает ничего такого, что нельзя было бы сделать без неё, фактически — это просто математическая формула y=k1*f(k2*f(....(kn*x1,km*x2,....))))) в удобном представлении.
Обид нет, что вы. Для меня тема борьбы с «плохими» объявлениями стоит не менее остро, поэтому я «болею» за свою идею.
Только вот возможности нейронных сетей значительно шире, чем y=k1*f(k2*f(… и т.д.
Существуют же однослойные и многослойные перцептроны, нейронная сеть Джордана (которая стала прообразом самообучающейся сети), рекуррентная сеть Элмана (RAAM), очень популярная блочная сеть Ворда, полносвязные сети типа сети Хопфилда, сети векторного квантования (сеть Кохонена), опять же, Когнитроны…

И далеко не все сети работают по описанной вами формуле. Почему все видят использование сетей для распознавания объектов (OCR, Captcha)? Почему бы не попробовать сделать сеть, способную автоматизировать прогнозирование «плохого» объявления среди прочих?

Я тупой, я не понимаю почему вы говорите что это невозможно! Я убеждён что это реально, и это НЕ ТАК СЛОЖНО как вы пишите :-)
Пооправдываюсь.
Я в курсе какие бывают сети (большинство знаю). Но уж так получилось, что не стал описывать все формулы и принципы :)
То есть ваше мнение, как разбирающегося в подобных сетях человека, что нейронная сеть в данном контексте бессмысленна?

p.s. программисты-нейросетевики, найдитесь пожалуйста, подтвердите или опровергните мою теорию
Дело не в бессмысленности именно нейронной сети.
Дело в том что лично я не понял — что конкретно там анализировать-то (неважно, сети или другому алгоритму)?
А что вы планируете подавать на вход НС?
Нейронные сети не подходят для таких задач. А вот байесовский классификатор временно может помочь.
У нейронных сетей и байесовских классификаторов очень похожий принцип, если вдуматься. Там синапсы и их вес, здесь слова и их частота. Решение «схемы» в обоих случаях статистическое. Байес сможет заменить нейронные сети в большинстве случаев.
Симки на черном рынке тоже денег стоят. Дайте ему возможность публиковать объявление по цене дешевле чем купить симку, и вы получите и деньги, и премиум пользователей, и все будут довольны.
Симка стоит 100 руб. За то время, пока он полностью исчерпает себя (т.е. будет заблокирована на всех необходимых сайтах, а это обычно 3-7 дней), она окупит себя в 50 и более раз.

И «дайте ему возможность публиковать объявление по цене дешевле чем купить симку» здесь не подходит, потому речь именно о мошенниках, которые выставляют себя в объявлениях за непосредственных владельцев квартир, частников. Есть «правильные» агентства, которые делают всё по-честному, покупают аккаунт и выставляют свои объявления (из-за типа аккаунта у них автоматически в объявлениях проставляется, что объявлении не от владельца квартиры). А есть вот такие мошенники, которые обманывают пользователей и наживаются на этом.
Вы как-то отстали от жизни. Сим-карта стоит 5-7 рублей в местах, где их массово покупают под регистрации. (Может быть, это уже кончилось?)
О! Я придумал отличный сервис для мошенников для борьбы с сайтами с подтверждением регистрации по номеру телефона, чтобы им не пришлось самим бегать за симками: закупаем симки централизованно и по запросу высылаем мошеннику номер, и смс, которое на этот номер придёт в течение, скажем, 5 минут. Мультиплексирование так сказать.
Как я понимаю, левые симки появляются по сценарию «нарк спер телефон, продал его за 100 рублей скупщику, скупщик выставил за 500 рублей на витрину, симку чтоб не выбрасывать — продает». Но по этому подходу, стоимость симки — вообще копейки (она вообще не может стоить дороже телефона). Разве нет? А, скажем, брать с агентства недвижимости 10р в месяц за премиум-аккаунт — это обрекание бизнес на лимит дохода в 1000р в месяц. (А агентство возможно и миллион делает благодаря сайту, и готово было бы и делиться).

А вообще, у меня была идея как раз именно такого «сервиса предположительно уникальных персон». В общем-то простая, нечто типа OpenID, но платное и недешевое. Скажем, за 1000р единовременно можно получить себе аккаунт. Затем любой сайт проверяет вашу реальность. Ценность именно в том, что это небесплатный, и даже недешевый сервис. И клиенту дешевле заплатить на сайте 100р за бизнес-аккаунт, чем заводить себе еще одну такую вот личность.

Конечно, все равно можно смошенничать и завести себе 2-3 аккаунта. Но это уже будет и хлопотнее и дороже, чем просто куки чистить. Так что удержит от мухлежа большинство пользователей. Кроме того, можно опционально раскрывать «цену» аккаунта. Например, чтобы дать объявление о продаже старой мебели — он должен быть и стоить не менее 100р, а вот в сфере недвижимости — можно требовать от 10 000 рублей.

И еще один альтернативный вариант (не связанный с этой openid идеей) — два сайта. Бесплатный, со спамом (и спамеру не надо маскироваться, его и так увидят толпы) и платный, где нет объявлений с одними и теми же телефонами. Некий подобный сайт по аренде недвижимости — netdarmoedam.ru (да, пиарю. он хоть и не мой но я ему обязан той квартирой, которую сейчас снимаю). Исходные объявления, думаю, собирает с обычных сайтов типа «2-комнатная квартира в центре, евроремонт, 5000р/мес», но удаляет все агентские.
Как я понимаю, левые симки появляются по сценарию «нарк спер телефон, продал его за 100 рублей скупщику, скупщик выставил за 500 рублей на витрину, симку чтоб не выбрасывать — продает»

Зачем? Все операторы сотовой связи сами выдают своим промоутерам (те самые, которые стоят на вокзалах, торговых центрах) пачки пустых симок. Эти симки не зарегистрированы вообще ни на кого, но при этом прекрасно активируются и работают. Получается «обезличенная симка». Стоит 100 руб, практически в любом переходе, на всех вокзалах.
Вы имеете в виду, что ее можно легально купить, никого не обманывая («я паспорт забыл, но все данные помню, со слов запишите»), выходить в инет и общаться? Отстал от жизни. Или в нашей деревне (новосиб) такого просто не замечал.
Хм. Ну нарушений закона в этом нет. В Москве и Питере такие промоутеры с «обезличенными» симками — на каждом шагу. В салонах при подключении к оператору требуют документы, а на улице — нет. Промоутерам же главное сбыть как можно больше симок, чтобы больше заработать, а все эти договора им побоку.
Странно. Вроде как раз что-то типа закона о связи требовало, чтобы за каждым устройством для связи стоял паспорт. (а вдруг он с него бенладену звонить будет?). По крайней мере, когда у нас рекламировались мегафоновские usb модемы, то говорилось — что продаются без паспорта, но с этих симок нельзя звонить, поэтому закон соблюден.
Вы же знаете как в нашей стране соблюдаются законы.
Вот я купил мегафоновскую симку 7 лет назад, и до сих пор Мегофон не знает что она моя только потому, что мне лень дойти с паспортом до них и зарегать.

Заставить они меня не могут, и отключить связь мне не могут, потому что я исправно плачу по счетам. А мне регаться тоже резон не большой, только если телефон потеряю с симкой.

И даже если потеряю, то есть опция придти таки с паспортом, сказать какие и когда были последние платежи за телефон, и тебя уже таки зарегают и выдадут симку с потеряным номером.
Стоимость контракта, который отлично подойдет под такого рода деятельность, колеблется от 20 до 50 рублей. Так что затраты на покупку нивелируются той выгодой, которую люди получают с этих объявлений…
Автор, ты я смотрю тоже читаешь Q&A? Не стыдно писать с ответов топик? Ладно, пусть скажется на твоей карме.

По теме:
>>Мне ли вам говорить, что мир — это не коробка шоколадных конфет?
Не мне не надо. Я в курсе.
>>Что если мошенник разлогинился? Он увидит, что объявления нет?
>>Нет, ведь мы его определим по установленным Cookie.
Стоп. Что?
>>Для этого мы запоминали максимум идентифицирующей информации о нём.
Какой?
>>Предлагаемое мною решение — конечно же не панацея.
Да это вообще не решение.

Я пишу подобные скрипты. Много. Разных. Под самые разнообразные доски.
>>После каждой доски объявлений очищать кукисы/менять прокси/менять юзер-агент/менять номер телефона — это вся работа для них встанет.
Ничего не встанет. Делается это списком юзерагентов (прокси/телефонов/объявлений/etc.) и рандомной выборкой. Про кукисы я вообще молчу. Запостил объявление — почистился, проверил — не показывает — запостил ещё, немного рандомизировав текст. (цикл)

Я вообще не понимаю в чём защита то? От людей которые постят вручную? Так от людей какраз защиты ноль, они могут писать каждый раз разные объявления — их всё равно вручную ловить. От машин? Я могу написать скрипт который обойдёт эту защиту просто даже не напрягаясь.

(с комментария)
>> cURL'овские есть конечно, но их намного меньше
У тех кого меньше — отправляйте ко мне. Будем исправлять. Хотя на самом деле это не так (просто curl это частный случай).

Ладно, рассказал какой я крутой, теперь немного по делу:
Самый адекватный вариант по-мойму: сделать платные услуги типа выделения объявлений, поднятия в топе (в видимые места в общем). Вы получаете прибыль с услуг (вы же ради этого делаете) они получают прибыль с объявлений. Все довольны, всем можно смеяться.
Вариант обмана с curl'ом итд — это да, вариант. Но:
1. матерые программисты и адвансед сисадмины не продают квартиры/машины/пианины массово.
2. матерые барыги не проводят бессоные ночи за чтением мануалов по перлам.

Так что, чтобы обмануть систему, барыге надо потратиться, чтобы нанять программиста. Следить как тот работает. Тот сделает программу. Она будет глючить. Он наймет второго, который начнет с того, что «да какой идиот вам это писал?»… итд. В общем, защиту он пройти сможет, но затраты, время и нервы будут дороже.

К тому же хозяин сайта может легко и без усилий, скажем, менять имя куки или поля формы. Каждая такая смена для какого-нибудь риэлтера будет стрессом, паникой, поисками программиста, и затратами.

И самое главное — тут нет ведь цели чтобы никто не прошел. Если система заставит 80% коммерсантов платить абонемент, а не нанимать программистов — то здорово. Даже если вы персонально входите в 20% остальных. :-)
Так, видимо или я чего-то не понимаю или вы.
1) Верно
2) Не верно

Из личной практики:
Есть постоянный заказчик который сам изучил пару языков программирования чтобы этим занимать, но когда бизнес (не программирование) пошёл в гору — просто переложил это на мои программиста (плечи). Так выгодней.

Ещё случай:
Работал с агентами недвижимости: написал скрипт который парсит чужие объявления и постит свои. На обоих делаются деньги.

Если наняли программиста и после написания программы — она глючит — программист сосёт… лапу (?) вместо получения оплаты. На эти деньги нанимают второго программиста (цикл до тех пор пока не появится нормальная программа). Всё это время работают как работали раньше, то есть потери времени/денег в плане бизнеса — нет.

Меня поля формы или кукисов — вообще бессмысленное занятие. В таком случае просто применяются регекспы (например). Оборачивается это стрессом (и трудозатратами) только для владельца сайта.
То, что заказчик такой умный, хитрый и экономный — это ему плюс. Но ведь не за час же он пару языков программирования выучил? А его время тоже денег стоит. Если он сам по себе интересуется IT — ну запишем его в ту группу, против которой бороться не стоит (себе дороже). Так как см. последний пункт — нет цели от всех защититься. Защита работающая против 99% но не работающая в 1%, для нас куда лучше отсутствия защиты.

А насчет защиты — не может она быть бессмысленной, это вы зря громкими словами бросаетесь. У вас есть на примете программа работающая со всеми сайтами и способная без переделок работать после любого изменения? Думаю нет. А чтобы противостоять такой защите — нужна именно такая, потому что сайт x.com завтра по «технической» схеме (адреса, поля, куки, капчи) может стать в точности как y.com и наоборот. Сохранив при этом адрес и цветовую гамму (так что для пользователя ничего не особо не изменится). И надо чтобы программа _сама_ распознала. Потому что если заказчик будет звонить и платить программисту, чтобы тот «решил регеэкспами» — это уже для заказчика может дорого выйти.

Но давайте попробуем не спорить, а просто поиграемся, развлечемся. Прикинем как это можно сделать. Например: сайт каким-то образом запоминает посетителя (по id в куке или по IP) и _генерит_ для него уникальную форму, где поле email будет, например, называться «d42kxxhg4», а поле телефон — «w676c». Это вам не регексп для ловли email/e-mail/E-mail/E-Mail/E Mail :-)

Ну и чтобы повеселее было — сама форма не в HTMLе, а в виде javascript'а, который на лету эту форму создает. (так что имя поля даже невозможно найти в нем).

Вот вы говорите, про «стрессом (и трудозатратами) только для владельца сайт», но мне кажется, что перехачить скрипт, чтобы он емейл теперь пихал в поле d42kxxhg4 (а завтра — в поле а78м66) — это трудозатраты. А вот изменить имена полей — это может быть одной командой ./rename_fields.sh или вообще автоматом каждый день или каждый GET — то есть бесплатно для хозяина сайта. Не только же атакующий может свою работу автоматизировать.
>> Но давайте попробуем не спорить, а просто поиграемся, развлечемся
Ок, не буду тогда зацикливаться на формулировках и цепляться к словам.

>> _генерит_ для него уникальную форму, где поле email будет, например, называться «d42kxxhg4», а поле телефон — «w676c».
Вы немножко неверно меня поняли. Если есть такая проблема — регекспы применяются не к названию поля, а к поиску поля в коде. То есть — совершенно не важно как оно вообще будет называться, пусть хоть при каждой загрузке разное. Отвечаю сразу на следующий вопрос: JS это тоже не выход. Опять же пример из практики (мы же играемся?):

Нужно было спарсить все номера телефонов со всех объявленийна сайте X.com. Проблема была в том что телефоны для конечного пользователя выдавались или текстом (цифрами то есть) или ссылкой «показать телефон». Причём в первом случае телефоны могли быть просто написаны или генерироваться JS, а во втором случае подгружались по ajax с сайта y.сom с авторизацией или генерировались на основе некоторых частей html кода страницы (или ...). Итог: не спасло это их. В итоге был получен и изучен весь интересный нам JS код, разобраны способы составления телефонов, разработана система по получению телефонов с сайта y.com. Что в конечном итоге: разработчики сайта потратили много времени, сил и денег на защиту (позже выяснилось — если собрать всё время потраченое на написанные в разное время способы заныкать телефон — получалось около 4 месяцев), разработчики парсера потратили на это ровно одну неделю неспешной разработки.
Не очень понял вариант с JS. Либо сам js код был простым (document.write(«123») вместо «123» и небольшие варианты, и тогда можно простым куском кода вырезать из него телефонный номер.

Либо же вам пришлось написать полноценный javascript интерпретатор, который любой код может обработать. (?)

Тогда, второй ход — чтобы проблема не решалась менее чем десятком мегабайт соурсокда, JS код — сам по себе генерируется на сервере. То есть на сервере какая-то программа «пишет» новый JS код каждый раз. Гарантированно можно забороть — только будучи уверенным, что мы знаем все ее «трюки», а это заранее знать, наверное, невозможно.

> разработчики парсера потратили на это ровно одну неделю неспешной разработки.
но если некто занимается перепродажей машин, скажем, и продает новую раз в неделю — может ему стоит за 100 рублей купить платный акк? Или, дешевле нанять разработчиков парсера на неделю за те же 100 рублей? (а потом нанять снова, когда хозяин сайта еще что-то изменит)
Не быть мне преподавателем, видимо объясняю плохо. JS код там был мягко говоря не простой. Там вам и массивы и объекты и перестановка/замена символов. Плюс ко всему — обфускация и деление кода на части. В общем было над чем голову поломать. Реализация же «взлома» этого кода заняла всего 36 строк кода (это с переносами строк, форматированием человекопонятный код, в общем). Время написания этих 36 строк кода — 2-е суток (к чести разработчиков надо сказать — попарился я тогда). То есть затраты ресурсов разработки защиты несколько (десятков) раз перекрывают затраты на «взлом».

>>чтобы проблема не решалась менее чем десятком мегабайт соурсокда, JS код — сам по себе генерируется на сервере

Тут тогда применяется вариант как с регекспами: дался нам этот алгоритм? Получаем итоговый HTML-код (без танцев с бубнами на распознание всяких подлых JS) который получается в результате выполнения всех скриптов и программ сайта (тот код на основе которого браузер рендерит сайт) и из него получаем всё что хотим. По времени это будет конечно не 2-е суток, но это реализуемо, благо готовых программ — море безбрежное.

>>может ему стоит за 100 рублей купить платный акк
Как платный аккаунт поможет получить все телефоны с чужих объявлений?
oO

Как вы в 36 строк-то это сделали?? Да даже обработка занудного автогенеренного арифметического кода, который в итоге даст номер тел типа
x1=78;
x2=x1*4+2;

x100=… (555-12-34).

только это должно быть в 36 строк, да и то может не влезть. А если код создает классы, со всяким наследованием и полиморфизмом, да с такими навороченными конфигурациями, что на олимпиадах не все-то решат — нельзя его в 36 строк решить. Так что, думаю, сайт просто типовые шаблоны JS кода имел. Потому что в общем случае — без полноценного интерпретатора не обойтись.

> Как платный аккаунт поможет получить все телефоны с чужих объявлений?
Автор предожил решение для другой проблемы — побудить бесплатных пользователей, стать платными, (вместо того чтобы чистить куки тремя щелчками мышки). Его решение не и не претендует на защиту от харвестинга, XSS атак, брутфорса паролей, неэстетичного дизайна, и даже кофе оно не варит. Просто разговор о разных вещах.
>> Как вы в 36 строк-то это сделали?
Там в итоге получается некая последовательность действий которая в результате этих действий выдаёт результат. То есть берёт некие исходные данные (в одном из случаев — из переменной которая генерируется сервером) и на основе этих данных всякими «хитрыми манипуляциями» получает искомый телефон. В код также добавлены всякие «шумы» которые просто мешают распознать что же происходит в коде, и в итоге код приведён к нечитаемому виду, таким образом что отличить полезный код от бесполезного очень сложно. Тоесть получается этакий код-загадка который делает из нечитаемых данных (например 2jh2@#$3$%^b) вполне-себе читаемый номер телефона. В итоге был написан код который на входе и выходе получал тоже самое что и скрипт на сайте. Изначально код занимал больше места, но после того как стало понятно что же собственно делается в скрипте — был уменьшен до необходимого минимума в 36 строк.

>>Просто разговор о разных вещах
А, простите, не сообразил. Почитаем: «деление аккаунтов на «пользовательские» [...] т.е. бесплатные, и «профессиональные», т.е. аккаунты продавцов, за деньги.». Таким образом, наши хитровывернутые человеки которые занимаются тут акробатикой с кукисами — люди которые хотят съэкономить те самые «деньги» которые просятся за плтаный аккаунт. До тех пор пока оплата работы программиста будет обходиться дешевле чем оплата аккаунта (в конечном итоге, а не за определённый кусочек времени) — имеет смысл писать программы которые будут регистрипровать бесплатные аккаунты и постить безплатные объявления. Таком образом выходов из данной ситуации я вижу два:
1) Сделать так чтоб аккаунт стоил дешевле программы под конкретный сайт
2) Сделать так чтоб программу было настолько сложно написать чтобы проще было оплатить аккаунт.
Выводы сделать? :)
А мне вот интересно, вы осознаете что сейчас хвастайтесь тем, что крадете личные данные пользователей, да и наверняка нарушаете пользовательское соглашение чужого сайта, а это противозаконно и вас могут наказать. И денег вы получаете далеко не как матерый аферист. К чему этот пафос и хвастовство. Вас имеют. Это грязная работа.
Я вполне осознаю что собираю информацию из открытых источников. По законам моей страны и страны расположения сайтов — это не является противозаконным. Что там понаписано в пользовательском соглашении (если это противоречит законам страны) меня, собственно, вообще не волнует. Я не получаю денег «как матерый аферист» потому что я не аферист, уж тем более не «матёрый».
Промахнулся, это вам было.
Т.е. вместо полезной статьи с хорошими мыслями вы предлагаете:

Самый адекватный вариант по-мойму: сделать платные услуги типа выделения объявлений, поднятия в топе (в видимые места в общем). Вы получаете прибыль с услуг (вы же ради этого делаете) они получают прибыль с объявлений. Все довольны, всем можно смеяться.

Спасибо… оч. познавательно. Рассказали какой крутой.

Иногда лучше жевать, чем говорить.
Схема с топом вообще-то неплохая. Мне она вообще нравится тем, что «саморегулируется», как на мамбе.

Невозможно назначить слишком низкую цену (и упустить прибыль, потому что платить будут рубль, а не сто) или слишком высокую (и упустить прибыль, потому что платить вообще не будут). Цена услуги будет фиксированной, но ценность определяет рынок. И автоматически поддерживает баланс. Если первое место «дорогое» — значит мало кто будет туда лезть, значит за эти деньги объявление в топе будет вечно стоять. Есть смысл оплатить и получать выгоду.

Если «дешевое» — тогда тоже есть смысл оплатить, все равно копейки. :-)

Как только слишком много народу претендует на него — так сразу средний срок топа, получается, укоротится, и часть перестанет играть в «царь горы». И наоборот.

Вообще, блестящая идея. Позволяет с рынка снять столько денег, сколько там есть.
Аууу… Статья называется «Борьба с «барыгами» на досках объявлений — как избавиться от наплыва «шлако-объявлений»?»

Я не вижу тут слов «деньги», «монетизация», «чмокну за VIP»… Автор как раз борется за уникальный и хороший контент (который будет оплачиваться).

Причем тут монетизация?
Активация аккаунта по СМС, не?
Любая попытка потребовать у меня номер телефона, домашний адрес или номер страховки, в общем — любой приватной информации, которая напрямую не нужна для функционирования сервиса, вызывает у меня конвульсии с непроизвольным нажатием CTRL+F4.
В том-то и суть, что здесь номер телефона нужен и нужен в первую очередь вам, если вы хотите, чтобы покупатели смогли с вами связаться. Для авторитетной доски объявлений, которая известна в городе, активация по смс вполне хороший вариант.
Автор, ты я смотрю тоже читаешь Q&A? Не стыдно писать с ответов топик?

Не стыдно, поскольку в том самом вопросе я и был автором ответа, если вы не заметили. Увидев, что предложенный принцип вызвал неподдельный интерес, я решил раскрыть тему более детально и подробно, написав топик. Заодно в комментариях возможно получу критику/дополнения.

>>Что если мошенник разлогинился? Он увидит, что объявления нет?
>>Нет, ведь мы его определим по установленным Cookie.
Стоп. Что?


Что «что»? Я говорил о том, что «полускрытые» объявления не показываются незалогиненным пользователям — верно? Соответственно, читатель мог подумать, что выйдя из системы (разлогинившись), мошенник точно так же не увидит свежедобавленного объявления. На этот случай я и уточнил, что это не так: пользователя определяем не только по его «входу в систему», но и по Cookie.

>>Для этого мы запоминали максимум идентифицирующей информации о нём.
Какой?

IP, User-agent, время, в которое было добавлено объявление. Выбирайте на свой вкус, можете и своё добавить.

>>Предлагаемое мною решение — конечно же не панацея.
Да это вообще не решение.

Я не заставляю вас пользоваться моим предложением, плюс вы всегда можете предложить свою идею.

Я пишу подобные скрипты. Много. Разных. Под самые разнообразные доски.

Вот она, причина неподкреплённой критики поста :)

Ничего не встанет. Делается это списком юзерагентов (прокси/телефонов/объявлений/etc.) и рандомной выборкой. Про кукисы я вообще молчу. Запостил объявление — почистился, проверил — не показывает — запостил ещё, немного рандомизировав текст. (цикл)

Вообщем, бла-бла-бла, это тема отдельной дискуссии. IP вы тоже будете так лихо менять? Ну и плюс да, допустим обошли защиту, запостили своё объявление. Тут приходит модератор, видит, что на самом деле объявление было мошенническое, анализирует его, и делает соответствующие изменения в системе защиты (добавляет новый номер в чёрный список и т.д.)

Я вообще не понимаю в чём защита то? От людей которые постят вручную? Так от людей какраз защиты ноль, они могут писать каждый раз разные объявления — их всё равно вручную ловить. От машин? Я могу написать скрипт который обойдёт эту защиту просто даже не напрягаясь.

Непонятно — перечитайте заново, в самом конце специально для вас я это разжевал. А номера телефонов они тоже могут каждый раз разные писать?
Естесственно, зная как работает система защиты, любой школоло напишет за вечер на коленке такой скрипт за 100 рублей :)

Самый адекватный вариант по-мойму: сделать платные услуги типа выделения объявлений, поднятия в топе (в видимые места в общем). Вы получаете прибыль с услуг (вы же ради этого делаете) они получают прибыль с объявлений. Все довольны, всем можно смеяться.

Вы и ещё некоторые люди из комментов не поняли важную вещь: я постарался донести не способ как добиться большей монетизации, не просто конкретный факт в конкретной системе. Я попытался донести саму технику защиты. Её аналогию можно выстроить в куче других систем, которые испытывают подобные трудности.
Ну и потом, про платные объявления я буду всё равно недоволен, ведь речь идёт о мошенниках, которые кидают людей на деньги (например дважды, трижды сдают одну и ту же квартиру разным людям). Я не хочу чтобы через мой сайт люди находили себе проблем на пятую точку.
>>Заодно в комментариях возможно получу критику/дополнения.
Получили критику — вызвала негативные эмоции. Спокойнее, я же не отбираю у вас хлеб. Я как раз вношу критику, что-то предлагаю. У нас тут ресурс для общения всё-таки.

>>Соответственно, читатель мог подумать, что выйдя из системы (разлогинившись), мошенник точно так же не увидит свежедобавленного объявления. На этот случай я и уточнил, что это не так: пользователя определяем не только по его «входу в систему», но и по Cookie.
Вопрос же был вызван собствено другим. Разверну для понятности: разлогинился, удалил кукисы (посмотрел в другом браузере) не увидел объявления.

>>IP, User-agent, время, в которое было добавлено объявление. Выбирайте на свой вкус, можете и своё добавить.
Меняется. Меняется. Меняется (задержки, например, cron).

>>Вот она, причина неподкреплённой критики поста :)
Чего не хватает критике что бы быть «подкреплённой»? Фактов из жизни может? Показать вам кусочек кода может?

>> IP вы тоже будете так лихо менять?
Не вопрос. Списки прокси продаются на каждом углу, пачками, на любой вкус. Да даже бесплатных — море.

>> Тут приходит модератор, видит, что на самом деле объявление было мошенническое, анализирует его, и делает соответствующие изменения в системе защиты (добавляет новый номер в чёрный список и т.д.)
Приходит вечером админ (пользователь скрипта) видит что больше объявления не постятся — меняет алгоритм добавления. С утра куча пользователей получает кучу новых наших объявлений (админу то не надо выискивать среди объявлений конкретно мошеннические, он вообще может раз в час менять алгоритмы).

>>А номера телефонов они тоже могут каждый раз разные писать?
Могут и пишут. См. пункт про прокси.

>>Естесственно, зная как работает система защиты, любой школоло напишет за вечер на коленке такой скрипт за 100 рублей :)
Откуда такая информация? Дайте мне контакты людей кто напишет за вечер и за 100 руб (пусть даже за неделю и за 1000). Да и если принимать «школоло» в общепринятом смысле — что это за школоло которое знает языки программирования в достаточной степени что бы обходить защиты.

>>Я попытался донести саму технику защиты
Вы ещё скажите что в итоге тратите время и силы не для денег. Я имею ввиду именно конечный итог, а не промежуточные мотивации типа «донести правду людям».
Получили критику — вызвала негативные эмоции.

Где? о_О Я вроде не переходил на личности, не оскорблял вас. Если где-то перегнул палку — прошу прощения. Если вы решили, что термин «школоло» я отнёс к вам, то зря вы так думаете: просто подобные парсеры реально задёшево делаются теми же школоло с фриланса, там такие заказы регулярно встречаются.

Вопрос же был вызван собствено другим. Разверну для понятности: разлогинился, удалил кукисы (посмотрел в другом браузере) не увидел объявления.

Меняется. Меняется. Меняется (задержки, например, cron).

Слушайте, вы точно внимательно прочитали топик? Я же все эти моменты уточнил в нём. Всё почистил -> не увидел своего объявления -> добавляет новое с новым номером -> если у нас при этом удаётся определить его как того же мошенника, то заносим новые данные в чёрный список и делаем новое объявление тоже «полускрытым»; если не удалось определить его как мошенника, то ок, его объявление публикуется, затем приходит злой модератор, находит объявление, вносит коррективы в защиту, скрывает объявление.
Я же специально подчеркнул в топике: «предлагаемое мною решение — конечно же не панацея. Можно напридумывать ещё много своих способов идентификации мошенника, но ни один из них на 100% не избавит от негодяев. Ручная работа для модераторов всё равно останется, но теперь её станет существенно меньше».

Чего не хватает критике что бы быть «подкреплённой»? Фактов из жизни может? Показать вам кусочек кода может?

Ну приводите какие-то более убедительные, противоречащие мне заявления чтоли. А то смотрите что получается: я в топике пишу «господа, мошенник может удалить и кукисы, сменить айпи, браузер, телефон — объявление добавится. Просто потом замечаете объявление, скрываете его, добавляете новый номер в чёрный список», а вы мне в ответ талдычите «дык всё это меняется, всё это удаляется, где защита?», не замечая, что этот случай я отдельно подчеркнул в конце. Спрашиваете меня собственно о том, о чём я расписал. А в конце делаете вообще поразительное умозаключение вида «это не способ вообще».

>> IP вы тоже будете так лихо менять?
Не вопрос. Списки прокси продаются на каждом углу, пачками, на любой вкус. Да даже бесплатных — море.

И что вы так прицепились к отдельным моментам? Попробую объяснить вам попроще. Опубликовав у меня объявление, вам, для того чтобы гарантированно удостовериться, что оно реально опубликовалось надо: а) удалить куки; б) сменить IP; в) сменить User-agent; г) сменить номер телефона; д) «переработать» текст объявления. Вы готовы для каждого объявления повторять эту процедуру? Возможно да, но таких, кто тоже готов проходить через такой геморрой — ничтожное количество.
Плюс ещё какой момент: а вдруг номер телефона на который вы поменяете, у меня и так уже в чёрном списке? Тогда вы разом спалите в чёрный список ещё и новые IP, User-agent, текст. А вдруг IP, на который вы перейдёте, у меня тоже в чёрном списке (поскольку, например, иностранцы мне не нужны на сайте, поэтому все иностранные прокси сразу баню)? Тогда опять же вы всё остальное «спалите» мне.
Как видите, чтобы полностью удостовериться в факте публикации объявления вам придётся сделать очень много телодвижений.
Вы возможно готовы на такой геморрой, но подавляющее большинство — нет. А для таких как вы у нас остаются модераторы ;)

Откуда такая информация? Дайте мне контакты людей кто напишет за вечер и за 100 руб (пусть даже за неделю и за 1000)

weblancer.net, free-lance.ru и многие другие.

Да и если принимать «школоло» в общепринятом смысле — что это за школоло которое знает языки программирования в достаточной степени что бы обходить защиты.

Ой, ну я вас умоляю. Что, для того, чтобы уметь отправлять заголовки, инициализировать cURL-соединение, подключаться к прокси — нужны какие-то архиспециальные знания? Да даже готовых примеров, которые просто нужно переработать, на просторах сети — мегатонны. Это же вам не взлом и перехват SSL трафика, не делайте из этого какие-то суперкрутого геройства.

Вы ещё скажите что в итоге тратите время и силы не для денег. Я имею ввиду именно конечный итог, а не промежуточные мотивации типа «донести правду людям».

А вы увидели в топике ссылку на мой сайт? Или может как-то по-другому можете найти мой сайт, который я описываю?
>> Если где-то перегнул палку — прошу прощения.
Не стоит, нет так нет, просто мне тоже не хотелось бы портить вам настроение из-за каких то буковок :)

>> если не удалось определить его как мошенника, то ок, его объявление публикуется, затем приходит злой модератор, находит объявление, вносит коррективы в защиту, скрывает объявление
Я уже писал об этом: зачем тогда нужна ваша защита если в итоге всё равно работает человек-модератор? Зачем тратить ресурсы на её написание, не лучше ли повысить оплату модератора, нанять ещё одного?

>>если у нас при этом удаётся определить его как того же мошенника
Что я имел ввиду: ключевой момент тут в этом вашем «если».

>>А то смотрите что получается
См. первый ответ в комментарии. В итоге то модератор? Зачем защита?

>>И что вы так прицепились к отдельным моментам?
Простите, привык оперировать понятиями и фактами, а не абстрактными данными.

>>вам, [...] надо
Чтобы убедиться что опубликовалось мне (если живой оператор) надо нажать alt+tab и f5, или выполнить ещё одну итерацию цикла.

>>Вы готовы для каждого объявления повторять эту процедуру? Возможно да, но таких, кто тоже готов проходить через такой геморрой — ничтожное количество.
Да, я же с этого деньги зарабатываю. Мне не сложно потратить крохотное время процессора на скрипт который работает в фоне и зарабатывает деньги. Геморрой в чём? Готовы систем — навалом. Кто не готов этим заниматься — пусть упускает свою прибыль из-за лени.

>>Плюс ещё какой момент: а вдруг номер телефона
Обсуждается в соседних комментариях. Телефоны (особенно в нужных местах) можно покупать пачками с переадресацией на один-пару (чтобы не упираться в кол-во аппаратов, пожалуй самая дорогая часть). IP (прокси) стоят ещё дешевле и в гораздо больших кол-вах. Остальная информация которую вы можете с меня получить — вообще ничего не стоит (время на поиск/генерацию разве что). я могу на каждый запрос вам отправлять новые данные до тех пор пока какая-то из комбинаций всё-таки не сработает. Мне это обойдётся дешевле чем вам.

>> Как видите, чтобы полностью удостовериться в факте публикации объявления вам придётся сделать очень много телодвижений.
Не вижу. (Ношу очки — не помогает)

>>weblancer.net, free-lance.ru и многие другие.
Много лет пользуюсь в частности фри-лансом, я вам честно скажу… нету там такого. Те кто напишет за копейки — попытается кинуть, не получится — напишут хрень (чаще всего — вообще тратить время не будут). А те кто напишет то что в итоге надо — стоят далеко не 100 рублей (и не 1000, мы же говорим про защиту, а не про чистый парсинг).

>>Что, для того, чтобы уметь отправлять заголовки, инициализировать cURL-соединение, подключаться к прокси — нужны какие-то архиспециальные знания?
Вы уже назвали целых три предмета которые надо знать чтобы ими пользоваться. Я соглашусь — не бином Ньютона, но всё таки — требует изучения.

>>А вы увидели в топике ссылку на мой сайт? Или может как-то по-другому можете найти мой сайт, который я описываю?
А причём тут это? Правильно сделали, у нас тут не рекламный сайт, чтобы оставлять ссылки. Я спрашиваю про конечную цель вашей деятельности.
Я уже писал об этом: зачем тогда нужна ваша защита если в итоге всё равно работает человек-модератор? Зачем тратить ресурсы на её написание, не лучше ли повысить оплату модератора, нанять ещё одного?

Вы так говорите, будто бесплатные модераторы мне на голову с неба падают. Чем меньше будет работы по расчистке объявлений, тем меньше мне нужно будет модераторов и тем реже мне придётся к ним обращаться, а значит гораздо меньше денег тратить на модераторов. Неужели это так трудно понять?
Руслан, у вас железные нервы :) Я бы даже отвечать не стал.

Написано в посте у вас всё хорошо, у нас вот тоже используется разного рода защита — некоторые из методов описаны у вас. Насчет «объявлений-призраков» не думали, — в целом довольно-таки оригинальная идея. Интересно было прочитать пост.
Я года 2 назад использовал сообщения призраки — писал доску объявлений.
Говнообъявлений почти не стало, это реально хороший способ защиты от большинства плохих постеров (в моём нагрузка на сервер упала почти в 2 раза).

Но эти знания пригодились для написания постера по доскам (печально, но приходилось — кушать хочется)
У меня еще есть мысль, что объявления о сдаче жилья с ценой менее чем 80% от средней надо либо сразу банить, либо выводить рядом огромными буквами информацию про лохотроны.
Тогда обломаются в первую очередь те кто хочет дешево снять, обломаются те, кто хочет хорошо и дешево сдать (а не чтобы водить в квартиру стада с риэлтерами, когда каждый свистит, что хорошо, но дорого, а потом сдать подозрительным чеченцам с гексогеном, потому что у них только деньги нашлись).

А _не_ обломаются — мошенники, которые высчитают, как считается «минимальная честная цена», и дадут свое объявление на рубль дороже лимита. И они будут даже в выигрыше, потому что их замануха будет самой сладкой, дешевле даже в теории невозможно выставить квартиру, т.к. система ограничивает.
Проблема в том, что средняя цена средней цене рознь. Цена на одну и ту же двушку может разительно отличаться в зависимости от множества «неучтённых» факторов: проблемные соседи, неблагоприятный район, скорый снос дома и т.д.
Метод интересный, где нибудь применяли?
НЛО прилетело и опубликовало эту надпись здесь
какая чудесная идея =)
Взял на вооружение)
> это сделать иллюзию для мошенника, что он «победил». Но только иллюзию.
--Так я не понял, кто из кого мошенник?
А это уже нюансы :)
спасибо за статью,
пошел рубить бабло на 1005001 доске объявлний
Мне лично нравится подход САМОГО популярного сайта обьявлений в Норвегии finn.no
У них борьба с мошенниками проста как пряник — каждое обьявление платное и явная лажа удаляется.
Тоесть человеку, которий хочет чтото продать, нужно заплатить за размещение обьявления.
Мошенники просто не будут массово размещать тону обьявлений, так как єто дорого.

У нас наверное такой подход не сработает… хотя кто знает… никто не пробовал еще…

(сорри за опечатки. нет русской раскладки. Націоналістичний ноутбук :))
Насколько я помню, на gdeetotdom.ru публикация каждого объявления тоже платная для всех.
Ну не могут же они сотни телефонов включенными держать. Им же по этим объявлениям еще позвонить должны. Единственный вариант — строить сложные варианты переадресации. Должно поубавить количество мошенников.
Вы так говорите — «Единственный вариант» — как будто для этого надо как минимум 2 пальца отрубить чтобы сделать. Ничего там сложного нету. Хоть сотню номеров — на один телефон.
Ну это еще плюс две проблемы:
1. Симки должны быть проплачены постоянно.
2. Такое уже можно присечь на уровне оператора.
3. Если сотня номеров на один телефон — будет постоянно занято.
А вы тролль знатный, я смотрю.
У агентов по недвижимости легко могут быть в офисе разложены десятки телефонов — обычно дешевые модели.
Я работал в 2х проектах по недвижимости (оба крупных).
В обоих проектах все делается намного проще (помимо черного списка с номерами телефонов):
1. Механизм жалоб (пользователи сам жалуются что это риелтор, или что цена не совпадает и тд).
2. Механизм поиска дублей такого объявления.
3. Прозвон каждого объявления оператором по телефону и уточнение деталей.
Кстати, по поводу смены куки, гражданства, пола и тд, рекомендую статьи:
Evercookie — самые устойчивые куки
Способы идентификации в интернете — здесь особое вниманию советую уделить проекту panopticlick.eff.org/ — идентификация по самому броузеру, без использования печенек.
обрадовался — но судя по комментам:
1) на него уже ругается каспер
2) не работает в свежем FF
Честно говоря, я глубоко не копал. Просто потестировал и оставил в избранном. У меня все работало, причем я переключался между броузерами и куки сохранялись.
Но, всегда можно использовать в совокупности с другими методами — и результат будет лучше, чем просто поставить куку :)
Вот дела! Лично я, занимаясь «мошенничеством» всегда проверяю с двух разных не то что броузеров, а интернет-каналов. Как по мне, умных мошенников это не остановит, но если соотношение 80/20 также применимо и к мошенникам, значит идея действенна, опять-таки для соотношения 80/20 модераторов.
Да, мне уже сказали. Но этой статьи раньше не видел, просто пришла в голову та же идея. Ничего удивительного — идея-то не гениальная, просто взвесили все факты и пришли к логическому выводу, что гораздо эффективнее делать вот так-то.
У нас тоже была проблема с объявлениями «лохотронами» по аренде квартир. Перепробовали баны по всем возможным параметрам, в итоге решили вопрос проще. Повесили баннер "Объявления лохотронов в примерах" и все объявления помеченные модератором выводили там. Где-то через месяц лохотронщикам надоело позориться на этой странице и они перестали размещать объявления у нас.
Более того мы начали публиковать телефоны, адреса, имена, договора мошенников, пошло много комментариев от пострадавших…
Помню примерно в начале 2010-го года лично столкнулся с группой приехавших с Украины мошенников, которые занимались лохотроном по «совместному проживанию». Публиковали объявления, вида «ищу человека на подселение, квартира 2-шка, с мебелью, всё есть, в комнате будет жить только 3-е, рядом с метро, всего 5 000 в мес.» Звонишь, приходишь смотреть квартиру: вроде реально прилично, нормальная квартира около метро, все «сожители» русские. Отдаёшь деньги и только вечером узнаёшь, что оказывается, на подселении тут порядка 30 человек (в одной квартире).

Так вот ваш сайт был для них как раз одним из самых сложных по части того, чтобы пробиться сквозь защиту, модерацию и опубликовать своё объявление. Но ничего, более или менее пробивались. Меняли номера телефонов примерно каждую неделю, а то и чаще, все параметры в компьютере меняли (IP, куки, браузеры и т.д.) Квартиры тоже меняли — как правило дольше месяца такая квартира «не жила». Собственно из подсмотренного у них опыта и придумал действовать именно таким образом, потому что именно этот момент они совсем не контролировали (что доска объявлений может их обмануть).

Насколько я знаю, они до сих пор так и действуют в Москве.
Сейчас у нас введена after post модерация, чтобы не задерживать публикацию. Лохотронщики размещают объявление, если оно прошло все фильтры то в течении 1-2 часов модератор его проверяет и пополняет им черные списки. Если даже модератор пропустил, то на объявление в течении дня накопятся жалобы и опять таки модератор его удалит. Бан — дело времени.

Мы все еще ищем пути автоматизации блокировки, я уверен что есть решения. Приходит много мыслей, например, если бы почтовики (mail.ru, yandex.ru) выдавали дату регистрации е-майла — был бы дополнительный косвенный фактор. У нас используется ряд косвенных факторов, не хочу о них говорить, мошенники все смогут подделать, пока им не приходит это в голову.
А я всё мечтаю, чтобы у операторов сотовой связи был какой-нибудь сервис проверки «обезличенности» и «активности» (т.е. номер активирован только недавно или по нему уже длительное время осуществляются операции) мобильного номера.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.