Как стать автором
Обновить

Комментарии 23

Так сам сервис планируется быть доступным для людей?
Он уже доступен. Просто я ссылку не оставлял в самой статье(Зато они указаны в репо на github).
А подробнее про классификацию на основе нейронной сети можете рассказать или посоветовать материалы?
Мне казалось, что по статье можно повторить опыт. Скажите, что именно вам непонятно, и я постараюсь рассказать об этом подробней.

На хабре уже были статьи про классификацию текстов
https://habrahabr.ru/company/meanotek/blog/256593/
https://habrahabr.ru/post/130278/

Обычно используется преобразование слов в векторы с помощью word2vec и результат не превышает 80%. В моем случае так было сделать нельзя из за свободной формы написания объявлений(часто с ошибками и различными сокращениями)
Несколько лет назад существовал сервис Sobnik, который решал смежную задачу: он парсил сайты с объявлениями о квартирах и отделял фейковые (риэлторские) от реальных. Автор cerber был доступен в VK и отвечал на вопросы, чинил баги. Жаль, что эта штука больше не работает. Посмотрите, может быть найдете что-то полезное.
https://habrahabr.ru/post/237869/
https://habrahabr.ru/post/240941/
Спасибо. Читал обе эти статьи. Пока что борюсь с агентами вручную с помощью черных списков.
До первой жалобы в ркн этот сайт будет работать. Лучше не дожидаться. Имена-фамилии и телефоны выложены.
В этом проблема большинства агрегаторов: все хотят п*здить контент, но никто не хочет заниматься актуализацией.
Что вы подразумеваете под актуализацией?
Весь контент взят из публичных источников( в том числе имена и телефоны).
Весь контент взят из соцсети. Люди давали объявление именно там. Никто на вашем сайте не регистрировался и ничего не размещал. Через месяц информация может быть уже неактуальной, а у вас она будет висеть годами. Пользователей (многих) это бесит.
Вот лично я, если бы мое объявление взяли, даже не стал бы тратить время на поиск контактов на вашем сайте (которых, кстати, нет), я просто сразу накатал бы жалобу.
У вас странные представления об «открытом доступе».
В общем, как я уже писал, вы просто хотите брать бесплатный контент без всяких усилий, при этом не нести никакой ответственности ни за достоверность, ни за что-либо вообще.
Если что, объявления удаляют, и можно это отслеживать и так же удалять.
Единственное, что правда надо добавить — дату размещения объявления чтобы без переходов и лишних кликов знать стоит ли писать. Ну и ссылаться не на личку, а на профиль чтобы обманщиков сразу вычислять
1. Проблема в том, что и посетителей это дезориентирует. Часто бывает, связываешься с кем-то по телефону, а в ответ тирада о том, что объявление давали уже год назад или даже раньше, ну а потом оно пошло по разным нано-сайтам и будет еще ходить очень долго.
2. Проблема личных данных существует и это не миф. У меня есть сайт с регистрацией, пользователи сами размещают анкеты, тем не менее уже 2 раза РКН меня беспокоил по поводу жалоб. В первом случае пользователь был немного неадекватный и то ли забыл, что регистрировался, то ли даже не знаю — в общем, накатал жалобу, что его данные у меня на сайте размещены без его согласия.
Во втором случае просто кто-то разместил не свою информацию.
Оба раза хостер блокировал работу сайта, пока я не вышлю ему сканы документов, а после этого со мной связывался Роскомнадзор.
А касательно законности я бы посоведовал разузнать какие требования и выполнить их. Сервис имеет будущее, нужно лишь продолжать работать
По поводу актуализации данных: на сайте представлены данные только за последние две недели(каждый день объявления старше двух недель переносятся в холодную БД). Остальные объявления доступны только по прямой ссылке.

https://vk.com/licence
Размещая информацию в Социальной сети, в том числе учетные и иные данные, Лицензиат соглашается, что такая информация может быть доступна другим пользователям сети Интернет с учетом существующего функционала Социальной сети (который может изменяться время от времени Лицензиаром), а также что Лицензиар может ограничивать использование третьими лицами информации из Социальной сети, в том числе в коммерческих целях


По поводу ркн спасибо, нужно еще почитать и посоветоваться с знающими людьми.
Нашел небольшую статью у ркн

https://77.rkn.gov.ru/p3852/p13239/

3. Вопрос: Является ли обработкой персональных данных размещение фамилии, имени и отчества без иной дополнительной информации?

Ответ: Размещение на страницах сайтов в сети «Интернет» фамилии, имени и отчества без дополнительной информации, позволяющей идентифицировать физическое лицо как субъекта персональных данных, не может свидетельствовать об обработке персональных данных конкретного физического лица.

Обращаем Ваше внимание на то, что при размещении персональных данных в публичных сообществах социальных сетей следует разграничить вопросы защиты персональных данных и защиты чести, достоинства и деловой репутации.

В случае, если личная информация была взята из публичного, открытого профиля социальной сети, это не является правонарушением, поскольку данные были сделаны общедоступными самим гражданином (субъектом персональных данных), и в данном случае могут быть использованы третьими лицами.

Вопросы защиты чести, достоинства и деловой репутации решаются в порядке, установленным гражданским судопроизводством. Для чего гражданину необходимо обратиться в суд за защитой своих прав, свобод и интересов.
Но вы-то взяли не из профиля, а из объявления. Которое при необходимости пользователь может удалить вконтакте. Но почему он еще вынужден потом удалять очень долго это скопированное объявление на 100500 сайтах — вопрос интересный.
Вы, судя по всему не уловили сути: пользователь разместил информацию в публичном доступе — все, ни о какой приватности речи больше не идет.

Если вы объявления на заборах расклеите, а через день их снимите — вам так же будут с недельку-другую еще названивать.
Вопрос в том, что я размещал информацию, но не на сайте автора.
Впрочем, мне все равно. Жду автора на форуме серча в этом году со слезливой историей о том как его заблокировали и что теперь делать :)
не на сайте автора

В публичном доступе(общественном месте) — это где угодно, куда человек может беспрепятственно зайти(пройти).

Если вы размещаете свою информацию в таком месте — вы автоматически разрешаете неопределенному кругу лиц ею пользоваться. В том числе передавать устно и письменно третьим лицам.

Если вы не хотите, чтобы ваше объявление утащили на другой сайт — придется пользоваться закрытыми площадками «только по пропускам», у которых в ToS прописано, что они сами не передают никакую опубликованную информацию третьим лицам И запрещают пользователям ее передавать.

как его заблокировали и что теперь делать

Был бы человек… Поступят жалобы — могут и заблокировать.
Вот бы можно было в РКН писать, только если налоги заплачены, лицемерия было бы меньше. А то, я сомневаюсь, что лицо дающее объяву в ВК о сдаче квартиры в аренду делает это официально и платит потом НДФЛ.
Спасибо! Очень полезно.
Где нужно менять город в исходниках, чтобы обьявления парсились с нужного города? Спасибо.
Все это меняется в параметрах:

необходимо запустить скрипт sh bin/deploy (чтобы создались файлы параметров из dist файлов)

указать группы и паблики нужного города в конфигах парсера
https://github.com/mrsuh/rent-collector/blob/master/app/config/parser.yml.dist

добавить город и станции метро в фикстуры
https://github.com/mrsuh/rent-collector/blob/master/app/fixtures/city.yml
https://github.com/mrsuh/rent-collector/blob/master/app/fixtures/subway.yml

Запустить sh bin/install для загрузки фикстур в БД

Если что то будет непонятно — пишите в личку
Спасибо, очень интересно. Попробую такое же реализовать на рельсах для ФБ.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории