olegbunin Oct 23 2018 at 16:06

Вычисляем по IP: как бороться со спамом в социальной сети

19 min

40K

Badoo corporate blogКонференции Олега Бунина (Онтико) corporate blogHigh performance*Machine learning*Conferences

+68

Comments 50

wxmaper Oct 23 2018 at 16:46

Успехов им в этой нелегкой битве и спасибо за охрану наших личных сообщений, времени и спокойствия.
Их бы опыт, да в наши социальные сети.

GennPen Oct 23 2018 at 17:19

Stealth/Shadow ban — это вообще отвратительная штука. Если его все начнут применять, то можно стать параноиком и уходить из жизни социальных сетей, ибо в обычном бане тебя предупреждают и можешь видеть что ты забанен, а тут — вообще ничего без всяких предупреждений.

algotrader2013 Oct 23 2018 at 17:47

Зато в реальном мире применяется повсеместно) К примеру, перестают звать в курилку, не добавляют в чатики со ржаками.

GennPen Oct 23 2018 at 17:49

Будет как в Южном Парке, когда в одном из эпизодов все игнорировали Эрика Картмана.

Scalar Oct 23 2018 at 18:38

Shadow Ban применяется в основном для ботов и автоматических регистраций, а не для простых одиночных юзеров. Им как раз всегда явно сообщается когда и за что его забанили.

UFO just landed and posted this here

DjSebas Oct 24 2018 at 16:31

Ущербно это давать характеристику всей группе по нескольким индивидуумам. Сначала подумал, что это могло быть сарказмом, а потом посмотрел ваши комментарии. Зачем вы вообще заходите на этот сайт? Нести пропаганду в технологии?

SerafimArts Oct 24 2018 at 16:47

А ещё потом переписку таких людей читатют, анализируют и на HL++ в качестве материала для доклада рассказывают =)

Как разработчик — я прекрасно понимаю откуда подобный материал взялся. Техподдержка, потом дебаг ошибки и т.д. А вот как обычный пользователь — довольно неприятный момент.

amarao Oct 23 2018 at 17:51

А главное, если робот сказал в морг, значит в морг. Даже если человек ничего такого не имел в виду.

Scalar Oct 23 2018 at 18:38

Всегда есть служба поддержки, которая разберётся в любой спорной ситуации.

-6

amarao Oct 23 2018 at 22:28

Служба поддержки, которая что-то понимает и готова разбираться? Окаай.

+12

areht Oct 24 2018 at 07:21

И когда живому человеку из Shadow Ban полагается в СП обращаться?

Hexoglot Oct 23 2018 at 18:21

Спасибо интересно. А представьте бан где спамер получает сообщения в ответ, видит ленту и т.д. Но все не от реальных людей, а из симулятора сети. Подобие Труман Шоу.

bogolt Oct 23 2018 at 21:53

даешь полноценную эмуляция мира для каждого бота! =))

algotrader2013 Oct 23 2018 at 23:02

И тем не менее, это имеет смысл) Лишив бота обратной связи (уже забанен/еще не забанен), проверка гипотез для автора бота усложняется в разы.

bogolt Oct 23 2018 at 23:04

Я кстати об этом же думал на полном серьезе, но подозреваю что для этого потребуется слишком серьезная нагрузка на всю систему, которая вполне возможно сделает эту возможность не выгодной.

Skynet2034 Oct 30 2018 at 11:41

А если, например, просто собрать ответы юзеров спам-ботам? Проранжировать их по частоте, и соответственно — на запросы бота в Shadow Ban давать один из случайно выбранных ответов. Часто встречающиеся варианты ответов давать чаще, реже встречающиеся — реже.
Ну и если, к примеру, 90% юзеров блокируют бота после первого же сообщения — также блокировать его в 90% случаев.
Для большего правдоподобия — можно выбирать не из всех вариантов поведения юзеров, а только из вариантов их поведения с соответствующим классом спам-ботов (т.к. вы же этих ботов в любом случае как-то классифицируете).
Для бота — это уже почти эмуляция реального мира получится, и от Shadow Ban это даже вручную не так просто отличить будет.

vaslobas Oct 23 2018 at 23:18

А canvas fingerprint используете?

jrthwk Oct 24 2018 at 09:34

Пожелаем удачи этим упорным бойцам невидимого фронта и не будем мешать им в этой борьбе, регистрируясь в их замечательной сети.

fukkit Oct 24 2018 at 10:06

Абсолютно верно. Бадушечка со своей паранойей слишком инвазивна.
Ей уже мало номера телефона и кредитной карты, начинаются кривые заезды типа «а сделай-ка селфи с уродскими жестами? а с паспортом и свежей газетой? а то нам что-то прям не верится...», «из подсети вашего серого айпишника в 1917 году к нам приходил спам, поэтому мы не разрешим доступ с этого адреса. никогда.»

Понятно, технарям из пыльных чуланов большой картины не видно. У них свои маленькие радости: «мы еще лучше вычисляем по айпи! наши алгоритмы научились блокировать еще больше пользователей, но мы не остановимся!»

Площадка с жестким фильтром пользаков таргетируется, таким образом, как место встречи с послушными недалёкими кретинами, готовыми на всё ради… а ради чего, собственно? и кому такие нужны?

-2

DracoL1ch Oct 24 2018 at 11:35

Это всё легко и просто, когда фильтровать нужно не Вам, а вас. Спама мало не бывает, и против него все средства хороши. Тем более, что физически от этого пострадать невозможно — максимум остаться морально обиженным, что какая-то площадка требует фото. Что, мало других площадок с менее суровыми методами подтверждения? Пользуйтесь наздоровье.

fukkit Oct 24 2018 at 12:39

К счастью, такого рода сервисы мне лично не требуются.
Но само отношение к пользователям: «не нравится — проваливай, нам не нравишься — проваливай, алгоритмам нашим не нравишься — проваливай, похож на бота — проваливай, проваливай, проваливай, вас много — я одно!» мне не кажется нормальным.

Если вы считаете, что все методы, от которых «физически пострадать невозможно» допустимы к применению и достойны уважения, позволю себе с вами не согласиться.

Кроме того, Shadow ban на сайте знакомств — это запредельная фишка, я считаю.
Короли бизнес-этики… миссия провалена.

DracoL1ch Oct 24 2018 at 12:43

Не является нормальным, бесспорно, но при миллионах активных пользователей это вынужденная мера. Как любое заведение, которое оставляет себе право отказать в обслуживании без объяснения причин — лучше потерять десяток принципиальных, чем тысячи менее принципиальных из-за вредоносного спама. Они делают деньги, а не благотворительностью занимаются.
Уважение они не заслужили, но спамеры — еще большее зло, с которым нужно как-то бороться. А играть в бетмена или спайдермена с их кодексами справедливости не получится, уже 20 лет как существуют эти выродки, и конца-края не видно.

areht Oct 24 2018 at 15:39

Есть нюанс: одинокий человек, Shadow ban на сайте знакомств… Когда он пойдет в школе стрелять всех, кто ему не ответил?

-3

algotrader2013 Oct 24 2018 at 20:46

Так а в чем проблема, собственно?

таким образом, как место встречи с послушными недалёкими кретинами, готовыми на всё ради… а ради чего, собственно

Отличный портрет целевой аудитории многих онлайн проектов заточенных под монетизацию. Морально ли это? Ну хз. Дейтинг вообще не сильно о морали (вспоминаем Ashley Madison). Сфера такая.

QtRoS Oct 24 2018 at 10:05

Мне понравилось, интересная статья, реализация без космолетов, с декомпозиции по подзадачам.
Только вопрос такой возникает — получается, что сообщения все читаются, пусть и роботами? По отношению к пользователям это плохо.

DracoL1ch Oct 24 2018 at 11:33

Все крупные почтовики давным-давно читают тексты писем роботами и ничего, живут себе.

Pochemuk Oct 24 2018 at 11:54

Дальше мы из биграмм каждого сообщения получаем вектор, длина которого равна квадрату длины алфавита.

Задумался… Потом понял, что речь идет не о длине вектора, а о его размерности.
Согласитесь, что такие мелочи могут негативно сказаться на восприятии статьи в целом.

-1

AC130 Oct 24 2018 at 12:47

Интересно, а что вы подразумеваете под длиной вектора?

Pochemuk Oct 24 2018 at 13:10

Я — не подразумеваю. Есть определение длины вектора. Например, здесь:

ru.solverbook.com/spravochnik/vektory/dlina-vektora

И она никак не может быть квадратом длины алфавита.
А вот размерность вектора встречаемости биграмм как раз равна квадрату размерности алфавита.

AC130 Oct 24 2018 at 13:31

Это норма вектора как математического объекта. Ещё есть размер (size) вектора как структуры данных: http://www.cplusplus.com/reference/vector/vector/

Очевидно, оба понятия могут скрываться под словом "длина". Потому вы не правы, в контексте своих комментариев вы подразумеваете под длиной вектора его норму.

Pochemuk Oct 24 2018 at 13:49

Вы абсолютно правы — еще есть размер (size). Это если в программировании. В математике используется как раз понятие размерность.

Только вот к длине (норме) размер вектора никакого отношения не имеет. Длина — это длина. Она же евклидова длина или норма. А размерность (размер) — несколько другой иконостас.
И судя по контексту статьи, в данном случае имеется в виду именно размер, а не длина. Так и следовало бы писать.

AC130 Oct 24 2018 at 14:49

Имеет. Размер вектора — это его длина. Или число элементов.

Pochemuk Oct 24 2018 at 15:05

Ну да… можно и так сказать. Особенно если тупо использовать машинный перевод:

msdn.microsoft.com/ru-ru/library/3y41k4hb.aspx

Но корректней для вектора, как программной структуры, писать «размер» или «размерность».

eyeless_watcher Oct 24 2018 at 13:14

Вероятно геометрическую длину, корень из суммы квадратов компонент. Какой смысл это имеет для векторов из рассматриваемой области — вопрос отдельный.

mayorovp Oct 24 2018 at 13:16

Длина вектора — это синоним его нормы. Обычно подразумевается евклидовая норма, т. е. квадратный корень из суммы квадратов координат.

mSnus Oct 24 2018 at 12:00

А что, жалобы пользователей на спам и ботов там не реализованы? Самый действенный механизм после фильтрации серии сообщений!

Pochemuk Oct 24 2018 at 12:10

У меня только такой вопрос: А какую ответственность и перед кем несет ресурс за ложноположительные срабатывания банхаммера?

beerhack Oct 24 2018 at 12:43

Кто бы вас самих забанил за спам. Однажды зарегистрировался ради любопытства, спустя 2 месяца моей девушке пришел эмейл от баду, якобы я хочу сходить на свидание с девушкой такого-то возраста, пришлось объясняться. Доступ к контактам почты не давал, как узнали её эмейл и связали со мной без понятия.

finlandcoder Oct 24 2018 at 14:25

Машинленинг, блокчейн, биг-дата.
Твоей заднице — атата.

valery1707 Oct 24 2018 at 14:24

А чем провинился PornHub?

fukkit Oct 24 2018 at 17:52

Конкуренты. У них и девки поживее, и по IP не банят. Меньше бигдатЫ, больше годноты.

marperia Oct 24 2018 at 16:32

В статье не будет информации, которая упростит жизнь спамерам.

И далее следует список из триггеров, на которые срабатывают спам-фильтры с алгоритмами проверки пользователей.
А статья интересная, спасибо.

UFO just landed and posted this here

catharsis Oct 24 2018 at 16:53

Как вы определяете ложные срабатывания?

ZayDen Oct 25 2018 at 13:25

/mode calculation on

В Badoo зарегистрировано 390 миллионов пользователей

Они не знают, что каждую фотографию потом еще перепроверяют вручную модераторы.

/mode calculation off

valery1707 Oct 25 2018 at 15:24

Они не знают, что каждую фотографию потом еще перепроверяют вручную модераторы.

Так ведь это написано в разделе про фото-верификацию спамеров.
То есть чтобы твоя фотография была проверена модератором нужно:

попасть в список спамеров
заметить это (см. Stealth/Shadow ban)
подать жалобу (или как оно там называется) на выход из спам-листа
дойти до этапа фото-верификации (не думаю что он первый и единственный)
пройти нейросеть анализирующую фото (не думаю что 100% фото идёт на модераторов, наверняка самый трэш отсеивают)
и только теперь на вас посмотрит модератор

Так что там будет явно не 390 миллионов фотографий.

ZayDen Oct 25 2018 at 16:30

Captain Obvious

SeptiM Oct 30 2018 at 05:44

Интересный доклад, спасибо, что есть еще и в тексте. Было бы здорово, если б еще и была секция вопросов и ответов.

Непонятно только про IP адреса. Насколько это вообще осмысленно и дает ли какие-нибудь результаты? Сейчас же все сидят с мобилок за какими-нибудь LSN-ами. Блокировать IP адрес ОпСоС-а как-то странно…

UFO just landed and posted this here