dsosnin 20 авг 2013 в 00:02

Как спам-ловушки помогают бороться со спамом?

3 мин

18K

Комментарии 14

Shajtan 20 авг 2013 в 00:51

Я у себя сделал о как: всё, что валится на адреса типа admin@, sail@ и т.п. — идёт на вход байесовского фильтра для обучения спаму. Правда, сейчас у него база уже вполне себе обученная, и пропускает крайне редко — а вот на первых порах очень даже помогало.

Интересно вот что: существуют-ли проекты по агрегации спама для централизованного обучения фильтров? Скажем, я заворачиваю в этот проект свои письма на admin@ — и благодаря этому обучаются RBL-фильтры, байесы и тому подобные механизмы. Или это нерентабельно, и нужная база накапливается силами провайдера почты или хозяев RBL-листа?

bolk 20 авг 2013 в 09:25

Интересно вот что: существуют-ли проекты по агрегации спама для централизованного обучения фильтров? Скажем, я заворачиваю в этот проект свои письма на admin@ — и благодаря этому обучаются RBL-фильтры, байесы и тому подобные механизмы.

Не взлетит такой проект. Спамеры будут туда слать всякую пургу, чтобы «отравить» фильтр.

track 20 авг 2013 в 09:32

Ну вот есть Akismet, и в него упорно шлют мусор, чтобы его «отравить». Но судя по тому, что этот мусор успешно помещается в spam, как-то это не работает, видимо. Возможно дело в размерах системы.

bolk 20 авг 2013 в 14:21

У него довольно много ложных срабатываний и не срабатываний на спам. Я его использовал.

track 20 авг 2013 в 14:28

Возможно у вас масштабы иные, но у меня на примерно 300 спам-сообщений в блоге в неделю в среднем не прорывается через Акисмет ни одно, а ложные срабатывания случаются крайне редко, и в совсем клинических случаях, в виде fake email в качестве обратного адреса.

Shajtan 20 авг 2013 в 11:32

Пофантазируем: есть приёмник, в который приходит письмо. Это письмо — спам, по крайней мере, так должна функционировать система. И на основе этого письма должно произойти некое действие — обучение фильтра, добавление строки в таблицу RBL, и т.п. Однако, давайте не будем верить письму — давайте сначала прогоним его через байеса. Известно ведь, что обученный байес довольно точно выдаёт решение — спам или нет, используя при этом оценку вероятности от 0 до 1 (причём одни реализации выдают вероятность того, что письмо — спам, другие же оперируют с вероятностью «чистого» письма, хотя понятно, что эти числа связаны). Допустим, наш фильтр считает вероятность того, что письмо — спам. Нормальный результат при этом будет плясать в районе 0.8 — 0.999. А теперь посмотрим, чем мы будет «травить» фильтр? Ведь в нашем случае травить придётся нормальной корреспонденцией, на которую байес выдаст число от 0 до 0.4. Так в чём проблема — просто отбрасываем такие письма и не кормим ими фильтр.

bolk 20 авг 2013 в 14:21

Если ваш фильтр уже успешно фильтрует спам, зачем его обучать? Если не успешно, то с чего он удаляет то, что считает не спамом? Мы же его обучаем!

Shajtan 22 авг 2013 в 00:12

Хм, ещё раз. Задача сервиса — составить базу для антиспам-фильтра и список адресов, с которых рассылается спам. Задача байесова префильтра — отсечь явно ложные письма, которыми могут намеренно портить базу. Истинный спам — будет определён, будет дополнена база байеса и список адресов релеев.

bolk 22 авг 2013 в 08:43

Так злоумышленники могут и не кормить «явно ложными» письмами. Будут давать что-то на грани, постепенно качество вашей базы упадёт до нуля.

switlle 20 авг 2013 в 09:31

А вот что мне ещё интересно. Но сколько такая система централизованного обучения фильтров могла бы быть подвержена атаке на ложные срабатывания. Т.е. что мешало бы спамерам заставить своих жертв спамить эту систему нормальными письмами. В результате система обучится на нормальных письмах и перестанет функционировать. И все выпилят её со своих серверов

J_o_k_e_R 20 авг 2013 в 10:00

sail@

Чем Вам моряки не угодили?

(«Продажи» — sale)

Shajtan 20 авг 2013 в 11:18

Ой. И ведь чувствовал, когда коммент писал, что что-то не то…
Впрочем, подобные ошибки у меня не редкость, и по эпичности моряки выше не сравняться с тем, что я творил в школе на уроках английского. Колумб у меня отправлялся в плавание на овцах (sheep — ship), жена называла мужа оленем (deer — dear), а уж добил я как-то англичанку рассказом о том, что мне, в принципе, мягкие карандаши нравятся больше, чем жёсткие (очень уж рисовать любил тогда). И всё бы ничего — но вместо «пенсил» я почему-то (Фрейд охренел бы на месте) говорил «пенис». Собственно, я только через пару-тройку лет понял, почему англичанка тогда, во время моего очень серьёзного рассказа, мелко тряслась и похрюкивала.

luckyredhot 20 авг 2013 в 12:19

Видимо, моряконенавистник ;-)

casperrr 20 авг 2013 в 10:11

admin, abuse, postmaster — самые распространенные и обреченные на сбор спама адреса.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий