Комментарии 14
Я у себя сделал о как: всё, что валится на адреса типа admin@, sail@ и т.п. — идёт на вход байесовского фильтра для обучения спаму. Правда, сейчас у него база уже вполне себе обученная, и пропускает крайне редко — а вот на первых порах очень даже помогало.
Интересно вот что: существуют-ли проекты по агрегации спама для централизованного обучения фильтров? Скажем, я заворачиваю в этот проект свои письма на admin@ — и благодаря этому обучаются RBL-фильтры, байесы и тому подобные механизмы. Или это нерентабельно, и нужная база накапливается силами провайдера почты или хозяев RBL-листа?
Интересно вот что: существуют-ли проекты по агрегации спама для централизованного обучения фильтров? Скажем, я заворачиваю в этот проект свои письма на admin@ — и благодаря этому обучаются RBL-фильтры, байесы и тому подобные механизмы. Или это нерентабельно, и нужная база накапливается силами провайдера почты или хозяев RBL-листа?
+1
Интересно вот что: существуют-ли проекты по агрегации спама для централизованного обучения фильтров? Скажем, я заворачиваю в этот проект свои письма на admin@ — и благодаря этому обучаются RBL-фильтры, байесы и тому подобные механизмы.Не взлетит такой проект. Спамеры будут туда слать всякую пургу, чтобы «отравить» фильтр.
0
Ну вот есть Akismet, и в него упорно шлют мусор, чтобы его «отравить». Но судя по тому, что этот мусор успешно помещается в spam, как-то это не работает, видимо. Возможно дело в размерах системы.
0
У него довольно много ложных срабатываний и не срабатываний на спам. Я его использовал.
0
Пофантазируем: есть приёмник, в который приходит письмо. Это письмо — спам, по крайней мере, так должна функционировать система. И на основе этого письма должно произойти некое действие — обучение фильтра, добавление строки в таблицу RBL, и т.п. Однако, давайте не будем верить письму — давайте сначала прогоним его через байеса. Известно ведь, что обученный байес довольно точно выдаёт решение — спам или нет, используя при этом оценку вероятности от 0 до 1 (причём одни реализации выдают вероятность того, что письмо — спам, другие же оперируют с вероятностью «чистого» письма, хотя понятно, что эти числа связаны). Допустим, наш фильтр считает вероятность того, что письмо — спам. Нормальный результат при этом будет плясать в районе 0.8 — 0.999. А теперь посмотрим, чем мы будет «травить» фильтр? Ведь в нашем случае травить придётся нормальной корреспонденцией, на которую байес выдаст число от 0 до 0.4. Так в чём проблема — просто отбрасываем такие письма и не кормим ими фильтр.
0
Если ваш фильтр уже успешно фильтрует спам, зачем его обучать? Если не успешно, то с чего он удаляет то, что считает не спамом? Мы же его обучаем!
0
Хм, ещё раз. Задача сервиса — составить базу для антиспам-фильтра и список адресов, с которых рассылается спам. Задача байесова префильтра — отсечь явно ложные письма, которыми могут намеренно портить базу. Истинный спам — будет определён, будет дополнена база байеса и список адресов релеев.
0
А вот что мне ещё интересно. Но сколько такая система централизованного обучения фильтров могла бы быть подвержена атаке на ложные срабатывания. Т.е. что мешало бы спамерам заставить своих жертв спамить эту систему нормальными письмами. В результате система обучится на нормальных письмах и перестанет функционировать. И все выпилят её со своих серверов
0
sail@
Чем Вам моряки не угодили?
(«Продажи» — sale)
+6
Ой. И ведь чувствовал, когда коммент писал, что что-то не то…
Впрочем, подобные ошибки у меня не редкость, и по эпичности моряки выше не сравняться с тем, что я творил в школе на уроках английского. Колумб у меня отправлялся в плавание на овцах (sheep — ship), жена называла мужа оленем (deer — dear), а уж добил я как-то англичанку рассказом о том, что мне, в принципе, мягкие карандаши нравятся больше, чем жёсткие (очень уж рисовать любил тогда). И всё бы ничего — но вместо «пенсил» я почему-то (Фрейд охренел бы на месте) говорил «пенис». Собственно, я только через пару-тройку лет понял, почему англичанка тогда, во время моего очень серьёзного рассказа, мелко тряслась и похрюкивала.
Впрочем, подобные ошибки у меня не редкость, и по эпичности моряки выше не сравняться с тем, что я творил в школе на уроках английского. Колумб у меня отправлялся в плавание на овцах (sheep — ship), жена называла мужа оленем (deer — dear), а уж добил я как-то англичанку рассказом о том, что мне, в принципе, мягкие карандаши нравятся больше, чем жёсткие (очень уж рисовать любил тогда). И всё бы ничего — но вместо «пенсил» я почему-то (Фрейд охренел бы на месте) говорил «пенис». Собственно, я только через пару-тройку лет понял, почему англичанка тогда, во время моего очень серьёзного рассказа, мелко тряслась и похрюкивала.
+1
Видимо, моряконенавистник ;-)
0
admin, abuse, postmaster — самые распространенные и обреченные на сбор спама адреса.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как спам-ловушки помогают бороться со спамом?