Как стать автором
Обновить
0
Randy Cambell @samodum

Пользователь

Отправить сообщение

Определяем «неправильные» слова при борьбе со спамом

Время на прочтение3 мин
Количество просмотров6.3K
При борьбе со спамом на форуме возникла идея автоматически отлавливать слова, внешне похожие на «нормальные», но фактически отличающиеся от шаблонных, имеющихся в базе стоп-слов. Делается это путём замены кириллических символом на латиницу и наоборот. Например, «Пpoдaeм бeтoн» и «Продаем бетон» только внешне выглядят одинаково, а на самом деле они отличаются друг от друга.
Вот я и написал небольшую функцию для уменьшения энтропии Вселенной, которая определяет (если сможет) язык, на котором написано слово, и заменяет его на нормальное. Затем проверяем это слово по списку стоп-слов и принимаем решение, запрещённое оно или нет :)

(Красным цветом помечается кириллица, синим- латиница или цифры)
Код функции внутри
Всего голосов 61: ↑46 и ↓15+31
Комментарии32

Информация

В рейтинге
Не участвует
Откуда
Сербия
Зарегистрирован
Активность