Как стать автором
Обновить

Один подход к обнаружению веб-ботов, или Как мы использовали машинное обучение для классификации ботов

Время на прочтение10 мин
Количество просмотров7.7K
Всего голосов 3: ↑3 и ↓0+3
Комментарии6

Комментарии 6

НЛО прилетело и опубликовало эту надпись здесь

Че-то не понял, где вы взяли метки бот/не бот для обучения и валидации? Просто список юзерагентов где-то взяли? Но при написании реального бота упражнение "подставить ua актуального хрома" является хеллоу ворлдом

В принципе собрать первоначальную коллекцию не сложно. Фейковый UA как раз и будет «ахиллесовой пятой» у бота.
Берем айпи, делаем через ripe db запрос, видим названия популярных у скраперов/спамеров/сеошников датацентров, таких как hetzer, aws (заодно кстати видим гугл/яндекс с вероятностью процентов под 90..95), смотрим на UA, смотрим какие js хуки сработали, верней не сработали, смотрим на статистику запросов допресурсов, которые загрузит браузер, но не загрузит бот (селениум редко используют сходу). Смотрим на аналогичные метрики у посетителя, который сделал осмысленное действие (заказ, подписка, и тп), вот уже есть первая пища для ума.
Ну а далее, начинаются сплошные кастом решения, которые под каждый проект обычно рождают отдельно, универсального решения тут нет.
Ну так, в этом же и суть. Если бот собран на коленке, то для него и МЛ не нужен. Достаточно по ЮА + ripe db + факт незапуска js. А если бот качественный, то он не попадет в разметку, как бот, и, наоборот, алгоритм обучится не считать такое поведение ботовым.

Ну вот после отсева основной массы ботов, начинается тот самый кастомный этап сравнения поведения обычного юзера и бота. Каким бы умным не был бы бот, он не знает типовой модели поведения ваших посетителей (оформившие и выкупившие заказ например), а так как мы уже отфильтровали основную массу примитивных ботов, оставшиеся начинают выделяться на фоне общего траффика.

Метки «бот», «человек» и последующая классификации ботов были выставлены с помощью сервиса browscap, используя заголовок User-Agent, и с помощью экспертной оценки
Зарегистрируйтесь на Хабре, чтобы оставить комментарий