Pull to refresh

Comments 13

Периодически возникает мысль найти дата-аналитика с базой информации о покупках и геолокации и попросить определить самое эффективное средство для профилактики гриппа.
Помимо самой базы было бы неплохо при решении указанной задачи ещё иметь разметку по медицинским показателям) Но это уже из разряда фантастики, такие датасеты просто незаконны. Только если люди сами пожелают участвовать в эксперименте и принесут вам свои данные, вы сможете провести анализ!
даты превышения эпидпорогов в каждом городе известны, отсутствие на работе можно вычислить по геометкам. конечно, данные окажутся не слишком чистыми (
Есть гипотеза, что из разрозненных источников будет очень тяжело связать данные) И в предложенных условиях выборка людей получится смещённой, то есть аудитория, охватываемая такими данными, будет содержать только определенный класс людей.
Статус Ozon Premium во многих наших кластерах оказался одним из определяющих атрибутов. Но таргетироваться на аудиторию потенциальных покупателей подгузников лишь по Ozon Premium – за гранью здравого смысла. Поэтому мне пришлось вырезать статус из всех данных. Да, я таким образом понизила метрики, но при этом повысила адекватность модели. На первое место вышли товары для новорожденных, а не раскрученный, популярный статус. Это было опыт, который научил отсекать товары, имеющие слишком большую значимость для модели.


Не понял (то есть, ничего не понял, но тут особенно не понял). На третьем триместре женщине сложно ходить за покупками и она начинает активно пользоваться доставщиками. Вроде из триместра логично следует приобретение озон-премиума, нет?
Да, это безусловно логично, что беременная женщина пользуется услугами доставки товаров. Но давайте поразмышляем: а только ли беременные покупают озон премиум? И вот тут мы понимаем, что ещё обширное множество людей оплачивают этот статус: родители с маленькими (до 3-х лет) детьми, маломобильные группы населения, очень занятые на работе люди заказывают доставку прямо в офис, а есть ещё просто домоседы. То есть этот признак вызывает переобучение модели и как следствие неверный таргетинг. Если его оставить, то рекламная кампания рискует быть неэффективной, ведь мы старгетимся не на беременных, а на тех людей, кто предпочитает доставку походам по магазинам.
Как и любой косвенный признак покрывает множество человечков больше, чем целевая аудитория.
Вернемся на шаг назад. Как я понимаю работу вашего приложения: вы анализируете косвенные признаки и некоторая модель говорит, что если у объекта есть некий набор косвенных признаков — он наш клиент (если грубо говорить, то признаки АБВ и БВГ — да, а БВ или ВГД — нет, но конкретная связка признаков может быть неизвестной, потому что модель — черный ящик).
Если я правильно понимаю эту часть, то дальше мне непонятно, каков критерий исключения признака, который эээ… крякает как уточка, ходит как уточка (и как беременная женщина) ну и является косвенным признаком беременной женщины.
Критерием отброса признака является чрезмерный вклад. То есть если получается, что АБВГД — да, а БВГД — нет, (то есть решение принимается на основе только одного признака А) и если существенное количество положительных решений принимается только на одном этом признаке, то считаем такой признак шумящим. В терминах уточек это означает, что не всё утка, что крякает :-)
Насчёт того, что модель — чёрный ящик, в общем случае верно. Для того, чтобы измерить вклад признака, мы предварительно строим классические модели разных семейств (линейные, там легко вернуть веса, и «деревянные» с реализацией feature importance) и возвращаем из них важность признака. Именно таким образом выявляем «чрезмерность» вклада той или иной покупки.
одна из очень популярных тематик – это астрология, гадания и т.п.

Одна из основных тем кликбейта с явной вредоносной нагрузкой, ещё можно предположить, что аудиторию подобной тематики не очень-то и беспокоит информационная безопасность.
Да, такое вполне возможно из-за особенностей интересов данной аудитории) есть гипотеза, что указанный интерес обратно пропорционален уровню IT-просвещённости
Боюсь, а точнее, уверен, что данная гипотеза подтвердится).
для таргетологов в целом тоже много полезной информации, чтобы понимать принципы формирования аудиторий
Sign up to leave a comment.