Pull to refresh

Типы личности по MBTI: влияние на восприятие рекламы

DCA (Data-Centric Alliance) corporate blogBig DataMachine learning
Привет Хабр! Анализируя пользовательские данные для нужд маркетинга и рекламы, мы решили исследовать влияние типа личности пользователя на то, как он реагирует на рекламное объявление. За основу решили взять, пожалуй, самую популярную типологию линостей MBTI (Myers-Briggs Type Indicator), известную еще с середины 20-го века. Многие крупные западные компании используют тесты MBTI при найме или при формировании команды для работы над проектами.

Но нас интересует, конечно, не готовность пользователя к командной работе, а влияние его типа личности на желание кликнуть по баннеру. Поэтому вопрос, который мы исследовали звучит так: «Могут ли типы личности влиять на CTR в рекламных кампаниях?»

В этой статье я расскажу о том как мы это делали.



Типология Майерс — Бригс


Типология Майерс-Бриггс включает в себя четыре характеристики.

  1. E—I — направленность жизненной энергии:
    Е (Еxtraversion, экстраверсия) — на внешний мир;
    I (Introversion, интроверсия) — на внутренний мир;

  2. S—N — способ ориентирования в ситуации:
    S (Sensing, здравый смысл) — ориентирование на конкретную информацию;
    N (iNtuition, интуиция) — ориентирование на обобщённую информацию;

  3. T—F — основа принятия решений:
    T (Thinking, мышление) — рациональное взвешивание альтернатив;
    F (Feeling, чувство) — принятие решений на эмоциональной основе;

  4. J—P — способ подготовки решений:
    J (Judging, суждение) — предпочтение планировать и заранее упорядочивать информацию;
    P (Perception, восприятие) — предпочтение действовать без детальной предварительной подготовки, больше ориентируясь по обстоятельствам.

Сочетание характеристик, описанных выше, даёт обозначение одного из 16 типов, например: JTSE.

Определение типа личности


Чтобы определить тип личности пользователя мы построили четыре классификатора, по одному для каждой из характеристик.
Для обучающей выборки мы использовали информацию одного из наших сайтов-партнеров, на этом сайте пользователь заполняет анкету, по которой определяется его тип личности. Объем выборки составляет около десяти тысяч пользователей.

Зависимая переменная в каждом из классификаторов — это классы характеристик. Например, для характеристики E-I: I — положительный класс (1), E — отрицательный класс (0).

В качестве независимых переменных мы использовали историю поведения пользователя в Интернете (посещенные страницы) за период, предшествующий прохождению теста на сайте-партнере. Адрес каждой посещённой страницы представляется в виде токенов: слов длинной от трех до десяти символов. Например, адрес habrahabr.ru/company/dca/blog/260845 преобразовывается в следующий набор токенов: ['http', 'habrahabr', 'company', 'dca', 'blog'].

После этого все данные случайно делятся на обучающую выборку (37.5%), выборку для feature engineering (37.5%) и тестовую выборку (25%).

Процесс feature engineering похож на тот, что мы используем для иерархической классификации сайтов, которая описана в нашей предыдущей статье, тем не менее, опишу его ниже.

Feature engineering


Для каждого токена в выборке для feature engineering мы вычисляем следующие характеристики

  • сколько раз встретился токен (total_number);
  • сколько раз встретился токен, при условии, что пользователь принадлежит положительному классу (true_number);
  • сколько раз встретился токен, при условии, что пользователь принадлежит отрицательному классу (false_number);

Далее считаем метрику distributed grade (dg) для каждого токена. Выбираем двадцать токенов с наибольшим значением этой метрики для каждого класса. В результате получаем сорок признаков. Значения признаков — условные вероятности принадлежности токена к классу: true_number к total_number и false_number к total_number.

Характеристики полученных классификаторов


Для классификации мы использовали Gradient Boosting Classifier из библиотеки scikit-learn. Для оценки качества классификаторов мы анализировали площадь под ROC кривой. ROC кривая – это графическая характеристика качества бинарного классификатора. Кривая отражает зависимость TPR (true positive rate) от FPR (false positive rate).



где TP — true positive, FP — false positive, FN — false negative, TN — true negative.

Площадь под ROC кривой AUC (Area Under Curve) является характеристикой качества классификации: чем больше значение AUC, тем лучше модель классификации.

В процессе подбора параметров нам удалось увеличить эту метрику с 0.63 до 0.77, с помощью поиска по решётке для параметров n_estimators(количество деревьев) и max_depth(глубина деревьев). В таблице 1 приведены итоговые значения площади под ROC кривой для каждого из классификаторов. А на рисунке ниже построены сами ROC-кривые.

Таблица 1: площади под ROC кривой классификаторов
E-I классификатор 0.763
S-N классификатор 0.793
T-F классификатор 0.768
J-P классификатор 0.768

ROC кривые классификаторов

Проверка на реальных данных


Ну вот мы и добрались до самого интересного. А именно до ответа на вопрос «Могут ли типы личности влиять на CTR в рекламных кампаниях?».

Чтобы это понять мы проанализировали данные одной из наших рекламных кампаний. При этом на аудиторию этой кампании не было наложено никаких ограничений. Всего в рамках этой кампании было сделано более 89-и миллионов показов. Для анализа мы использовали около 30 000 уникальных пользователей, которые кликнули по баннеру и 300 000 уникальных пользователей, которым хотя бы раз показывался баннер.

Далее, мы оценили вероятность пользователя принадлежать к одному из классов для каждой характеристики нашей типологии. Затем, взяли 10% пользователей с наиболее высокими вероятностями и 10% с наиболее низкими вероятностями. В каждой из групп мы оценили CTR и построили для него 95% доверительные интервалы по формуле Вильсона (wilson score interval)



где n — объём выборки,, где k — количество кликов, — альфа-квантиль стандартного нормального распределения.

Как видно из таблицы 2 для характеристик E-I и T-F различие в ctr составляет более 20% и является статистически значимым. В то время как для характеристик S-N и J-P различие в CTR статистически значимым не является. Таким образом, существуют рекламные кампании, в которых типы личности влияют на CTR.

Таблица 2: оценки CTR и доверительные интервалы
Extraversion
Introversion
8.7
11.4
(8.4, 9.0)
(11.1, 11.8)
Sensing
Intuition
10.2
10.0
(9.9, 10.6)
(9.7, 10.4)
Thinking
Feeling
9.5
12.5
(9.1, 9.8)
(12.1, 12.9)
Judging
Perception
10.0
10.7
(9.6, 10.3)
(10.3, 11.1)

Стоит отметить, что это результат для конкретной рекламной кампании, который во многом определяется тем, что именно в рамках нее мы рекламировали, внешним видом баннеров и т. п. Возможно, на других кампаниях значимое различие в CTR было бы у других характеристик.

Что дальше


Различие CTR в разных классах на 20% вдохновляет нас на применение знаний про типы личности при проведении рекламных кампаний. В ближайшее время мы планируем сделать восемь cегментов пользователей, доступных для таргетирования рекламных кампаний — по два на каждую из характеристик. Кроме того, перед нами стоит задача научиться до старта рекламной кампании понимать, какому типу личности информация из нее будет наиболее интересна.

Но это не единственное применение полученных нами сегментов. Информацию о типах личности можно использовать почти во всех сферах бизнеса.

Например, при проведении большой кампании по найму сотрудников (обычно это делают сети фастфуда, производственные предприятия и торговые сети) можно таргетировать рекламу на людей с определенными характеристиками. Таким образом уже на входе сужается воронка конверсии и заметно сэконмится бюджет.

Из менее очевидного – зная психотип пользователей сайта, компания может адаптировать его внешний вид и контентное наполнение, чтобы лучше соответствовать ожиданиям и, как результат, повышать продажи.

По сути любой бизнес, работа которого строится на взаимодействии с большим количеством клиентов через digital-каналы, сможет найти применение этих знаний для оптимизации своих процессов и построения более персонифицированных коммуникаций.

Полезные ссылки


» Здесь информация для тех, кто хочет поближе познакомиться с ROC кривыми
» Здесь можно изучить подробности о доверительном интервале, который мы использовали (wilson score interval)
» А здесь можно прочитать про типологию Майерс-Бриггс.
Tags:big dataмашинное обучениеmachine learningmbtiсоционикаdmp
Hubs: DCA (Data-Centric Alliance) corporate blog Big Data Machine learning
Total votes 34: ↑25 and ↓9 +16
Views29.1K

Comments 46

Only those users with full accounts are able to leave comments. Log in, please.

Information

Founded
Location
Россия
Website
datacentric.ru
Employees
51–100 employees
Registered