Pull to refresh

Машинное обучение в микрофинансах: строим скоринговую модель для клиентов с пустой кредитной историей

Reading time 8 min
Views 15K

Нет кредитной истории — не дают кредиты, не дают кредиты — нет кредитной истории. Замкнутый круг какой-то. Что делать? Давайте разбираться.


Привет! Меня зовут Марк, я data scientist в компании Devim. Недавно мы запустили модель для скоринга заемщиков МФК “До Зарплаты”, у которых отсутствует кредитная история. Хочу поделиться опытом поиска данных, особенностями конструирования и интерпретации признаков.



Эта тема разбита на две публикации, в первой я расскажу о процессе поиска и конструирования признаков. Во второй части, о сравнении архитектур моделей, анализе результатов и интерпретации решений скоринга.


Часть первая. Конструирование признаков


Модели машинного обучения основаны на данных, качество и полнота которых является определяющим фактором успеха или неудачи функционирования модели. А что делать, если данных мало? Или если данные не достаточно информативны или не точны? Где найти дополнительную информацию и как её использовать при построении модели? Давайте расскажу как я решил эту проблему.


Факторы для оценки кредитного риска


Кредитный скоринг основывается на анализе характеристик заемщика, связанных с риском невозврата займа. Их можно разделить на общеэкономические и индивидуальные.


Общеэкономические факторы


Экономическая обстановка оказывает серьезное влияние на финансовое и психологическое состояние заемщика. Точнее оценить степень влияния, можно выделив факторы имеющие отношение к заемщику. Условно их разделяют на два уровня:


  • Факторы макроуровня — факторы, которые являются внешними для заемщика. К ним обычно относят ВВП, инфляцию, курс валюты и т.д.
  • Факторы микроуровня — это те, что характеризуют конкретного заемщика, например профессия, отрасль работы, средний уровень заработной платы и т.д.
    Сразу стоит отметить, что общеэкономические факторы служат как дополнительные. По мнению многих исследователей, информация, которая в них содержится, общая и слабо характеризует конкретного заемщика.

Индивидуальные факторы


Индивидуальные факторы содержат самую ценную информацию для скоринговой модели. Их тоже можно разделить на категории:


  • Демографические — возраст, пол, семейное положение и т.д.
  • Финансовые — доходы и расходы, доступ к финансовым ресурсам, наличие финансовых резервов.
  • Психологические — одни из самых информативных. Лучший источник таких данных — кредитная история. Кредитная история характеризует финансовую дисциплину клиента, содержит информацию о способности погашения конкретных сумм, показывает текущую заинтересованность в займе. Если кредитная история не сформирована, приходится искать другие источники информации: соцсети, поведение при заполнении заявки и д.р.
  • Контактная информация — её объем и состав влияют на риск невозврата займа.

Описание набора данных


Набор для обучения модели — 9500 заемщиков, впервые получивших заём в период с мая по декабрь 2018 года. Данные для тестирования — 1500 заемщиков за период с января по март 2019 года.


Временное разделение заемщиков используется по нескольким причинам. Во-первых, такое разделение делает маловероятной утечку информации из будущего. Во-вторых, это позволяет оценить устойчивость модели во времени. В PDL (Payday loan) микрозаймах суммы и сроки малы, в сравнении с другими видами займов, поэтому в качестве целевого признака выбран: просрочка платежей более чем на 15 дней.


Конструирование признаков


Конструирование признаков начнем с более общих — экономических, затем перейдем к индивидуальным.


Из общеэкономических макро-факторов удалось найти только один, стабильно доступный и регулярно обновляющийся фактор — курс рубля. Он доступен на сайте ЦБ за продолжительный период времени (есть возможность выгрузки данных в удобном формате), и главное — ежедневно обновляется. Курс рубля имеет стабильный нисходящий тренд. В необработанном виде такой фактор лучше не использовать. Через определенный промежуток времени значения признака выйдут за рамки попавших в обучающую выборку данных и будут неверно интерпретированы моделью.


Чтобы избежать негативных последствий, преобразуем курс рубля в отношении текущего курса(на момент рассмотрения заявки) к медианному значению за предыдущие 35 дней. Теперь признак характеризует не абсолютное значение курса рубля, а тенденцию(рост, падение, стабильное состояние) в рассматриваемый период. На графике 1 полученные данные. На графике 2 — процент дефолтных клиентов с разбивкой по категориям(падение, стабильность, рост).



График 1. Изменение курса рубля, по отношению к медианному значению за последние 35 дней.



График 2. количество дефолтных клиентов в зависимости от изменения курса.


Из экономических микро-факторов доступны: регион в котором работает заемщик, тип организации, профессия.


На первый взгляд, регион работы относится скорее к индивидуальным факторам, чем к общеэкономическим. Однако есть возможность добавить в данные общеэкономическую информацию через группировку регионов. На сайте росстата доступна информация о различных экономических показателях конкретного региона. Влияющими на вероятность дефолта оказались данные о среднем уровне заработной платы в регионе, стоимости фиксированного набора продуктов и величине суммы просроченных платежей по кредиту на душу населения. Для группировки регионов был выбран алгоритм агломеративной кластеризации. В качестве критерия связи использован метод Варда, который объединяет кластеры так, чтобы прирост дисперсии был минимальным. Получившиеся кластеры данных — на трехмерном графике.



Таблица сгруппированных регионов
1 2 3 4 5 6
Белгородская область Московская область Калужская область Рязанская область Тюменская область Республика Крым
Брянская область г. Москва Республика Карелия Смоленская область Республика Саха (Якутия) г. Севастополь
Владимирская область Республика Коми Архангельская область Тверская область Магаданская область Республика Дагестан
Воронежская область Мурманская область Ленинградская область Тульская область Республика Ингушетия
Ивановская область г. Санкт-Петербург Пермский край Вологодская область Чеченская Республика
Костромская область Камчатский край Свердловская область Калининградская область
Курская область Сахалинская область Красноярский край Новгородская область
Липецкая область Иркутская область Республика Калмыкия
Орловская область Новосибирская область Краснодарский край
Тамбовская область Хабаровский край Астраханская область
Ярославская область Амурская область Ростовская область
Псковская область Республика Башкортостан
Республика Адыгея Республика Татарстан
Волгоградская область Удмуртская Республика
Кабардино-Балкарская Р. Чувашская Республика
Карачаево-Черкесская Р. Кировская область
Республика Северная Осетия – Алания Нижегородская область
Ставропольский край Оренбургская область
Республика Марий Эл Самарская область
Республика Мордовия Ульяновская область
Пензенская область Курганская область
Саратовская область Челябинская область
Республика Алтай Республика Бурятия
Алтайский край Республика Тыва
Республика Хакасия
Забайкальский край
Кемеровская область
Омская область
Томская область
Приморский край

Еще один важный микроэкономический фактор — профессия. На рисунке ниже — данные о доли дефолтных клиентов с разбивкой по профессии из тренировочного набора данных.



На графике отчетливо видна зависимость вероятности дефолта от профессии. Для группировки заемщиков желательно применять один из общепринятых в экономическом сообществе принципов. Разбивка на категории с сайта росстата хорошо соотносится с данными, представленными на графике.


Разделение работников по категориям персонала
По категориям персонала работники подразделяются на руководителей, специалистов, других служащих и рабочих.
  • К руководителям относятся работники, занимающие должности руководителей организаций, структурных подразделений и их заместители (директора, начальники: управлений, отделов, смен и т.п., заведующие: производством, столовой, секцией, складом, прачечной, клубом, общежитием, камерой хранения и др., управляющие, председатели, капитаны, главные бухгалтеры и инженеры, мастера и т.п.).
  • К специалистам относятся работники, занятые на работах, как правило, требующих высшего или среднего профессионального образования: инженеры, врачи, преподаватели, экономисты, бухгалтеры, геологи, диспетчеры, инспекторы, корректоры, математики, медицинские сестры, механики, нормировщики, программисты, психологи, редакторы, ревизоры и т.п. К специалистам относятся также ассистенты и помощники названных наименований специалистов.
  • Другие служащие — это работники, осуществляющие подготовку и оформление документации, учет и контроль, хозяйственное обслуживание, в частности, агенты, архивариусы, дежурные, делопроизводители, кассиры и контролеры (кроме рабочих), коменданты, копировщики технической документации, секретари-машинистки, смотрители, статистики, стенографистки, табельщики, учетчики, чертежники.
  • К рабочим относятся лица, непосредственно занятые в процессе создания материальных ценностей, а также занятые ремонтом, перемещением грузов, перевозкой пассажиров, оказанием материальных услуг и др.


Часто встречающиеся профессии, такие, как водитель, менеджер, бухгалтер и др., могут по-разному характеризовать заемщика, в зависимости от конкретной сферы или типа организации. Например, водитель, работающий в такси и водитель, работающий в администрации города — это совершенно разные заемщики.


Чтобы добавить эту информацию в модель, разделим заемщиков по типу организаций, в которых они работают:


  • Коммерческие организации
  • Государственные организации
  • Индивидуальные предприниматели и самозанятые
  • Неработающие
  • Не указан тип организации

Чтобы проверить, добавляет ли разделение информации, посмотрим на график “доля дефолтных заемщиков сгруппированных по профессиям и типам организаций”.



Обозначение профессий и типов организаций
profession type of work
0 не указано 0 не указано
1 руководители 1 коммерческие
2 специалисты 2 государственные
3 другие служащие 3 ип, самозанятые
4 рабочие 4 не работающие
5 прочее

Из графика видно, что для некоторых профессий существенна разница, в каком типе организации работает заемщик. Неожиданные результаты получаются, когда заемщик указывает, что он не работает, но при этом указывает профессию. Дополнительный анализ данных показал, что такое поведение характерно для пенсионеров.


И последним общеэкономическим фактором, используемым в модели, является день месяца, в который подана заявка на заём. Вероятно, это связано с общепринятыми правилами выплаты заработной платы в России(например 10 и 25). Дни месяца разбиваются на два периода с 9 по 21е число включительно и остальные дни месяца.


Индивидуальные факторы


Демографические


В имеющихся у меня данных, есть всего четыре демографических признака:


  • Возраст заемщика (количество полных лет)
  • Стаж на последнем месте работы (в месяцах)
  • Семейный статус (холост, женат, замужем, гражданский брак, в разводе, не замужем, вдовец/вдова, не заполнено)
  • Количество членов семьи (совместно проживающих с заемщиком)

Финансовые


В данных о заемщиках есть информация о заработной плате и дополнительном доходе. Значение этих факторов часто завышается клиентами, поэтому они не содержат точной информации о финансовом положении заемщика, но позволяют примерно его оценить.


Психологические


У выбранной совокупности заемщиков отсутствуют займы, поэтому основной психологической (поведенческой) информации у нас нет. Но у 90% клиентов есть информация о количестве запросов кредитной истории за год, квартал, месяц, неделю, день, час. Таким образом, можно оценить потребность в займе в текущий момент и потребность в займе в исторической перспективе. Количество заявок на заем, поданное за короткий промежуток, добавляет информации о психотипе заемщика. (подал ли он одну заявку и ждет решения, а затем подает вторую при отказе. В этом случае будет мало займов за последний час, но много за последний день. Или заемщик подает заявки в разные организации и ждет решения от всех сразу.)


Контактная информация


При подаче заявки заполнение собственных контактных данных обязательно. Также желательно предоставление контактных данных двух близко знакомых людей. Что позволяет сформировать два дополнительных бинарных признака:


  • заполнен или нет контакт 2
  • заполнен или нет контакт 3

В итоге получаем следующие признаки:


  1. Изменение курса рубля, числовой признак
  2. Регион места работы, категориальный признак (6 категорий)
  3. Профессия, категориальный признак (5 категорий)
  4. Тип организации, в которой работает заемщик, категориальный признак (5 категорий)
  5. День месяца, в который подана заявка, бинарный признак — попадает в интервал с 9-е по 21-е число или нет
  6. Количество запросов кредитной истории за:
    • час
    • день
    • неделю
    • месяц
    • квартал
    • год
  7. Семейный статус, категориальный признак (8 категорий)
  8. Количество членов семьи, числовой признак
  9. Стаж на последнем месте работы, числовой признак
  10. Возраст заемщика, числовой признак
  11. Ежемесячный доход, числовой признак
  12. Дополнительный доход, числовой признак
  13. Заполнен или нет контакт 2, бинарный признак
  14. Заполнен или нет контакт 3, бинарный признак

Все перечисленные выше данные экономически обоснованны и легко собираемы. Несмотря на то, что они не несут в себе полной информации о заемщике, на их основе можно построить экономически эффективную и работающую модель.


О процессе выбора архитектуры и о получившихся результатах я расскажу в следующей статье.
Надеюсь, было интересно и полезно.


Паненко Марк, Devim

Tags:
Hubs:
+12
Comments 59
Comments Comments 59

Articles