cointegrated Sep 12 2017 at 13:21

Как понять, что ваша предсказательная модель бесполезна

15 min

25K

Machine learning*

From sandbox

+34

Comments 5

fireSparrow Sep 12 2017 at 14:36

Мне повезло, что за три года до моего прихода коллеги ввели простое, хотя и страшноватое правило: примерно 1% случайно отобранных заявок на кредитки одобрять в обход почти всех политик. Этот 1% приносил банку убытки, но позволял получать репрезентативные данные, на которых можно обучать и тестировать любые модели.

Я не занимаюсь ML, поэтому, возможно, вопрос глупый.
Имеет ли смысл брать этот 1% не путём случайной выборки, а оценивать, насколько заявка похожа на типичные, и выбирать самые нетипичные? Или это даст какое-то смещение результатов?

cointegrated Sep 12 2017 at 15:00

Вопрос на самом деле очень хороший :)
Бывают ситуации, когда так делать можно — можно погуглить «importance sampling» и «active learning». Но в тех задачах, с которыми я сталкивался, обычно не было универсальной, очевидной, да и вообще качественной меры сходства между заявками.
Имеет смысл вероятностный подход: более «подходящие» заявки имеют более высокий шанс попасть в лотерею (скажем, 3%), менее интересные — скажем, 0.1%. Но ненулевой шанс стоит давать почти всем, потому что потом можно будет перевзвесить наблюдения и получить репрезентативную (стратифицированную) выборку, на которой можно оценить что угодно.

comratvlad Sep 12 2017 at 14:55

Бывает весело, когда заказчику охота «крутую нейронную сеть» для специфичной задачи, но убедить его потратиться на сбор данных можно, только предоставив работающий прототип (создание которого невозможно без сбора данных (сбор которых невозможен без работающего прототипа (...))).

McSimEst Sep 12 2017 at 19:44

Спасибо за статью! Очень нам не хватало такой информации при прохождении курса от Яндекса и МФТИ. Такой опыт, как описан здесь, сильно повышает понимание, как выглядеть будет процесс на практике. Это необходимые для целостного понимания пазлы!

Tremere Sep 13 2017 at 10:20

хороший материал, с теми или иными моментами сталкивался в работе, но без такой методички конечно терял много времени

Show the best of all time