Pull to refresh

Comments 5

Мне повезло, что за три года до моего прихода коллеги ввели простое, хотя и страшноватое правило: примерно 1% случайно отобранных заявок на кредитки одобрять в обход почти всех политик. Этот 1% приносил банку убытки, но позволял получать репрезентативные данные, на которых можно обучать и тестировать любые модели.


Я не занимаюсь ML, поэтому, возможно, вопрос глупый.
Имеет ли смысл брать этот 1% не путём случайной выборки, а оценивать, насколько заявка похожа на типичные, и выбирать самые нетипичные? Или это даст какое-то смещение результатов?
Вопрос на самом деле очень хороший :)
Бывают ситуации, когда так делать можно — можно погуглить «importance sampling» и «active learning». Но в тех задачах, с которыми я сталкивался, обычно не было универсальной, очевидной, да и вообще качественной меры сходства между заявками.
Имеет смысл вероятностный подход: более «подходящие» заявки имеют более высокий шанс попасть в лотерею (скажем, 3%), менее интересные — скажем, 0.1%. Но ненулевой шанс стоит давать почти всем, потому что потом можно будет перевзвесить наблюдения и получить репрезентативную (стратифицированную) выборку, на которой можно оценить что угодно.
Бывает весело, когда заказчику охота «крутую нейронную сеть» для специфичной задачи, но убедить его потратиться на сбор данных можно, только предоставив работающий прототип (создание которого невозможно без сбора данных (сбор которых невозможен без работающего прототипа (...))).

image
Спасибо за статью! Очень нам не хватало такой информации при прохождении курса от Яндекса и МФТИ. Такой опыт, как описан здесь, сильно повышает понимание, как выглядеть будет процесс на практике. Это необходимые для целостного понимания пазлы!
хороший материал, с теми или иными моментами сталкивался в работе, но без такой методички конечно терял много времени
Sign up to leave a comment.

Articles