Pull to refresh

Comments 4

как предсказание в реальности идет? метрики же мерились на исторических данных?
в первую очередь интересны метрики уже обученной модели на новых\актуальных данных.
Обучение на истории без последнего месяца, метрики считаю только на последнем месяце. По поводу того, как оно будет себя вести на новых данных — логгирую все предикты, потом посмотрим, пока рано (этот функционал только вчера выкатил в прод).
1TB* данных.

Подскажите пожалуйста, где бы такие данные взять? Заранее благодарю.


Чтобы обойти это ограничение пришлось итеративно обучаться на маленьких кусочках,

Подскажите, а почему вы не используете встроенный детектор переобучения, есть ли на то веские причины?


Стоп, у нас слишком много данных и они не помещаются в память

Dask DataFrame, не пробовали?

1. Публично такие данные никто не поставляет, насколько мне известно, но могу поделиться своими, если в личке объясните зачем
2. Не совсем понял вопрос. Как связан объем данных, который не помещается в память, и детектор переобучения?
3. Не вариант, так как у меня всего одна нода с 16 гб памяти. Он возможно помог бы если был бы кластер. К тому же, catboost не умеет пока обучаться распределенно — все равно собирать все на одной ноде.
Sign up to leave a comment.

Articles