Hashbash Mar 3 2020 at 16:25

Как прогнозировать цены на авиабилеты?

4 min

7.8K

Website development*Data Mining*Machine learning*

Comments 4

prokuratdm Mar 3 2020 at 17:01

как предсказание в реальности идет? метрики же мерились на исторических данных?
в первую очередь интересны метрики уже обученной модели на новых\актуальных данных.

Hashbash Mar 3 2020 at 17:13

Обучение на истории без последнего месяца, метрики считаю только на последнем месяце. По поводу того, как оно будет себя вести на новых данных — логгирую все предикты, потом посмотрим, пока рано (этот функционал только вчера выкатил в прод).

vba Mar 31 2020 at 09:55

1TB* данных.

Подскажите пожалуйста, где бы такие данные взять? Заранее благодарю.

Чтобы обойти это ограничение пришлось итеративно обучаться на маленьких кусочках,

Подскажите, а почему вы не используете встроенный детектор переобучения, есть ли на то веские причины?

Стоп, у нас слишком много данных и они не помещаются в память

Dask DataFrame, не пробовали?

Hashbash Apr 1 2020 at 11:21

1. Публично такие данные никто не поставляет, насколько мне известно, но могу поделиться своими, если в личке объясните зачем
2. Не совсем понял вопрос. Как связан объем данных, который не помещается в память, и детектор переобучения?
3. Не вариант, так как у меня всего одна нода с 16 гб памяти. Он возможно помог бы если был бы кластер. К тому же, catboost не умеет пока обучаться распределенно — все равно собирать все на одной ноде.

Show the best of all time