Комментарии 8
За упоминание категории — спасибо- раньше с этим не сталкивался в пандасе.
+1
А почему датасет, который заведомо влезает в память, вы называете большим? Это какое-то ограничение инструмента, или просто пример, чтобы продемонстрировать оптимизацию?
0
Суть оптимизации — так считать датасет, чтобы он занял меньшее количество памяти. То есть, он не оптимизируется после полного считывания датасета в память, а сразу оптимизируется в процессе считывания. Если правильно понял ваш вопрос.
p.s. Кстати, поделитесь датасетами, если со спарком работали (судя по вашим статьям). Интересно, как их можно оптимизировать. Наверняка, там гигабайтные объемы.
p.s. Кстати, поделитесь датасетами, если со спарком работали (судя по вашим статьям). Интересно, как их можно оптимизировать. Наверняка, там гигабайтные объемы.
0
Не, я в оптимизации не сомневался ни минуты — вы сэкономили на 500 мегабайтах около 50, то есть 10%, это прекрасный результат, особенно с учетом затраченных небольших усилий. Вопрос скорее был о том, насколько 500 мегабайт реально много для данной технологии? Скажем, ограничен ли пандас 32 битовой адресацией, или может употребить всю память, какую дадут?
Насчет поделиться — у меня большая часть данных это просто конфиденциальное что-то, так что тут вопрос поделиться не стоит. Если хочется что-то побольше для экспериментов — я бы по опыту предыдущего проекта взял что-то типа OpenStreetMap или скажем базу ФИАС с адресами — над ними можно решить ряд интересных, в том числе практически, задач. Ну и объемы — не то чтобы прямо запредельные, но побольше.
Насчет поделиться — у меня большая часть данных это просто конфиденциальное что-то, так что тут вопрос поделиться не стоит. Если хочется что-то побольше для экспериментов — я бы по опыту предыдущего проекта взял что-то типа OpenStreetMap или скажем базу ФИАС с адресами — над ними можно решить ряд интересных, в том числе практически, задач. Ну и объемы — не то чтобы прямо запредельные, но побольше.
0
НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как оптимизировать pandas при работе с большими datasetами (очерк)