zoldaten 17 сен 2019 в 22:00

Как оптимизировать pandas при работе с большими datasetами (очерк)

3 мин

9.4K

Python*

Туториал

Комментарии 8

emkh 18 сен 2019 в 16:41

За упоминание категории — спасибо- раньше с этим не сталкивался в пандасе.

zoldaten 18 сен 2019 в 21:04

danke

sshikov 18 сен 2019 в 21:58

А почему датасет, который заведомо влезает в память, вы называете большим? Это какое-то ограничение инструмента, или просто пример, чтобы продемонстрировать оптимизацию?

zoldaten 18 сен 2019 в 22:22

Суть оптимизации — так считать датасет, чтобы он занял меньшее количество памяти. То есть, он не оптимизируется после полного считывания датасета в память, а сразу оптимизируется в процессе считывания. Если правильно понял ваш вопрос.
p.s. Кстати, поделитесь датасетами, если со спарком работали (судя по вашим статьям). Интересно, как их можно оптимизировать. Наверняка, там гигабайтные объемы.

sshikov 19 сен 2019 в 12:28

Не, я в оптимизации не сомневался ни минуты — вы сэкономили на 500 мегабайтах около 50, то есть 10%, это прекрасный результат, особенно с учетом затраченных небольших усилий. Вопрос скорее был о том, насколько 500 мегабайт реально много для данной технологии? Скажем, ограничен ли пандас 32 битовой адресацией, или может употребить всю память, какую дадут?

Насчет поделиться — у меня большая часть данных это просто конфиденциальное что-то, так что тут вопрос поделиться не стоит. Если хочется что-то побольше для экспериментов — я бы по опыту предыдущего проекта взял что-то типа OpenStreetMap или скажем базу ФИАС с адресами — над ними можно решить ряд интересных, в том числе практически, задач. Ну и объемы — не то чтобы прямо запредельные, но побольше.

НЛО прилетело и опубликовало эту надпись здесь

sshikov 19 сен 2019 в 12:30

Ну это понятно. Я имел в виду, есть ли специфика при работе с одним датасетом, упираемся ли мы в лимиты пандас, или только в доступную память машины (которая на сегодня примерно терабайт (дорого, но практически возможно), ну или скажем 128 гигабайт — не просто возможно, но и повсеместно)?

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Как оптимизировать pandas при работе с большими datasetами (очерк)

Комментарии 8

Публикации

Истории