Как стать автором
Обновить

Комментарии 8

За упоминание категории — спасибо- раньше с этим не сталкивался в пандасе.

danke
А почему датасет, который заведомо влезает в память, вы называете большим? Это какое-то ограничение инструмента, или просто пример, чтобы продемонстрировать оптимизацию?
Суть оптимизации — так считать датасет, чтобы он занял меньшее количество памяти. То есть, он не оптимизируется после полного считывания датасета в память, а сразу оптимизируется в процессе считывания. Если правильно понял ваш вопрос.
p.s. Кстати, поделитесь датасетами, если со спарком работали (судя по вашим статьям). Интересно, как их можно оптимизировать. Наверняка, там гигабайтные объемы.
Не, я в оптимизации не сомневался ни минуты — вы сэкономили на 500 мегабайтах около 50, то есть 10%, это прекрасный результат, особенно с учетом затраченных небольших усилий. Вопрос скорее был о том, насколько 500 мегабайт реально много для данной технологии? Скажем, ограничен ли пандас 32 битовой адресацией, или может употребить всю память, какую дадут?

Насчет поделиться — у меня большая часть данных это просто конфиденциальное что-то, так что тут вопрос поделиться не стоит. Если хочется что-то побольше для экспериментов — я бы по опыту предыдущего проекта взял что-то типа OpenStreetMap или скажем базу ФИАС с адресами — над ними можно решить ряд интересных, в том числе практически, задач. Ну и объемы — не то чтобы прямо запредельные, но побольше.
НЛО прилетело и опубликовало эту надпись здесь
Ну это понятно. Я имел в виду, есть ли специфика при работе с одним датасетом, упираемся ли мы в лимиты пандас, или только в доступную память машины (которая на сегодня примерно терабайт (дорого, но практически возможно), ну или скажем 128 гигабайт — не просто возможно, но и повсеместно)?
НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории