Как помочь pandas в обработке больших объёмов данных? / Comments / Habr

N-Cube May 9 2020 at 19:12

Самого интересного не сказано — Dask это решение кластерное, так что готовый скрипт/ноутбук можно запустить на кластере! Например, можно создать кластер одинаковых инстансов AWS EC2 и на одном из инстансов запустить процесс-планировщик, а на остальных — рабочие процессы. Для примера вот мой скрипт инициализации (включает еще и установку разнообразного ГИС софта) на гитхабе: https://github.com/mobigroup/gis-snippets/blob/master/aws/ec2_launch_ubuntu_bionic_python3_dask_cluster.sh Замечу, что на практике стоит устанавливать dask непосредственно из https://github.com/dask/dask.git Также рекомендую посмотреть на связанные библиотеки визуализации больших данных — в том числе, позволяют легко отобразить сотни гигабайт (бинарных) данных на обычном лаптопе (например, на Apple MacBook Pro 15" 2013, 8GB RAM, не говоря уже про более современные) — https://github.com/holoviz/datashader и https://github.com/holoviz/holoviews

dev_marshak May 12 2020 at 17:39

Если вы много работаете с подготовкой данных больших массивов данных, которые нужно обрабатывать вместе. Посмотрите в сторону ClickHouse, работая с pandas столкнулся с не возможностью держать все данные в памяти, а иначе их было не обработать.
Решило проблему, обертка, которая умела сгружать данные в ClickHouse, там их подготавливать с помощью нативного API ClickHouse и уже после загружать в память pandas.
И это выполнялось в >10 раз быстрее чем в pandas, даже когда памяти хватало. Когда pandas уходил в своп, то процесс вообще останавливался, при этом ClickHouse справлялся отлично.

luck1ess May 12 2020 at 17:39

Привет, а какие юзкейсы даска? Когда вообще между спарком и даском стоит смотреть в сторону последнего?