RUVDS.com corporate blog
Website development
Python
Comments 9
0
Datatable поддерживает тип Decimal? В pandas с этим типом как-то всё не хорошо было — то суммирование по нему криво работает, то значения неявно к float приводятся, и появляются хвосты после запятой.
0

Сравнение с pandas всё же не совсем корректно. Сравнивать надо с dask. Что на счёт этого? dask на мой взгляд довольно сырой, по крайне мере мне не удалось его использовать, заткнулся на операции remove duplications / merge. dask после "remove duplications" объединял все свои партиции в одну, что сводило на нет все преимущества обработки "out of memory" и параллелизма, и если потом попытаться вновь разделить данные на партиции, он крашился. После тех экспериментов dask я больше не трогал. Интересно, как будет работать эта библиотека?

0

Спасибо, поигрался. Быстро, но… зачем это всё, если можно загнать все нужные данные в Postgres (или любую RDBMS) и там делать то, что Datatable никогда не сумеет?

0
Говорят, что не все умеют в SQL. Не у всех есть/есть возможность установить RDBMS.
А данные анализировать как-то надо…

Я тоже думал — вдруг оно быстрее, за счет операций в памяти? но нет, чудеса, возможно, встречаются, но это не тот случай.
+1

С тех пор как товарищи из Яндекса выкатили Clickhouse — я всю аналитику провожу в нём.


Ничего быстрее, по моему, на данный момент нет. Пару миллиардов строк в секунду? Легко

0
Очень полезной метрикой было бы количество потребляемой памяти по отношению к загружаемому файлу. Пандас очень щедро с этим обходится и, зачастую, это приводит к падению «ядер» при работе в ноутбуках с большими файлами.
Only those users with full accounts are able to leave comments. , please.