ru_vds Jun 6 2020 at 20:00

Как обработать датафрейм с миллиардами записей за считанные секунды?

4 min

16K

RUVDS.com corporate blogWebsite development*Python*

Translation

+37

Comments 9

somurzakov Jun 7 2020 at 01:16

что только не придумают питонисты, лишь бы не использовать SQL. Боюсь меня заминусуют, но ведь эти все задачи решаются простейшим SQL?

sergeypid Jun 7 2020 at 08:57

Я б заминусовал

AigizK Jun 7 2020 at 11:39

Не знаю как у питонистов, но DataScience работает с большими данными, и проводят много экспериментов. Отсюда и требования. Например мы данные из DB2 пересохранили в Dataframe т.к. это удобнее, Dask кластерами можно быстро подсчитать. То что можно загрузили в Google и теперь в разы быстрее считаем с помощью BigQuery. Но надо понимать что это стоит уже денег.

sshikov Jun 7 2020 at 15:27

Я не знаю точно, чему эквивалентны датафреймы в пандас, но в спарке они эквивалентны именно SQL. Поскольку спарковский API когда-то срисовали с пандас, подозреваю что тут все тоже самое.

То есть, их API — это именно API для построения SELECT и получения результата. А внутри — движок, который строит, оптимизирует и исполняет ровно такие же планы запросов.

Hardcoin Jun 7 2020 at 21:37

А смысл? Вы конечно можете посчитать standart deviation в базе, но на практике это не особо-то удобно, особенно если колонок много. На второй раз надоест набирать длинный запрос (но можно, конечно, героически сопротивляться, зато sql). А потом захочется поменять две колонки местами или в sklearn отправить, что бы линейную модель построить. Тоже это в базе данных будете делать? Это займет в десять раз больше времени.

jugard Jun 8 2020 at 15:44

Потому что это не для программистов. Это для того чтобы быстро и в лоб посчитать какую-нибудь штуку, в статье даже встречается словосочетание «анализ данных». В компаниях, где софт не производят а используют, постоянно приходится считать что-то простое на больших объёмах данных, выгружаемых из разного глючного софта, коего в мире не больше 10 экземпляров, с недокументированным внутренним устройством, умеющего делать экспорт в csv.
Если программисты перестанут писать софт с недокументированным внутренним устройством и закрытым исходным кодом, то питонистам такие библиотеки станут не нужны. Конечно, за исключением случаев обработки любых данных, накопленных до наступления Светлого будущего или полученных из старого софта.
Осталось донести необходимость такого подхода к созданию программ до менеджеров проектов, директоров и акционеров ВСЕХ компаний, занимающихся разработкой, распространением и поддержкой софта и заставить менеджмент и акционеров других компаний платить за такой софт.

SkyKing Jun 8 2020 at 15:44

Но кто то просто не хочет учить что то новое так ведь?

tmin10 Jun 7 2020 at 16:52

Интересно сравнить этот формат файла с parquet или avro, например. CSV очень неоптимальный, что угодно будет лучше (но не проще) :)

zorn-v Jun 8 2020 at 15:44

А весь ваш «датафрейм» не умрет если памяти вдруг не хватит?
> что только не придумают питонисты, лишь бы не использовать SQL.

тоже мнене