Comments 9
что только не придумают питонисты, лишь бы не использовать SQL. Боюсь меня заминусуют, но ведь эти все задачи решаются простейшим SQL?
Не знаю как у питонистов, но DataScience работает с большими данными, и проводят много экспериментов. Отсюда и требования. Например мы данные из DB2 пересохранили в Dataframe т.к. это удобнее, Dask кластерами можно быстро подсчитать. То что можно загрузили в Google и теперь в разы быстрее считаем с помощью BigQuery. Но надо понимать что это стоит уже денег.
То есть, их API — это именно API для построения SELECT и получения результата. А внутри — движок, который строит, оптимизирует и исполняет ровно такие же планы запросов.
А смысл? Вы конечно можете посчитать standart deviation в базе, но на практике это не особо-то удобно, особенно если колонок много. На второй раз надоест набирать длинный запрос (но можно, конечно, героически сопротивляться, зато sql). А потом захочется поменять две колонки местами или в sklearn отправить, что бы линейную модель построить. Тоже это в базе данных будете делать? Это займет в десять раз больше времени.
Если программисты перестанут писать софт с недокументированным внутренним устройством и закрытым исходным кодом, то питонистам такие библиотеки станут не нужны. Конечно, за исключением случаев обработки любых данных, накопленных до наступления Светлого будущего или полученных из старого софта.
Осталось донести необходимость такого подхода к созданию программ до менеджеров проектов, директоров и акционеров ВСЕХ компаний, занимающихся разработкой, распространением и поддержкой софта и заставить менеджмент и акционеров других компаний платить за такой софт.
Интересно сравнить этот формат файла с parquet или avro, например. CSV очень неоптимальный, что угодно будет лучше (но не проще) :)
> что только не придумают питонисты, лишь бы не использовать SQL.
тоже мнене
Как обработать датафрейм с миллиардами записей за считанные секунды?