Pull to refresh

Comments 9

что только не придумают питонисты, лишь бы не использовать SQL. Боюсь меня заминусуют, но ведь эти все задачи решаются простейшим SQL?

Не знаю как у питонистов, но DataScience работает с большими данными, и проводят много экспериментов. Отсюда и требования. Например мы данные из DB2 пересохранили в Dataframe т.к. это удобнее, Dask кластерами можно быстро подсчитать. То что можно загрузили в Google и теперь в разы быстрее считаем с помощью BigQuery. Но надо понимать что это стоит уже денег.

Я не знаю точно, чему эквивалентны датафреймы в пандас, но в спарке они эквивалентны именно SQL. Поскольку спарковский API когда-то срисовали с пандас, подозреваю что тут все тоже самое.

То есть, их API — это именно API для построения SELECT и получения результата. А внутри — движок, который строит, оптимизирует и исполняет ровно такие же планы запросов.

А смысл? Вы конечно можете посчитать standart deviation в базе, но на практике это не особо-то удобно, особенно если колонок много. На второй раз надоест набирать длинный запрос (но можно, конечно, героически сопротивляться, зато sql). А потом захочется поменять две колонки местами или в sklearn отправить, что бы линейную модель построить. Тоже это в базе данных будете делать? Это займет в десять раз больше времени.

Потому что это не для программистов. Это для того чтобы быстро и в лоб посчитать какую-нибудь штуку, в статье даже встречается словосочетание «анализ данных». В компаниях, где софт не производят а используют, постоянно приходится считать что-то простое на больших объёмах данных, выгружаемых из разного глючного софта, коего в мире не больше 10 экземпляров, с недокументированным внутренним устройством, умеющего делать экспорт в csv.
Если программисты перестанут писать софт с недокументированным внутренним устройством и закрытым исходным кодом, то питонистам такие библиотеки станут не нужны. Конечно, за исключением случаев обработки любых данных, накопленных до наступления Светлого будущего или полученных из старого софта.
Осталось донести необходимость такого подхода к созданию программ до менеджеров проектов, директоров и акционеров ВСЕХ компаний, занимающихся разработкой, распространением и поддержкой софта и заставить менеджмент и акционеров других компаний платить за такой софт.
Но кто то просто не хочет учить что то новое так ведь?

Интересно сравнить этот формат файла с parquet или avro, например. CSV очень неоптимальный, что угодно будет лучше (но не проще) :)

А весь ваш «датафрейм» не умрет если памяти вдруг не хватит?
> что только не придумают питонисты, лишь бы не использовать SQL.

тоже мнене
Sign up to leave a comment.