Pull to refresh

Comments 7

>В то время как инструменты наподобие Spark могут эффективно обрабатывать большие наборы данных (от сотен гигабайт до нескольких терабайт),
практически, до сотен терабайт…

>для того чтобы полноценно пользоваться их возможностями обычно нужно достаточно мощное и дорогое аппаратное обеспечение.
Это не вполне правда. Дешево все равно не будет, диски и память стоят денег, но ничего экстра дорогого не нужно.

>И, в сравнении с pandas, они не отличаются богатыми наборами средств для качественного проведения очистки, исследования и анализа данных.
Вообще говоря, очистка это просто не совсем задача Spark, а конкретного приложения. Хотите pandas? А что вам мешает pyspark?
UFO just landed and posted this here
Скажите, какая версия Pandas использовалась?
Я проверил загрузку датасета на версии 0.24.1 и получил:
dtypes: float64(77), int64(6), object(78)
memory usage: 545.2 MB
Average memory usage for float columns: 1.29 MB
Average memory usage for int columns: 0.00 MB
Average memory usage for object columns: 5.52 MB

На версии Pandas 0.22.0:
dtypes: float64(77), int64(6), object(78)
memory usage: 861.6 MB
Average memory usage for float columns: 1.29 MB
Average memory usage for int columns: 1.12 MB
Average memory usage for object columns: 9.53 MB

Кол-во записей одинаковое, 171907 entries
Все-таки у Spark и Pandas совсем разные ниши и с теми данными, которые Spark обрабатывает, на десктопе с Pandas совсем нечего делать. Опять же инструменты с поддержкой sql для аналитиков часто более востребованы. Что не отменяет того, что это прекрасный инструмент для ad-hoc аналитики в умелых руках.
Статья интересная и полезная, но увы, 15-гиговую csv как ни оптимизировал, загрузить за раз не удалось, только чанками обрабатывать ((
Sign up to leave a comment.