Введение
Эта статья является компиляцией другой статьи. В ней я намерен сконцентрироваться на инструментах для работы с Big data, ориентированных на анализ данных.
Итак, предположим, вы приняли необработанные данные, обработали их, и теперь они готовы к дальнейшему использованию.
Существует множество инструментов, используемых для работы с данными, каждый из которых имеет свои преимущества и недостатки. Большинство из них ориентировано на OLAP, но некоторые также оптимизированы для OLTP. Часть из них использует стандартные форматы и сосредоточена только на выполнении запросов, другие используют свой собственный формат или хранилище для передачи обработанных данных в источник в целях повышения производительности. Некоторые из них оптимизированы для хранения данных с использованием определенных схем, например «звезда» или «снежинка», но есть и более гибкие. Подводя итог, имеем следующие противопоставления:
- Хранилище данных против Озера
- Hadoop против Автономного хранилища
- OLAP против OLTP
- Движок запросов против OLAP механизмов
Мы также рассмотрим инструменты для обработки данных с возможностью выполнения запросов.