SZinkevich 29 янв 2020 в 10:06

Массивно-параллельная база данных Greenplum — короткий ликбез

5 мин

12K

Блог компании КРОКIT-инфраструктура*Хранение данных*Облачные сервисы*

+25

Комментарии 6

TimonKK 29 янв 2020 в 15:15

днём у нас работает пять ЦПУ, а вечером у нас поднимается 1 000 обработчиков, и работает десять ЦПУ. При этом не нужно делать баланс данных, потому что они лежат внутри одного хранилища

— подскажите, как это сделано без баланса данных? В Greenplum же нужно заранее задать кол-во сегментов, на которые делятся данные. И каждый сегмент обрабатывает одно ядро

SZinkevich 29 янв 2020 в 15:28

На текущий момент можно менять число сегментов только в большую сторону с последующим распределением данных на сегментах. А в будущем можно будет хранить все на S3 и менять число сегментов динамически и в большую и в меньшую сторону.

«И каждый сегмент обрабатывает одно ядро».
На самом деле сегмент может загрузить больше одного ядра, если параллельно выполняется несколько запросов.

TimonKK 29 янв 2020 в 23:18

Так а как тогда

При этом не нужно делать баланс данных

? Т.е. всё таки данные перераспределяются (решардятся) между сегментами?

darthunix 30 янв 2020 в 09:07

А реализация S3-совместимого хранилища в облаке КРОК поддерживает S3 Select? И, если не секрет, какое вы используете решение для хранения в S3?

SZinkevich 30 янв 2020 в 13:19

У нас S3 на базе Ceph, S3 select пока не поддерживает.

darthunix 30 янв 2020 в 16:53

Без S3 Select (при том желательно с поддержкой SIMD/SSE для фильтрации) вы не построите эффективное разделение слоя хранения (S3) и слоя вычислителей (Greenplum). И все данные будете лить через PXF и фильтровать их узлами Greenplum, что неэффективно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий