Как стать автором
Обновить

Комментарии 6

днём у нас работает пять ЦПУ, а вечером у нас поднимается 1 000 обработчиков, и работает десять ЦПУ. При этом не нужно делать баланс данных, потому что они лежат внутри одного хранилища
— подскажите, как это сделано без баланса данных? В Greenplum же нужно заранее задать кол-во сегментов, на которые делятся данные. И каждый сегмент обрабатывает одно ядро
На текущий момент можно менять число сегментов только в большую сторону с последующим распределением данных на сегментах. А в будущем можно будет хранить все на S3 и менять число сегментов динамически и в большую и в меньшую сторону.

«И каждый сегмент обрабатывает одно ядро».
На самом деле сегмент может загрузить больше одного ядра, если параллельно выполняется несколько запросов.

Так а как тогда
При этом не нужно делать баланс данных
? Т.е. всё таки данные перераспределяются (решардятся) между сегментами?

А реализация S3-совместимого хранилища в облаке КРОК поддерживает S3 Select? И, если не секрет, какое вы используете решение для хранения в S3?

У нас S3 на базе Ceph, S3 select пока не поддерживает.

Без S3 Select (при том желательно с поддержкой SIMD/SSE для фильтрации) вы не построите эффективное разделение слоя хранения (S3) и слоя вычислителей (Greenplum). И все данные будете лить через PXF и фильтровать их узлами Greenplum, что неэффективно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий