vmalyutin Oct 21 2019 at 15:21

Вокруг Света за 4 Секунды на Columnstore (Часть 1)

18 min

7.9K

PostgreSQL*

From sandbox

+15

Comments 6

AterCattus Oct 21 2019 at 22:30

Почти 16 секунд на 52 миллиона строк выглядит как-то очень медленно. Тестировали ли вы это на большем объеме? Будет ли оно пропорционально замедляться?

Ну и как я понимаю, весь column-based датасет целиком влезает в память виртуалки (т.е. получаем 16 секунд перелопачивания in-memory данных), а row-based уже нет, и системе приходится читать с диска (что сильно все замедляет).

vmalyutin Oct 23 2019 at 14:27

В следующей части попробую найти, такой датасет, который будет иметь другое распределение и не будет влезать в память. Там и поглядим, что будет.

piton_nsk Oct 22 2019 at 16:56

Данные в operational_data, historycal_data надо регулярно загонять руками или как?

vmalyutin Oct 23 2019 at 14:29

В operational можно триггерами, а вот в historical только руками. Хорошая новость, что управляя секциями лаг будет минимален.

m1ke_cerber Oct 23 2019 at 14:29

Интересно. А вы случаем не проверяли как пойдут дела при объединении нескольких column-based таблиц?

vmalyutin Oct 23 2019 at 14:36

У Microsoft есть рекомендация не объединять column-based таблицы. Эти тоже не стоит, но в следующей части попробую. В целом, они подходят для агрегирующих запросов, где надо быстро достать данные и сделать нужные вычисления. В общем, думать надо над схемой.

Show the best of all time