Pull to refresh

Comments 6

Почти 16 секунд на 52 миллиона строк выглядит как-то очень медленно. Тестировали ли вы это на большем объеме? Будет ли оно пропорционально замедляться?

Ну и как я понимаю, весь column-based датасет целиком влезает в память виртуалки (т.е. получаем 16 секунд перелопачивания in-memory данных), а row-based уже нет, и системе приходится читать с диска (что сильно все замедляет).
В следующей части попробую найти, такой датасет, который будет иметь другое распределение и не будет влезать в память. Там и поглядим, что будет.
Данные в operational_data, historycal_data надо регулярно загонять руками или как?
В operational можно триггерами, а вот в historical только руками. Хорошая новость, что управляя секциями лаг будет минимален.

Интересно. А вы случаем не проверяли как пойдут дела при объединении нескольких column-based таблиц?

У Microsoft есть рекомендация не объединять column-based таблицы. Эти тоже не стоит, но в следующей части попробую. В целом, они подходят для агрегирующих запросов, где надо быстро достать данные и сделать нужные вычисления. В общем, думать надо над схемой.
Sign up to leave a comment.

Articles