Comments / Profile of lysevi / Habr

Программист

Profile Publications 1 Comments 9 Bookmarks 36

DariaDB. Разработка базы данных для хранения временных рядов

lysevi Mar 7 2017 at 19:41

Если брать готовое решение (абстрактный KV-сторадж или leveldb для конкретности), то их можно использовать, если они дают построить в памяти (ну или на диске) индекс таким образом, чтобы мы знали какие временные ряды имеются в хранилище, где они лежат на диске, чтобы не заниматься сканированием всего файла, а сразу сделать seek к нужным данным, а также уметь эффективно упаковывать значения временного ряда, потому что самое поле Value может почти не меняться для рядом стоящих замеров. Если абстрактный kv-сторадж это умеет, то его можно использовать вместо dariadb.

В dariadb заголовки индексных файлов лежат в памяти, по этим заголовкам мы определяем нужные нам файлы (индексные), проходим по ним и находим смещения нужных нам чанков, которые попали в запрос. Сами индексные файлы небольшие, для страницы в 1 мегабайт размером, индексный файл будет примерно 30 килобайт, при желании их вообще можно полностью держать в памяти. Причем сами индексы содержат статистику, поэтому для запроса среднего на интервале, или минимума за период, читать и распаковывать страницу не надо.

Что касается джоинов, то это вполне себе реализуемая вещь. Единственная проблема, что сейчас реализовано так, что упакованные данные для каждого временного ряда полностью вычитываются с диска в память, что в случае большого запроса скушает всё, что есть. Такой подход выбран, как самый простой в реализации. Позже это можно сделать "по правильному".

А вот с group by хотелось бы пример реального использования. Мне оно не встречалось, поэтому интересно зачем оно и как использовать.

Look

DariaDB. Разработка базы данных для хранения временных рядов

lysevi Mar 6 2017 at 15:00

а в dariadb эти данные считаются за один проход с диска, потом уже в памяти будут выдаваться последовательно для каждого временного ряда.

Look

DariaDB. Разработка базы данных для хранения временных рядов

lysevi Mar 6 2017 at 13:04

"хранить лучше каждый параметр отдельным хранилищем/файлом"

это смотря сколько значений. Знаю "скаду", где 100к временных рядов с разным шагом записи.

Look

DariaDB. Разработка базы данных для хранения временных рядов

lysevi Mar 6 2017 at 13:03

"выборка последнего значения по состоянию на момент времени, но не ранее заданного момента времени (фактически, выборка последнего значения в интервале);"

А это чем отличается от среза на момент времени? Вам фактически возвращается значение, которое не позднее заданного времени.

Look

DariaDB. Разработка базы данных для хранения временных рядов

lysevi Mar 6 2017 at 09:00

Почти угадали. Дарья — моя дочь.

Look

DariaDB. Разработка базы данных для хранения временных рядов

lysevi Mar 6 2017 at 07:40

Я считаю, что такие вещи, как запись статистических данных (среднее за час/минуту) не задача самого движка хранения. Да, в dariadb реализован метод stat, который выдаст вам для определенного измерения среднее значение, мин/максы. Но вот ведение параллельного временного ряда, со статистикой, это не задача движка. Я бы это вынес в серверную часть. Что я и сделаю в будущих версиях.
Что касается удаления. Сейчас есть два способа удалить:
- метод erase — который просто удалит страницы из интервала.
- метод compact (в ветке dev) — с его помощью можно не только удалить выборочно измерения, но и заменить группу замеров на 1.

Да, можно сделать сейчас и более элегантное удаление, как в leveldb (запись специального значения в базу, которое говорит, что у нас удалена какая то часть), но этого пока у меня нет в планах. Если найдется гурппа желающих, то сделаю.

Look

DariaDB. Разработка базы данных для хранения временных рядов

lysevi Mar 6 2017 at 07:33

1. как я понял, LMDB — key-value база, а это совсем не то, что база данных для timeseries. Я сильно не вчитывался, но если в lmdb можно сделать запрос интервала и среза, то ее можно использовать как timeseries.
2. Dariadb — хобби проект. Он не рассчитан (во всяком случае пока) на продакшн. Делался для себя, чтобы понять как оно там внутри.

Look

DariaDB. Разработка базы данных для хранения временных рядов

lysevi Mar 6 2017 at 07:29

А это эмпирически. дело в том, что я работаю с одной такой большой SCADA системой, так по опыту могу сказать, что 2 байт уже слишком мало, а 64 слишком много.

Look

DariaDB. Разработка базы данных для хранения временных рядов

lysevi Mar 6 2017 at 07:28

да. Вы правы. Тут нет необходимости создания объекта на куче.

Look