nAbdullin 7 окт 2019 в 10:11

Как с Prometheus собирать метрики, не искаженные привязкой ко времени

8 мин

8.3K

Блог компании СлёрмСистемное администрирование*Серверное администрирование*DevOps*

Перевод

+26

Комментарии 4

oraclehome 7 окт 2019 в 14:34

Сталкнулся недавно с подобной проблемой при обработке инкрементального счётчика: rate показывал довольно сомнительные результаты (видимо он делал именно то, что я его попросил). В итоге сейчас использую increase вместе rate — что дало более приближенный к правде результат. Хотя, полагаться на точность в prometheus не приходится, но в целом он даёт хорошую общую картину.

Вот тоже интересная статья которая помогла в понимании обработки снятых метрик: www.innoq.com/en/blog/prometheus-counters

aml 7 окт 2019 в 22:16

Изначально был выбран неправильный тип метрики для решения задачи. Стандартный джентльменский набор для веб-сервисов:

cumulative counter для числа обработанных запросов, отображать как rate
cumulative counter для числа ошибок (с разбивкой по типу ошибки), отображать как rate
histogram для времени обработки запросов, отображать как процентили
gauge для requests in flight, отображать, как есть

Сочетание 3 и 4 дало бы вам совершенно четкую картину вашей аварии: рост latency и рост числа запросов in flight.

ggo 8 окт 2019 в 09:58

В дополнение — если речь идет о воркерах и их аналогах, собирать статистику об их количестве, общем и активных.
Помимо процентилей, полезно собирать max. На большом трафике редкие аномалии по длительности на процентилях могут быть не видны. Чем раньше замечаем аномалии, тем лучше.

fessmage 9 окт 2019 в 08:40

Тот случай, когда комментарий полезнее статьи. Собирайте правильные метрики и тогда не будет проблем с их интерпретацией.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий