Pull to refresh

Comments 7

Прошу простить мои слова. Но я проникся сочувствием и соболезнованием.
У меня было:
— порядка 100-150 метрик с сервера (с разными интервалами опроса), всего 16 серверов
— потребность делать, часто, кастомные графики и дашборды, в том числе более менее рилтайм графики
— возможность делать графики программерам.

Получилось(при заведении ~70% метрик):
— перегруженный постгрес, в основном на запись, а сервачек простите с 15к sas дисками был. (думаю можно было бы заоптимизировать, но напурква на это тратить время)
— с графиками жопа, в основном, конечно, удобство построения. Отдать этот инструмент не админам в команде — нельзя
— за 2 недели база выросла до 6 гигов

В результате перешел на связку sensu+graphite, сейчас порядка 40 серверов, в среднем около 200 метрик на сервер. Мониторинг крутится на относительно старом серваке с 10к SCSI дисками (что-то вроде dl120 g3-g4).

PS В моем случае, одно из самых объемных, в плане данных, и в плане рилтаймовости, был как раз мониторинг самого rabbitmq :)
PPS Меня не спасли ни прокси, ни передача данных через rabbitmq, только я на пиотоне обвязку делал.
перегруженный постгрес, в основном на запись
Это с включенным Housekeeper или с выключенным?
Выключенным. Система поднималась для сравнения с другими вариантами. Через неделю стало понятно, что слищком много вопросов, а через три недели отказались, так как нагрузки не выдержит, а покупать железо и тратить время на оптимизацию было не интересно.

К тому же количество метрик у нас росло. Сейчас порядка 220 на сервер (это только метрики, без чеков).
Зависит от частоты опроса, но со сбором 8000 (40*200) метрик раз в 30-60 секунд Заббикс справится даже на Raspberry Pi. Да, хранение истории требует дисков и более мощного железа, но тут мы сами выбираем: либо нам нужны гигабайты истории либо нет. Это справедливо и для альтернативных систем мониторинга.
да безусловно. Хотя у меня, метрики делятся на два типа: с опросом: от 0,05s до 120s, по большей части 1-5s, и метрики приложение кидает само (например через statsd), тут бывает 150-200 значений в секнуду на ~50 метрик.
Я уже где-то писал тут. Zabbix нельзя тольком масштабировать горизонтально. В любом случае БД будет бутылочным горлышком. Для меня решения вроде sensu+graphite проще, нагляднее, а главное масштабировать не сложно и нет явного бутылочного горлышка.
Вообще статья была о некотором хаке в функциональность Zabbix и не затрагивала вопросы производительности… Это на случай если вы прочитали только заголовок а дальше воспользовались полосой прокрутки.
Only those users with full accounts are able to leave comments. Log in, please.