Как стать автором
Обновить

Комментарии 12

Здорово, но нужны прорывные фичи. На данный момент вопрос "чем Zabbix лучше Prometheus" на многих кейсах повисает без ответа. В плане автоматизации конфигурации Zabbix явно проигрывает, а это важная составляющая современных систем.

В плане автоматизации конфигурации всё у Zabbix хорошо. Используем низкоуровневое обнаружение (одна из основных киллерфич Zabbix. А скоро ещё и произвольны JSON формат можно будет использовать!), а также авторегистрацию агентов.


Вообще, если сравнивать с Prometheus, то последний хорош для среды разработки, когда инфраструктура изменяетсся чуть ли не ежесекундно. А вот для классической инфраструктуры (не все ещё летают в облаках) он не всегда подходит. Да и некоторых важных [мне] функций у него вообще нет или они плохо реализованы:


  • разграничение прав доступа к данным;
  • визуализация связей между элементами мониторнга;
  • визуализация данных (можно использовать Grafana, но это уже отдельный продукт);
  • мониторнг логов;
  • долгосрочное хранение данных.

Я не утверждаю, что одна система лучше, а другая нет. У каждой системы совои достоинства и недостатки с своя сфера применения.

О своём продукте сложно рассуждать объективно, но если посмотреть внимательно на рынок существующих решений по мониторингу (в том числе и коммерческих), то можно увидеть, что на данный момент именно Zabbix закрывает бОльшую часть различных сценариев. Мы создаём открытую универсальную систему мониторинга, которая работает со всеми возможными технологиями (auto-discovery/auto-registration, push/pull, agent-less, agent-based, SNMP, WMI, JMX, SSH, Telnet, SQL, IPMI, HTTP, Prometheus, и другие) из коробки, система расширяема и интегрируется с массой других решений.


Безусловно, есть и слабые места, которые мы знаем и над которыми работаем. Буквально на днях выходит новая мажорная версия Zabbix, она (я надеюсь) многих приятно удивит. Об этом будет подробная статья на Хабре.

Сталкивался с затыканикем JMX Gateway на дискавери большого числа метрик — никакой внятной документации о том сколько памяти/потоков надо что б собирать N метрик не нашел.

Сложилось впечатление что JMX мониторинг не особо активно используется

Проблему «решил» докидываем Heap
Мне кажется, тут — только эмпирика. Ведь отдача метрики через JMX занимает разное время. Один сервер загружен, и отдаёт значения за 1 сек, другой сервер отдыхает — и отдаёт за 1 мс. Соответственно, поток опроса в Java Gateway активен разное время.

Обычно такие вещи не вызывают вопросов, т.к. мониторится процент активных воркеров. Если их начинает не хватать — скэйлим горизонтально (их кол-во) или вертикально (Heap для Java Gateway). Ну либо разбираемся, чем они там, чёрт побери, занимаются :)

Алексей, спасибо за ответ и за Ваш труд. Моя любимая фишка в Zabbix — это стабильность. Работаю с коммерческим ПО мониторинга, там мониторинг системы мониторинга вещь абсолютно необходимая, Zabbix позволяет расслабиться!


Чего мне лично не хватает после комм. ПО — это ядра обработки событий, где можно выполнять пост-процессинг оповещений. Тут делается обогащение информацией из внешних источников, корреляция и т.п. Понятно, что это не совсем задача Zabbix, но вещи необходимая для больших систем. Жаль, что такой вещи вообще не видно в open source. Для качественных алертов приходится или делать много trigger actions на каждый чих или довольствоваться generic-средними-по-больнице алертами вида. Тргиггер А статус Critical.


По метрикам — tsdb с их labelами не догнать, наверное, но реализовать хранение метрик в tsdb было бы, наверное, здорово. Elastic для этого не лучший вариант, мне кажется.


Но уверен, вы все это знаете лучше меня.


Ну а так — по-мелочи — нельзя шаблон на один сервер несколько раз назначить с разными значениями макросов, это усложняет многие вещи, приходится lld ради lld.
В trigger expression нельзя в key имя хоста из макроса. Ерунда, но время отбирает :)


Ещё раз спасибо

Спасибо. Пост-процессинг событий (обогащение, корреляция, дедупликация и прочее) должен быть частью системы мониторинга, тут для меня нет сомнений. Без этого сложно обходиться. На данный момент я не готов сказать ничего определённого, но мы активно смотрим и в этом направлении. Несмотря на то, что кое-какие шаги мы уже сделали (trigger-level correlation, global correlation, tags), пока ещё далеко до полноценного решения.

Не минусуйте, пожалуйста, пишу с телефона и у меня небольшой опыт работы с zabbix, узлов 150-200 с 2000+ алертами


Мне в заббиксе не хватает облака шаблонов под стандартное оборудование.
Т.е можно конечно устанавливать шаблоны с сайта zabbix, но всетаки это очень скудный набор, часто приходилось лезть на форум, но и там не без изьянов. Конечно можно писать свои шаблоны, но это долго и под мелкие задачи неоправдано. Элементарный мониторинг windows клиента заставил меня писать свой шаблон, а все что нужно было загрузка диска, процессора и занятое озу.

НЛО прилетело и опубликовало эту надпись здесь
А почему не добавить в стандартные шаблоны с разворачиванием одной кнопкой?
Понимаете, лишние телодвижения, лишний раз искать и рыться
Второй пример популярная конфигурация Stack 3750 — пришлось опять искать и думать
Третим был APC 3000RT, только на форуме шаблон к нему
IPMI Supermicro (популярные модели матерей) — писать в ручную пришлось

Без стандартизации появится кучу всего нового, которое будет заменять, к сожалению
Почему не сделать репу шаблонов с стандартной поддержкой?

Ради часового мониторинга, я как неопытный пользователь Zabbix провозился с данными задачами 2-3 часа.

Я так понимаю, что в этом направлении уже ведутся работы.
В этом разделе уже собрано множество готовых решений/шаблонов для многих систем: https://www.zabbix.com/ru/integrations/

Мы планируем значительно расширить не только количество известных интеграций, но и предложить качественный набор шаблонов "из коробки".

Зарегистрируйтесь на Хабре, чтобы оставить комментарий