Comments 7
Я сам использую icinga2 в пасивном (вот тут я по теме немного писал) режиме. Виндовс с клиентом Nsclient++ шлёт данные через NCSA, а линукс через api.
С одной стороны я вложил в это много сил и времени, это вроде как моё детище.
С другой ещё много над чем работать и некоторые проблемы вряд ли решатся, вроде медленной работы Puppet.
По поводу Prometheus — да, он получает метрики с хостов. У меня эти метрики шли в InfluxDb, а оттуда — в Grafana, где я делал графики с пределами Warning и Сritical, но это всё было только на мониторе. А надо было рассылать уведомления о превышении пределов всей ops-команде, тим-лиду разработчиков и каждому PM отдельно о его проблемах. С этим я тогда и не разобрался. Видимо, потому что рассматривал Prometheus именно, как систему мониторинга, а не как систему измерения производительности.
А надо было рассылать уведомления о превышении пределов всей ops-команде, тим-лиду разработчиков и каждому PM отдельно о его проблемах
А в Grafana, вроде, не так давно добавили алертинг.
А надо было рассылать уведомления о превышении пределов всей ops-команде
https://prometheus.io/docs/alerting/alertmanager/
А вообще мне кажется вы закопали одного мамонта и откопали другого.
После этого Nagios/Icinga2 выглядят, как детские поделки.
Все довольны. Сравнивали с крупнейшими (и дорогими) проприетарными решениями — ни одна платформа не даёт того, что дает Zabbix.
Автоматизация — через API. Автоматически мониторится и настраивается мониторинг для AWS и On-Prem Windows, Linux, Solaris, VMware + мониторинг служб, сервисов, приложений, сетевых устройств и прочего.
Поддерживаю. Лучше Zabbix в мире open source мониторнга IT-инфраструктуры пока что ничего не придумали! У него богатый встрноенный функционал и самое главное — это так называемый "metric driven" подход. В отличии от Nagios/Icinga/Check_MK/..., которые работают только с текущим состоянием системы (ну или через всякие костыли могут использовать предыдущие значения).
Примеры внедрения:
- крупный государственный банк Украины: использовали Zabbix начиная с версии 1.8 и до сих пор продолжают использовать для мониторнга всей IT-инфраструктуры (центральные офисы, филлиалы во всех областях, а также вся сеть банкоматов по стране);
- австралийская хостинговая компания: отказались от Check_MK и перешли на Zabbix. В компании используется принцип "Infrastructure as a Code". Настройки всех хостов хранятсяв Puppet/Hiera. Об изменениях настроек триггеров сообщается с помощью email уведомлений.
Почему не Prometheus? Он хорош для среды разработки, когда инфраструктура изменяетсся чуть ли не ежесекундно. Но некоторых важных мне функций у него нет или они плохо реализованы:
- разграничение прав доступа к данным;
- визуализация связей между элементами мониторнга;
- визуализация данных (да, желательно использовать Grafana, но это уже отдельный продукт);
- млгиторнг логов;
- долгосрочное хранение данных.
Я не утверждаю, что одна система лучше, а другая нет. У каждой системы совои достоинства и недостатки с своя сфера применения.
Миграция с Nagios на Icinga2 в Австралии