Pull to refresh

Comments 7

Ну так в целом то как, довольны результатом вы и команда? Почему вы говорите, что со временем перейдёте на prometheus? По-моему prometheus это всё-таки немного другое. Я просто оба использую и prometheus больше для хранения каких-то числовых значений подходит, а icinga2 может и текст выдавать с ошибкой. По идее можно и алерты для prometheus настоить, чтобы числовые значания в текст ошибки переделывал.
Я сам использую icinga2 в пасивном (вот тут я по теме немного писал) режиме. Виндовс с клиентом Nsclient++ шлёт данные через NCSA, а линукс через api.
Я и доволен и нет, по причинам, описанным в выводах.
С одной стороны я вложил в это много сил и времени, это вроде как моё детище.
С другой ещё много над чем работать и некоторые проблемы вряд ли решатся, вроде медленной работы Puppet.

По поводу Prometheus — да, он получает метрики с хостов. У меня эти метрики шли в InfluxDb, а оттуда — в Grafana, где я делал графики с пределами Warning и Сritical, но это всё было только на мониторе. А надо было рассылать уведомления о превышении пределов всей ops-команде, тим-лиду разработчиков и каждому PM отдельно о его проблемах. С этим я тогда и не разобрался. Видимо, потому что рассматривал Prometheus именно, как систему мониторинга, а не как систему измерения производительности.
А надо было рассылать уведомления о превышении пределов всей ops-команде, тим-лиду разработчиков и каждому PM отдельно о его проблемах

А в Grafana, вроде, не так давно добавили алертинг.
А надо было рассылать уведомления о превышении пределов всей ops-команде

https://prometheus.io/docs/alerting/alertmanager/


А вообще мне кажется вы закопали одного мамонта и откопали другого.

Перевел две компании в Австралии с Nagios на Zabbix.
После этого Nagios/Icinga2 выглядят, как детские поделки.
Все довольны. Сравнивали с крупнейшими (и дорогими) проприетарными решениями — ни одна платформа не даёт того, что дает Zabbix.
Автоматизация — через API. Автоматически мониторится и настраивается мониторинг для AWS и On-Prem Windows, Linux, Solaris, VMware + мониторинг служб, сервисов, приложений, сетевых устройств и прочего.
Причины отказа от Zabbix указаны в статье — база данных, построение фактически всей структуры с нуля и невозможность контроля версий.

Поддерживаю. Лучше Zabbix в мире open source мониторнга IT-инфраструктуры пока что ничего не придумали! У него богатый встрноенный функционал и самое главное — это так называемый "metric driven" подход. В отличии от Nagios/Icinga/Check_MK/..., которые работают только с текущим состоянием системы (ну или через всякие костыли могут использовать предыдущие значения).


Примеры внедрения:


  • крупный государственный банк Украины: использовали Zabbix начиная с версии 1.8 и до сих пор продолжают использовать для мониторнга всей IT-инфраструктуры (центральные офисы, филлиалы во всех областях, а также вся сеть банкоматов по стране);
  • австралийская хостинговая компания: отказались от Check_MK и перешли на Zabbix. В компании используется принцип "Infrastructure as a Code". Настройки всех хостов хранятсяв Puppet/Hiera. Об изменениях настроек триггеров сообщается с помощью email уведомлений.

Почему не Prometheus? Он хорош для среды разработки, когда инфраструктура изменяетсся чуть ли не ежесекундно. Но некоторых важных мне функций у него нет или они плохо реализованы:


  • разграничение прав доступа к данным;
  • визуализация связей между элементами мониторнга;
  • визуализация данных (да, желательно использовать Grafana, но это уже отдельный продукт);
  • млгиторнг логов;
  • долгосрочное хранение данных.

Я не утверждаю, что одна система лучше, а другая нет. У каждой системы совои достоинства и недостатки с своя сфера применения.

Sign up to leave a comment.

Articles