Oz_Alex Mar 17 2019 at 13:54

Миграция с Nagios на Icinga2 в Австралии

17 min

6.4K

System administration**nix*Puppet*

From sandbox

+18

Comments 7

de1m Mar 17 2019 at 19:32

Ну так в целом то как, довольны результатом вы и команда? Почему вы говорите, что со временем перейдёте на prometheus? По-моему prometheus это всё-таки немного другое. Я просто оба использую и prometheus больше для хранения каких-то числовых значений подходит, а icinga2 может и текст выдавать с ошибкой. По идее можно и алерты для prometheus настоить, чтобы числовые значания в текст ошибки переделывал.
Я сам использую icinga2 в пасивном (вот тут я по теме немного писал) режиме. Виндовс с клиентом Nsclient++ шлёт данные через NCSA, а линукс через api.

Oz_Alex Mar 18 2019 at 01:19

Я и доволен и нет, по причинам, описанным в выводах.
С одной стороны я вложил в это много сил и времени, это вроде как моё детище.
С другой ещё много над чем работать и некоторые проблемы вряд ли решатся, вроде медленной работы Puppet.

По поводу Prometheus — да, он получает метрики с хостов. У меня эти метрики шли в InfluxDb, а оттуда — в Grafana, где я делал графики с пределами Warning и Сritical, но это всё было только на мониторе. А надо было рассылать уведомления о превышении пределов всей ops-команде, тим-лиду разработчиков и каждому PM отдельно о его проблемах. С этим я тогда и не разобрался. Видимо, потому что рассматривал Prometheus именно, как систему мониторинга, а не как систему измерения производительности.

kiba Mar 18 2019 at 07:39

А надо было рассылать уведомления о превышении пределов всей ops-команде, тим-лиду разработчиков и каждому PM отдельно о его проблемах

А в Grafana, вроде, не так давно добавили алертинг.

lockedpid Mar 18 2019 at 15:01

А надо было рассылать уведомления о превышении пределов всей ops-команде

https://prometheus.io/docs/alerting/alertmanager/

А вообще мне кажется вы закопали одного мамонта и откопали другого.

ilyakruchinin Mar 18 2019 at 07:50

Перевел две компании в Австралии с Nagios на Zabbix.
После этого Nagios/Icinga2 выглядят, как детские поделки.
Все довольны. Сравнивали с крупнейшими (и дорогими) проприетарными решениями — ни одна платформа не даёт того, что дает Zabbix.
Автоматизация — через API. Автоматически мониторится и настраивается мониторинг для AWS и On-Prem Windows, Linux, Solaris, VMware + мониторинг служб, сервисов, приложений, сетевых устройств и прочего.

Oz_Alex Mar 18 2019 at 07:52

Причины отказа от Zabbix указаны в статье — база данных, построение фактически всей структуры с нуля и невозможность контроля версий.

banzayats Mar 18 2019 at 09:49

Поддерживаю. Лучше Zabbix в мире open source мониторнга IT-инфраструктуры пока что ничего не придумали! У него богатый встрноенный функционал и самое главное — это так называемый "metric driven" подход. В отличии от Nagios/Icinga/Check_MK/..., которые работают только с текущим состоянием системы (ну или через всякие костыли могут использовать предыдущие значения).

Примеры внедрения:

крупный государственный банк Украины: использовали Zabbix начиная с версии 1.8 и до сих пор продолжают использовать для мониторнга всей IT-инфраструктуры (центральные офисы, филлиалы во всех областях, а также вся сеть банкоматов по стране);
австралийская хостинговая компания: отказались от Check_MK и перешли на Zabbix. В компании используется принцип "Infrastructure as a Code". Настройки всех хостов хранятсяв Puppet/Hiera. Об изменениях настроек триггеров сообщается с помощью email уведомлений.

Почему не Prometheus? Он хорош для среды разработки, когда инфраструктура изменяетсся чуть ли не ежесекундно. Но некоторых важных мне функций у него нет или они плохо реализованы:

разграничение прав доступа к данным;
визуализация связей между элементами мониторнга;
визуализация данных (да, желательно использовать Grafana, но это уже отдельный продукт);
млгиторнг логов;
долгосрочное хранение данных.

Я не утверждаю, что одна система лучше, а другая нет. У каждой системы совои достоинства и недостатки с своя сфера применения.

Show the best of all time