Pull to refresh

Comments 15

UFO just landed and posted this here

Чего?

Graceful Degradation, Rate Limiting

так эскалировать и собирать группировку умеет наверное примерно все, от того же прома?

Пром умеет группировать, но эскалировать не умеет. Grafana Alerting до версии 9 не умел группировать. А вообще систем мониторинга на рынке 370+, кто-то что-то умеет, а кто-то что-то не умеет.

И все это в контейнере. то есть с сетью придется отдельно воевать.

В нескольких контейнерах*. Пока именно с сетью проблем ни у кого особенных не было, все достаточно легко менеджерится helm'ом.

UFO just landed and posted this here

А можно этот софт поставить как замену алертменеджеру? То есть алерты брать напрямую из Прометеуса.

Можно, но если у вас уже есть прометеус, лучше пред-группировку сделать в алертменеджере.

Хотелось бы всем управлять из одного места.

Автоэскалация при отсутствии обязательной реакции (для выполнения временнЫх SLO) и определения обязательного типа реакции (нажал на кнопочку "вижу, ща займусь", письмо на электропочту, действие в других внешних системах) возможны?

Ну и совсем опционально - построение дерева/графа вообще всех событий и условий, для общего понимания всей системы реагирования на инциденты. По идее, это можно попробовать сделать как специфичный дашборд/-ы: общая картина и отдельные деревья/графы реакций, уведомлений по каждому актору (человеку/системе). Конечная цель - иметь карту всех описанных событий, реакций на них и исполнителей с требованиями на такую реакцию. Ещё более опционально - генерация метрик по таким реакциям (с привязкой/ссылкой к исходному событию), для того же prometheus. Из подобного уже можно будет пробовать вынимать KPI для команд, и не только.

Было бы здОрово иметь ту же ansible роль для установки, не все готовы сразу закидывать в кубкластер новый продукт для детальной оценки и тестов. Одного инстанса и роли вполне может хватить для этого.

Спасибо за развитие продукта.

В ближайшем будущем планирую реализовать роль. Есть проект с алертами, но без кубера(

Хотим пощупать с самого момента выхода на гитхабе.
А можно допилить поддержку постгри для продукта? Иссуе №80

Было бы здорово, если бы вы присоединились к разработке) Postgres дотащим

Поправьте, если не прав, но что то до боли знакомое делал в zabbix пару лет назад. Кончно, без гугл таблиц для расписания, но с аггрегацией, эскалацией и подавлением алертов.

без гугл таблиц для расписания

опечатка или нет?

Интересно было бы послушать сравнение со стороны пользователей pagerduty (до которого тоже пока масштаб моей команды не дошел)

А что есть инцидент в контексте on-call? Когда инцидент открывается?
И есть ли у нас список всех инцидентов, чтобы потом смотреть потом статистику по ним?

Sign up to leave a comment.

Articles