Comments / Profile of dkhimion / Habr

@dkhimion

User

Profile Publications 2Comments 2Bookmarks

Детектирование и оценка сбоев

dkhimion Dec 21 2021 at 21:13

Можно конечно и многое уже сделано или делается. Могу дать наводки на правильные инженерные практики:

graceful degradation
circuit breaker
throttling
MTTR
MTBF
Stress testing
Stability testing

Я тут не особо силен, но думаю это уже поможет

Look

Детектирование и оценка сбоев

dkhimion Dec 21 2021 at 21:08

Уже готовлю доклад про то, как внутри работает наша автоматизация.

Отвечу на вопросы:
1. Какие инструменты используются?
инструменты мониторинга (Graphite + Grafana, Prometheus), плюс интеграции с k8s и разными внутренними инструментами (трейсингом, сервисов дежурств и прочими прелестями) остальное всёсамописное

Кто решает, стала ли проблема блокером или можно продолжать спать? - есть конмада 24/7, которая смотрит за работой наших продуктов. Автоматизацию сейчас больше нацелена на постфактумный сбор инормации, это не система алертинга, а система анализа. Однако надо признать, что мы ее уже начали использовать и в целях "более рантаймовой" детекции инцидентов.
"Смотрю на наши проблемы в продакшене, и они настолько разные, что человеку тяжело понять что вообще пострадало в результате, и что теперь делать." - именно поэтому мы и сделали автоматизацию, руками собирать информацию, ходить по людям, отвлекать их от дел чтобы собрать достойный инцидент - было хлопотно, поэтому навалились на автоматизацизацию... на как навалились, запустили пилот, а потом пошло поехало.

Look