Pull to refresh
9
0
Send message

Можно конечно и многое уже сделано или делается. Могу дать наводки на правильные инженерные практики:

  1. graceful degradation

  2. circuit breaker

  3. throttling

  4. MTTR

  5. MTBF

  6. Stress testing

  7. Stability testing

Я тут не особо силен, но думаю это уже поможет

Уже готовлю доклад про то, как внутри работает наша автоматизация.

Отвечу на вопросы:
1. Какие инструменты используются?
инструменты мониторинга (Graphite + Grafana, Prometheus), плюс интеграции с k8s и разными внутренними инструментами (трейсингом, сервисов дежурств и прочими прелестями) остальное всёсамописное

  1. Кто решает, стала ли проблема блокером или можно продолжать спать? - есть конмада 24/7, которая смотрит за работой наших продуктов. Автоматизацию сейчас больше нацелена на постфактумный сбор инормации, это не система алертинга, а система анализа. Однако надо признать, что мы ее уже начали использовать и в целях "более рантаймовой" детекции инцидентов.

  2. "Смотрю на наши проблемы в продакшене, и они настолько разные, что человеку тяжело понять что вообще пострадало в результате, и что теперь делать." - именно поэтому мы и сделали автоматизацию, руками собирать информацию, ходить по людям, отвлекать их от дел чтобы собрать достойный инцидент - было хлопотно, поэтому навалились на автоматизацизацию... на как навалились, запустили пилот, а потом пошло поехало.

Information

Rating
Does not participate
Works in
Registered
Activity