Комментарии 18
А потом два блока рекламы еще. Спасибо за пост. Отличный получился.
Я вообще не понял при чем тут геокластер, если удаляли из биллинга, который удаляет услугу, а не отдельный сервак.
предоставляем клиентам решения различной степени сложности, иногда такой, что даже сами затрудняемся разобраться в том, что сотворили.
Неплохая реклама.
На самом деле от человеческого фактора уберечься (за вменяемые деньги) невозможно. У вас, по описанию, всё было сделано достаточно адекватно, кроме отсутствия регулярной проверки бэкапов. Бэкапы обязательно нужно не реже раза в месяц (для компании ваших размеров — скорее в пару недель) восстанавливать и проверять работоспособность и данные восстановленной системы. Желательно — автоматизированно (прогнать на нём штатные приёмочные тесты), с отправкой отчёта в общий чатик со статистикой "бэкап 2018-09-22 проверен, X юзеров, Y серверов" — это позволит глазками заметить фигню если числа X/Y вдруг стали странно маленькими (что приёмочные тесты вряд ли могут проконтролировать).
Похоже на то, как летом админы AWS вырубили несколько S3 серверов на пробу и обрушили немалую часть своей инфраструктуры.
Вот это огонь.
Когда случаются подобные вещи в голове всегда что-то переключается и думать начинаешь немного по другому.
Как мы убили себя в один клик, размещая сайт и биллинг на геокластере или ещё раз поговорим об избыточности