Комментарии
Только прочитав всю статью я понял, что под «поговорим об избыточности» подразумевалось что всю статью можно ужать
до одного предложения
Я работаю в отделе продаж в небольшой украинской хостинг-компании, мечтающей стать крупной за счет средств, в частности, Дмитрия Суханова, но нам не везет, потому что мы купили лицензию на софт для управления хостингом, но нажали кнопку «удалить всё».


А потом два блока рекламы еще. Спасибо за пост. Отличный получился.
Какое-то длинное предложение. Если тезисно и без рекламы, то «Необходимо всегда иметь внешнее независимое от Вашей системы хранилище»
Но ведь тогда нельзя будет добавить «нативную» рекламу в статью!
А компания, на мой взгляд, поступила достойно, честно рассказав о своём промахе.

Я вообще не понял при чем тут геокластер, если удаляли из биллинга, который удаляет услугу, а не отдельный сервак.

Мде убили биллинг биллингом… Неужели нельзя было сделать специальную группу вместо «протектед», например «перманент», и не выставлять инвойсы (т.е. именно не отправлять, а не рассчитывать) для такой группы.
ну или на край прямо в VM Manager завести себе аккаунт и под ним поднять ВМ(ы)- которые с биллингом никак не связаны… и удалять их можно будет только из самого VM Manager
Задним умом все крепки. Всё можно было сделать, но не всё можно заблаговременно предусмотреть.
предоставляем клиентам решения различной степени сложности, иногда такой, что даже сами затрудняемся разобраться в том, что сотворили.

Неплохая реклама.

Такое ощущение. что все комментирующие не допускали факапов… Молодцы, что рассказали, открытость при совершении ошибок дорогого стоит.

На самом деле от человеческого фактора уберечься (за вменяемые деньги) невозможно. У вас, по описанию, всё было сделано достаточно адекватно, кроме отсутствия регулярной проверки бэкапов. Бэкапы обязательно нужно не реже раза в месяц (для компании ваших размеров — скорее в пару недель) восстанавливать и проверять работоспособность и данные восстановленной системы. Желательно — автоматизированно (прогнать на нём штатные приёмочные тесты), с отправкой отчёта в общий чатик со статистикой "бэкап 2018-09-22 проверен, X юзеров, Y серверов" — это позволит глазками заметить фигню если числа X/Y вдруг стали странно маленькими (что приёмочные тесты вряд ли могут проконтролировать).

Похоже на то, как летом админы AWS вырубили несколько S3 серверов на пробу и обрушили немалую часть своей инфраструктуры.

«Мы получаем много заявок, но не можем в них разобраться, поэтому время от времени удаляем по тысяче заявок. Кому что-то было правда нужно — перезакажет»

Вот это огонь.

Вспомнился анекдот. Опытный HR учит молодого, как обрабатывать большое количество резюме: берёт, и не глядя, выкидывает 2/3 стопки резюме в мусор. Молодой воклицает:
— Что вы делаете?!
— От этих кандидатов просто отвернулась удача… Ну, а зачем нам нанимать неудачников.

По сути это было самоубийство биллинга.
Когда случаются подобные вещи в голове всегда что-то переключается и думать начинаешь немного по другому.
У меня однажды вышло наоборот: в список демона, перезапускающего упавшие процессы, добавили его самого же, причём так, что процессы множились. Получившееся чудо не мог убить даже killall -9: пока он проходит середину списка, конец списка успевает восстановить начало. Пришлось дважды ребутать сервер в праймтайм.
Красивая реклама, даже захотелось что нибудь прикупить у них. Но…
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.