Как стать автором
Обновить

Комментарии 27

отличная статья!
Если дальше интересно....

Ждем продолжения ;)
И ещё одно: если у вас были примеры, когда продуманное планирование «чёрного дня» реально помогло, расскажите, пожалуйста, в комментариях.

Не знаю как насчет сработавших планов, но вот на тему когда планов не было, а «черный день» пришел — наверное у каждого админа найдется не одна история :)

Продолжение было бы весьма позновательно.
Хорошо, в следующем топике будет пошаговое руководство по основным моментам.
Пожалуйста, пригласите к изучению, как опубликуете.
Боюсь пропустить.
Спасибо за статью. Тоже поднимал данный вопрос со своим руководством. Но руководство не хочет платить за него деньги.
Тогда я описал риски и время восстановления в нормальном режиме(без спешки) и заставил их эти риски принять на себя.
Теперь сплю спокойно.

К сожалению культура русского ИТ на очень низком уровне… Не понимают баре, что это нужно…
Нужно просто чтобы что-то упало и перестало работать. Как упадёт, так сразу можно подсовывать бумаги на подпись на закупку всего нужного оборудования и т.д. и т.п.
> Как упадёт, так сразу можно подсовывать бумаги на подпись на закупку всего нужного оборудования и т.д. и т.п.

Да, и первой из всех этих бумаг — заявление об увольнении ПСЖ.
Тогда я описал риски и время восстановления в нормальном режиме(без спешки) и заставил их эти риски принять на себя.

Да, только вот все равно в итоге жопа в мыле будет у простых админов а не у руководителя IT подразделений. Мало того, но даже после того как наступает «черный день», ситуация с планом DR может и не поменяться (не только в плане «построить резервный пункт», но и даже в плане простых инструкций «кому куда бежать»).
У меня на одном месте работы была беседа (инициаторы — безопасники и высокое начальство) на тему «Что делать если все поломается». Было обсчитано два варианта — нормальный и максимально дешевый (т.е. практически на коленке). Посмотрев цифры, высокое начальство резюмировало: «Да ну его на№№№, вот как упадет, так и будем думать что делать». Вот что тут можно сказать по этому поводу, да и стоит ли?
Рассказали как то историю падения одного Датацентра.
Стоял большой корпоративны федеральный ДатаЦентр.
Весь из себя Т4 (самый надежный) по всем стандартам выполненный и с железом на полмлрддолларей внутри.

В здание заведены два луча питания от независимых источников.

Полностью обеспечено резервное питание на аккумуляторах (20-90минут в зависимости от важности сервера), а так же дизель генератор на три дня работы и резервный чуть поменьше.
И было все хорошо.
И ДатаЦент был плечом геокластераразных распределенных систем.

И тут одному человеку показалось что не нужно в этом нежилом здании электричество и вырубил он ОБА луча питания.
И был это человек из ХХХЭнерго.

Вид из здания:
Мигнул свет. Стало тише. Включилось резервное питание.
В машинных залах противно запищали упсы.
Вот сейчас зарычит дизель и все… можно спокойно бить ХХХЭнерго.
Вот сейчас…
……
Блин…

Прошиб озноб и стало жарко.
Жарко… Кондиционеры… Они же не питаются от упсов (проектировщикам надо по голове, а лучше головой и желательно об угол)
Значит времени до перегрева 15 минут.

А потом … даже подумать страшно.

И тут все забегали. Вспоминая порядок действийпо инструкции №1 (полная ж##а с питанием)
Побежали проверять генераторы. Ведущий – мертвый и незаводится.

Резервный! Не помним как заводить и что делать.

В это время в машинном зале админы лихорадочно укладывают сервера.
Берегут ключевую систему, а она самая горячая…
10 минут. Критическая температура – лег первым апликейшен.
Всё спасать больше нечего сервисы легли. ShotDown.

Становиться тише. 15 минут

Эффект домино нарастает. Сервера падают с температурой. В зале 70 градусов. Двери открывать нельзя (пыль из 3000-5000 радиаторов выгребать никто не хочет) да и не спасет.

Становиться совсем тихо.

Все. ДатаЦентр мертв.

Ведущий дежурный администратор садиться на пол в машинном зале обхватывает голову руками сидит минуту, достает сигарету и закуривает.
Уже похрен, пожарка тоже без питания. =)

Резерв аккумуляторов исчерпан. Здание погружается во тьму.
Они периодические пробные запуски генераторов не проводили?
почему не запустился генератор я не знаю.
скорее всего забили на тестовые пуски, а может слили дизель с резерва, там вариантов много.
итог один
хех, вся эта система работает только с периодической проверкой.
в 27001 требуется обязательное (как правило годовое) тестирование BCP, в 25999 вроде тоже.

зачетная история:) если б еще паблик была, так можно нести руководству как реальный пример, чтобы получить коммитмент на устройство нормальной схемы.
Она в паблике была. Только в официальной версии и не так драматично, без подробностей.

Вообще если копнуть тот же синус, то за каждой из историй «технологических сбоев в системе и простоев» стоит не меньшая драматургия событий со своими интригами, переживаниями смертями процессов и целых ферм:)
О, да. Недавно читал про самую большую ДДОС атаку и действия атакуемых, так как будто остросюжетный боевик посмотрел.
Рождается новый жанр. ИТ-боевик.
Bullet time вместо пуль будет показывать экран терминала и набираемые команды. :)
Эпично. Я бы такой кин посмотрел… :)
У меня в практике было по факту тоже весело — сел аккум на генераторе, и его пришлось снимать срочно с машины главного энергетика. :)
Но простой всеравно был. Электрика находилась в ведении энергетиков.
Админ хорор:)
В принципе снять не долго. Главное найти дата центр:)

А на счет питания у энергетиков — стандартная тема. Разделение не всегда приводит к правильным последствиям.
Человек из ХХХЭнерго жив?
Конечно. Но стал мудр:) и проницателен. Так как дзен ему объяснили:)
Хм… странно… я думал он был лишён как минимум конечностей =)
А что взять то? Омтается понять и простить.
Ух ты ж какой ит-хоррор…
Real Life DR & BC, with VMware SRM
www.vsamurai.com/english/2011/3/23/real-life-dr-bc-with-vmware-srm.html

История от первого лица о том, как VMware SRM и продуманный план помогли восстановить работу в резервном ДЦ во время мартовских землетрясений в Японии в прошлом году.
В библиотеке ITIL есть великолепные рекомендации и описания.В последнем издании количество томов уменьшилось. Попробуйте прочесть.
Вся эта штука с безопасностью очень полезна и правильна и работает она только в экстренных ситуациях, которые происходят крайне редко. Однако, именно подготовка к таким ситуациям и требуется самая тщательная и дорогая, так как если хоть один момент упущен, все насмарку
В наших реалиях (в частности в Незалежной) гораздо актуальней план эвакуации в случае маски-шоу от УБЭПа или налоговой, а также от дружественных визитов прокуратуры
Сама подготовка снижает вероятность аварии на порядок.
Во время подготовки к таким событиям ликвидируются все узкие места, приводится в порядок документация и она доже начинает отражать реальность. И прочее и прочее.

Да, мы потратили несколько ночей на стресс-тест оборудования, не считая все подготовки к тестам. Но и работало все потом хорошо, и после аварии (свет погас, а энергетики забыли наш луч к дизелю подключить) система сама поднялась. Детали к сожалению не могу рассказать, но как и выше описано гасили серверы в по приоритету, дабы основные системы, которые включать очень и очень долго, получили шанс.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий