Pull to refresh
149.54
Инфосистемы Джет
российская ИТ-компания

Пока гром не грянул, или Непрерывность и ГОСТ Р 53647.4-2011/ISO/PAS 22399:2007

Reading time 12 min
Views 2.7K
Несколько лет назад в подмосковном офисе одной из компаний произошла разгерметизация газовой системы пожаротушения. Угроза для жизни и здоровья людей была более чем реальная. В результате ЧС 1 человек погиб, 13 с разной степенью отравления попали в больницу, 60 были эвакуированы. Подобные угрозы весьма актуальны – ведь точно такими же системами пожаротушения сегодня оборудованы десятки административных и офисных зданий в Москве, Санкт-Петербурге и других городах.

Возможна и другая ситуация: банк прерывает работу из-за угрозы взрыва. Тревожный сигнал может поступить от злоумышленника или хулигана, а может – от сотрудников банка, если они обнаружат в помещении подозрительный предмет или свёрток. Представляет ли он опасность, выяснится позже, однако действия по инструкции в такой ситуации строго обязательны.

Еще один экстремальный вариант: в офис организации бросили дымовую шашку. Может обойтись и без пострадавших, но паника обеспечена. Струйки дыма, пробивающиеся в коридор, и шум в соседнем помещении вряд ли кого-то оставят равнодушным. И уж тем более не поспособствуют рабочей атмосфере. Кому-то может стать плохо просто от волнения, а где взять лекарства, неизвестно.

Чтобы избежать жертв и других серьезных последствий, нужно четко выполнить некоторые процедуры. Например, оповестить всех, кто находится на территории организации, эвакуировать сотрудников и посетителей, сообщить в аварийные службы и силовые ведомства (а в некоторых случаях и в СМИ), связаться с родственниками сотрудников, довести информацию о происшествии до руководства. При этом навыками действий в кризисной ситуации должны обладать все сотрудники – не только руководители или специально назначенные люди. Подобную информацию должны содержать действующие в России нормативные акты в области непрерывности бизнеса.

Алгоритмы действий сотрудников при возникновении тех или иных инцидентов – это часть гораздо более широкого направления – обеспечения непрерывности бизнеса. Ниже мы анализируем существующий в нашей стране стандарт ISO/PAS 22399:2007 (Guideline for incident preparedness and operational continuity management): смогут ли представленные там методические указания реально помочь в подготовке к возможным ЧС и усовершенствовать процессы реагирования внутри компаний?

К нашему огорчению, в стандарте мало информации по поводу готовности к инцидентам – он в большей степени говорит о непрерывности деятельности. Несмотря на амбициозное название, без ответа остаются многие вопросы. Мы попробуем ответить на них самостоятельно, руководствуясь нашим опытом.

Как определить масштаб инцидента?


Тут пригодится заранее составленный список вопросов:

  • Имеются ли пострадавшие? Несет ли инцидент угрозу для жизни и здоровья людей?
  • Как быстро меняется обстановка? Может ли измениться к худшему?
  • Есть ли нарушение или угроза нарушения бизнес-процессов?
  • Нарушение бизнес-процессов может оказаться длительным?
  • Нанесен ли/может ли быть нанесен ущерб:
    • имиджу и репутации компании;
    • партнерам, клиентам или контрагентам;
    • материальному состоянию организации?

Понятно, что, когда коллапс уже наступил и нет никакой определенности, никто не будет сидеть и отвечать на эти вопросы. Поэтому стоит заранее составить таблицу ущерба по типам и диапазонам потерь (см. табл. 1).

Табл. 1. Пример таблицы ущерба

Диапазон потерь

Финансовые потери

Потери управления

Ущерб от нарушения законодательства/нормативных актов

Ущерб репутации

Потери в области персонала

Катастрофические потери

свыше …

Нарушение производственных процессов, отзыв продукции, письма с объяснениями и пр.

Внеплановые проверки контролирующих и/или проверяющих органов, отзыв лицензии, нарушение законодательных требований и пр.

Негативные комментарии, отзывы, статьи, отток клиентов, рост количества жалоб, сомнения партнеров и пр.

Пострадавшие от инцидента, так или иначе затронутые инцидентом, переработки, увольняющиеся из-за инцидента и пр.

Большие потери

от … до …

Чувствительные потери

от … до …

Низкие потери

от … до …


Таблица с диапазонами измеримых параметров поможет принять обоснованное решение о масштабе произошедшего события.

Кто инициирует действия?


ЧП может случиться где угодно, соответственно и сигнал о его наступлении может подать любой сотрудник. Для управления инцидентами нужно разработать 2 направления движения информации: снизу вверх – дерево эскалации от инициатора к принимающему решение, и сверху вниз – дерево оповещения сотрудников о принятом руководством решении. Типов эскалации несколько:

  • при наличии службы поддержки обращение поступает к ее оператору;
  • если таковой нет, обращение направляется к непосредственному начальнику того, кто обнаружил инцидент;
  • если в компании практикуются принципы инцидент-менеджмента, то действовать нужно по установленной схеме. В этом случае стоит четко проработать схемы эскалации и оповещения.

Как изменяются границы инцидента с течением времени?


Чем быстрее будет обнаружен и локализован инцидент, тем меньше пострадавших. С течением времени границы инцидента расширяются. Например, при быстром восстановлении сбой сервера могут даже не заметить. А вот длительный простой может нарушить внутренние процессы (например, не будет подготовлена отчетность или платежное поручение). В некоторых случаях он может повлиять на компанию в целом (срыв сроков предоставления отчетности в контролирующие органы или сроков оплаты за товары/услуги может повлечь значительный финансовый ущерб или нанести урон репутации компании).

Нужно заранее четко определить возможные границы – во время инцидента определяется лишь масштаб, т.е. выбирается тот вариант границ, который достовернее всего описывает произошедшее. Для облегчения выбора, как уже было сказано, можно воспользоваться таблицей ущерба.
Как ограничить уровень эскалации (не звонить же генеральному всякий раз, когда происходит сбой в ИТ)?

Если в компании есть формализованные инструкции, в которых описан порядок эскалации, им надо четко следовать. Спорить с нелогичностью написанного можно в спокойной обстановке, но не тогда, когда критически важна скорость реакции.

Если таких инструкций нет, но есть служба поддержки или служба безопасности, надо сообщить о случившемся им. Они понимают зоны своей ответственности и представляют последовательность действий в этих зонах.

Наконец, если ничего этого нет, а вам нужен совет, сообщите о случившемся своему непосредственному руководителю или его заму. Если они вне доступа, обращайтесь выше по иерархической лестнице.

Кто участвует в кризисном комитете?


Кризисный комитет должен иметь полномочия и обладать компетенциями, чтобы оперативно принимать решения по инцидентам. В него должны обязательно входить представители всех направлений деятельности компании:

  • финансовый директор (выделяет средства на экстренную закупку оборудования, аренду дополнительных помещений, урегулирование отношений с партнерами, клиентами, поставщиками и т.д.);
  • директор по персоналу (решает вопросы с пострадавшими сотрудниками, с набором дополнительных сотрудников, с массовыми увольнениями, располагает контактами родственников сотрудников);
  • операционный директор (производственные аварии, жалобы клиентов, отзыв продукции);
  • административно-хозяйственный директор (проблемы, связанные с транспортом, логистикой, снабжением);
  • директор по информационным и телекоммуникационным технологиям;
  • директор по связям с общественностью (контакты со СМИ, освещение происшествия в прессе, соцсетях и интернете);
  • директор по безопасности (физической и информационной);
  • директор по взаимодействию с государственными органами (его участие может быть решающим в тех случаях, когда кризисные ситуации вызваны непродуманными решениями со стороны госорганов).

Кто координирует все действия при возникновении инцидента?


Тот, кто отвечает за руководство в условиях инцидента, должен обладать полномочиями по принятию решений, обязательных для исполнения всеми остальными сотрудниками компании. Это не обязательно должен быть тот же, кто осуществляет руководство в штатном режиме – для управления в условиях кризисной ситуации требуются стрессоустойчивость и умение быстро принимать решения.

Важно заранее разработать типовые схемы взаимодействия сотрудников при различных инцидентах, описания полномочий и структуру подчинения.

Каковы варианты оценки инцидента (шкала для оценки инцидента)?

Можно использовать несколько шкал для оценки инцидента – качественных и количественных.

Табл. 2. Количественная оценка: частота и масштаб влияния инцидентов

 

Почти никогда

Редко

Часто

Регулярно

Катастрофические потери

Высокий уровень риска

Критический уровень риска

Неприемлемый уровень риска

Неприемлемый уровень риска

Большие потери

Низкий уровень риска

Высокий уровень риска

Критический уровень риска

Неприемлемый уровень риска

Чувствительные потери

Пренебрежимо малый уровень риска

Низкий уровень риска

Высокий уровень риска

Критический уровень риска

Низкие потери

Пренебрежимо малый уровень риска

Пренебрежимо малый уровень риска

Низкий уровень риска

Высокий уровень риска


Табл. 3. Качественная оценка инцидента (расширенное описание этих терминов приведено в приложении к статье)

Термин

Описание

Сбой

Ситуация, при которой ресурсы, например ИТ-инфраструктура, работают не так, как предполагается. Влияние такой ситуации считается минимальным.

Критическая ситуация (серьезный инцидент)

Возникает, когда в рамках инцидент-менеджмента не удается решить серьезный инцидент первого приоритета за отведенное время.

Авария

Такое разрушительное событие, при котором процессы в компании не выполняются, как предполагается. Доступность этих процессов и соответствующего оборудования не может быть восстановлена за отведенный промежуток времени.

Кризис

Ситуация, отличающаяся от нормального состояния. Несмотря на предпринимаемые превентивные меры, такое состояние может возникнуть в любой момент и не может быть преодолено с помощью обычных процедурных или организационных мер.

Катастрофа

Событие, которое компания не может ограничить во времени и пространстве и которое оказывает широкомасштабное воздействие на людей, материальные ценности и окружающую среду. Само существование компании, жизнь и здоровье сотрудников находятся под угрозой.


Какие технические средства поддерживают инцидент-менеджмент?


В рамках инцидент-менеджмента можно выделить несколько отдельных задач:
  • хранение требуемых данных: контактной информации, перечня действий, которые нужно выполнить, адресов резервных площадок и офисов;
  • оповещение большой группы людей об инциденте, месте сбора, распоряжениях руководства и т.п.;
  • ведение журнала действий по устранению инцидента;
  • оперативный анализ хода восстановления нормальной работы компании (т.е. насколько продолжительность выполняемых действий отличается от запланированной);
  • анализ выполненных действий, отчетов об инциденте (сроках его наступления, времени устранения, количестве участников и т.д.);
  • создание площадки для обмена информацией о ходе восстановления и решения/обсуждения проблем, возникающих в этом процессе.

На ИТ-рынке есть продукты, решающие большинство из этих задач.

Как разработать необходимые меры реагирования?


Нельзя предусмотреть все инциденты, но можно проработать меры по основным направлениям: их можно будет комбинировать и модифицировать под конкретную ситуациею. Какие есть основные направления деятельности компании:

  • приобретение материалов/ услуг;
  • доставка;
  • производство и сборка;
  • предоставление продуктов и услуг клиентам;
  • маркетинг;
  • техническая поддержка;
  • производственные процессы;
  • кадры, обучение;
  • ИТ и ИБ.

Как поддерживать актуальность в штатном режиме?


Пока не придумано ничего лучше регулярных тренировок/тестирований.

Как вносить изменения? Насколько часто? На какие мелочи стоит обратить внимание, что нужно учесть в плане?


Для внесения изменений в компании должен существовать специальный формализованный процесс управления изменениями. Возможные варианты изменений: изменение оргструктуры, появление новых должностей, изменение в технических решениях, изменения в рисках, появление новых продуктов/услуг.

Как проводить тестирования?


Можно привести несколько аргументов, которые помогут заинтересовать высшее руководство компании лично поучаствовать в тестировании.

  • Руководители привыкли решать проблемы. Вряд ли они станут тренироваться выполнять подробный формализованный план. Их скорее привлечет решение множества проблем, возникающих при устранении гипотетического инцидента. А вместо плана им может быть достаточно листка с четырьмя шагами/вопросами:
    • сбор данных – что случилось?
    • анализ собранной информации – что из этого?
    • выработка плана действий – что теперь?
    • оповещение подчиненных о принятом решении.

  • Сценарий тестирования должен соответствовать уровню задач руководителя. События, влияющие на VIP-клиентов, появляющиеся на страницах СМИ, влияющие на уровень доходов компании, изменения законодательства и решения правительства – вот тот уровень проблем, которым занимаются руководители.
  • В тестирования с участием руководства очень важны хорошая подготовка и качественный предварительный анализ. Сценарий и модели поведения должны быть реалистичными. Так, в настоящем инциденте информация никогда не подается уже готовой. Сценарий также должен быть неожиданным: например, что делать при пожаре, более-менее понятно, а вот как действовать в случае утечки конфиденциальных данных, – не очень. Значит, отрабатывать нужно второй вариант.
  • Важно проверить и самих себя во время наступления кризиса, а не только других. Позиция «я подожду, пока другие борются с кризисом» для руководителя неприемлема. В противном случае и от сотрудников не стоит ожидать героизма или даже просто добросовестного отношения.
  • Высшее руководство предпочитает факты и цифры. Ему будут интересны 2 типа историй: о сложностях компаний, которые вовремя не озаботились обеспечением непрерывности (с помощью внешних или внутренних специалистов), и о компаниях-конкурентах, которые вышли из бизнеса из-за отсутствия хорошо протестированного плана.

Участия в «настольной» проверке порой бывает достаточно, чтобы высшее руководство убедилось в неготовности собственной компании правильно реагировать на инцидент.

Теперь несколько вариантов повысить вовлеченность рядовых сотрудников в процесс тестирования:

  • Участникам важно ощущать свою значимость и важность самого процесса. Не стоит ограничивать тестирование только одной точкой зрения специалиста по непрерывности бизнеса. Поощряйте любой нестандартный ход мыслей сотрудников.
  • У каждого участника тестирования должна быть своя роль. Нет ничего скучнее, чем быть просто статистом. Для тех, кто не участвует в самом тестировании, нужно подобрать другие роли, например, стороннего наблюдателя, сотрудника внешней организации, клиента и т.п.
  • Людей воодушевляет, когда в проекте по обеспечению непрерывности бизнеса участвует высшее руководство. В этом случае подчеркивается его важность.
  • Добейтесь того, чтобы обеспечение непрерывности было включено в должностные обязанности сотрудников, чтобы политику непрерывности явным образом поддерживало высшее руководство.
  • Добавьте интерактивности в тестирование: организуйте визит руководителей на резервную площадку, покажите, в какой обстановке придется работать им и их подчиненным, продемонстрируйте бытовые условия и имеющиеся там средства связи.
  • Пусть факт участия в тестировании станет поводом наградить сотрудника за его работу по сохранению и укреплению бизнеса компании.

Какую информацию должен содержать отчет об инциденте?


В отчете о произошедшем инциденте должна быть следующая информация:

  • перечень пострадавших бизнес-процессов (остановившихся информационных ресурсов);
  • причины инцидента;
  • описание мер по реагированию (в том числе имел ли место переезд в резервный офис/в резервный ЦОД);
  • какие еще меры нужно выполнить для ликвидации последствий;
  • ответственные за наступление инцидента;
  • продолжительность воздействия инцидента/простоя информационных систем;
  • выводы по итогу устранения инцидента, которые помогут избежать его повторения в будущем;
  • задания на устранение недочетов;
  • журнал хода устранения.

Приложение:

Сбой – это ситуация, при которой ресурсы, например, ИТ-инфраструктура, работают не так, как предполагается. Влияние такой ситуации считается минимальным. То есть размер ущерба не помешает компании выполнять свои задачи (или ущерб пренебрежимо мал по сравнению с ее годовым оборотом). Однако если сбой не устранить вовремя, он может разрастись до масштаба аварии. Отметим, что сбои относятся к инцидент-менеджменту (работа диспетчерской службы, 2-й и 3-й линий поддержки), а не процессу обеспечения непрерывности ИТ.

Критическая ситуация (серьезный инцидент) возникает, когда в рамках инцидент-менеджмента не удается решить серьезный инцидент первого приоритета за отведенное время.

Авария – разрушительное событие, при котором процессы в компании не выполняются так, как предполагается. И их доступность не может быть восстановлена за отведенный промежуток времени. Серьезно страдают бизнес-операции. Выполнение SLA становится невозможным. Ущерб колеблется в пределах от большого до очень большого, т.е. авария оказывает неприемлемо большое негативное влияние на годовую выручку компании.
На аварии нельзя реагировать как на критические ситуации, т.е. оставаться в рамках штатных процедур инцидент-менеджмента. Их устранение требует специальной реакции в рамках процесса управления непрерывностью бизнеса.

Кризис – это ситуация, отличающаяся от нормального состояния. Несмотря на предпринимаемые превентивные меры, такое состояние может возникнуть в любой момент и не может быть преодолено с помощью обычных процедурных или организационных мер. Возникает необходимость антикризисного управления. Для управления в условиях кризиса нет четких, формализованных процедур, только общие рекомендации. Типичной чертой кризиса является его уникальность.

Аварии, влияющие на течение бизнес-процессов, могут разрастаться до масштабов кризиса. То есть кризис – это разросшаяся авария, которая угрожает существованию компании или жизни и здоровью сотрудников. Кризис влияет на компанию, но не оказывает большого влияния на окружающую среду или общественную безопасность. Кризис в значительной степени может быть устранен силами самой компании.

Существует ряд кризисов, которые не оказывают прямого влияния на бизнес-процессы. К ним относятся экономические кризисы, кризисы ликвидности, управленческие кризисы, случаи мошенничества, масштабные отзывы продукции, похищения людей или террористические угрозы. Такие кризисы, как правило, не могут быть устранены силами самой компании, требуют привлечения внешних организаций (органы внутренних дел, регуляторы, финансовые институты) и могут считаться примерами катастроф.

Катастрофа – это событие, которое компания не может ограничить во времени и пространстве и которое оказывает широкомасштабное воздействие на людей, материальные ценности и окружающую среду. Само существование компании, жизнь и здоровье сотрудников находятся под угрозой. Последствия события такого масштаба невозможно устранить усилиями самой организации, для этого требуется участие аварийных служб.

Статья подготовлена Константином Мусатовым, консультантом по направлению непрерывности бизнеса компании «Инфосистемы Джет». Мы будем рады вашим конструктивным комментариям.
Tags:
Hubs:
+3
Comments 0
Comments Leave a comment

Articles

Information

Website
jet.su
Registered
Founded
1991
Employees
1,001–5,000 employees
Location
Россия