Pull to refresh
97.59
DataLine
Экосистема ИТ-сервисов

А продемонстрируйте, или Как мы проходили аудит Operational Sustainability в Uptime Institute

Reading time9 min
Views3.6K

Руководитель отдела эксплуатации залез в люк подземного топливохранилища, чтобы показать маркировку на электромагнитном клапане.

В начале февраля наш самый большой дата-центр Tier III NORD-4 прошел повторную сертификацию Uptime institute (UI) по стандарту Operational Sustainability. Сегодня расскажем, на что смотрят аудиторы и с какими результатами мы финишировали.

Для тех, кто с дата-центрами на «вы», кратко пройдемся по матчасти. Tier Standards оценивает и сертифицирует дата-центры на трех этапах:

  • проект (Dеsign): проверяется пакет проектной документации.Тут как раз присваиваются всем известные Tier. Всего их 4: Tier I–IV. Последний, соответственно, самый высокий.
  • построенный объект (Facility): проверяется инженерная инфраструктура дата-центра и ее соответствие проекту. Дата-центр проверяют под полной проектной загрузкой с помощью множества тестов примерно такого содержания: один из ИБП (ДГУ, чиллеров, прецизионных кондиционеров, распределительных шкафов, шинопроводов и т.п.) выводится из эксплуатации на обслуживание или ремонт, при этом отключается городское энергоснабжение. ЦОД уровня Tier III и выше должен справиться с ситуацией без каких-либо последствий для полезной ИТ-нагрузки.

    Facility можно сдавать, если дата-центр уже прошел сертификацию Dеsign.
    NORD-4 получил свой сертификат Design в 2015 году, а Facility —  в 2016.
  • эксплуатация (Operational Sustainability). По сути, самая главная и сложная сертификация. Она в комплексе оценивает процессы и компетенции оператора по обслуживанию и управлению дата-центром с установленным уровнем Tier (чтобы сдать Operational Sustainability, вы уже должны иметь сертификат Facility). Ведь без правильно выстроенных процессов эксплуатации и квалифицированной команды даже дата-центр Tier IV может превратиться в бесполезное здание с очень дорогим оборудованием.

    Здесь тоже свои уровни: Bronze, Silver и Gold. На последней ресертификации финишировали с результатом 88,95 из 100 возможных баллов, и это Silver. До Gold не хватило самую малость — 1,05 балла. 



Как проверить, что нужные процессы выстроены и работают как надо? Тем более, как сделать это за два дня — именно столько идет повторная сертификация. Если кратко, то сертификация строится на кропотливом сопоставлении написанного в регламентах, рассказов «как все устроено» и реальных практик. Информация о последних добывается из обходов дата-центра и бесед с инженерами дата-центра — «очных ставок», как мы их ласково называем. Вот на что смотрят.

Команда


В первую очередь аудиторы UI проверяют, хватает ли в дата-центре обслуживающего персонала. Берут штатное расписание, график дежурства и выборочно сверяют с отчетами смен и данными СКУД, чтобы убедиться, что нужное количество инженеров действительно было в тот день на площадке.

Также аудиторы пристально смотрят на количество часов переработки. Такое иногда случается, когда заезжает крупный клиент и одновременно нужно поставить десятки стоек. В такие моменты ребята из других смен приходят на помощь, и им за это выплачивают дополнительные деньги.

В смене на NORD-4 работают 7 инженеров: 6 дежурных и один старший инженер. Это те, кто следит за мониторингом 24х7, встречают клиентов, помогают с установкой оборудования и прочими штатными запросами. Это первая линия клиентской техподдержки. В их же обязанности входит фиксация аварийных ситуаций и эскалация на специализированных инженеров. За работой инженерной инфраструктуры следят отдельные люди — дежурные по инфраструктуре. Также 24х7.


Директор по производству и старший по площадке NORD рассказывает аудиторам, сколько человек работает на площадке прямо сейчас.

Когда с численностью разобрались, проверяют квалификацию команды. Аудиторы случайным образом просматривают личные дела инженеров, чтобы убедиться, что у них есть необходимые дипломы, сертификаты, разрешающие документы (например, удостоверения по электробезопасности) для работы на данной позиции.

А еще проверяют то, как мы обучаем персонал. Наша система подготовки новых дежурных инженеров еще во время прошлого аудита впечатлила специалистов UI. Для них мы проводим трехмесячный курс подготовки в режиме оплачиваемой стажировки, в ходе которой знакомим их с процессами и принципами работы именно в нашем дата-центре.

Уже работающие инженеры тоже должны регулярно проходить тренинги, в том числе и по работе в аварийных ситуациях. Аудиторы обязательно проверят учебные программы и материалы таких тренингов, а еще выборочно проэкзаменуют инженеров. Переключаться на ДГУ никого не будут просить, а вот рассказать пошагово, что надо делать при отключении городского электроснабжения, попросят. По результатам аудита мы будем приводить все программы обучения и тренировок к единому стандарту, чтобы они не отличались для разных команд.


Показываем аудиторам комнату отдыха для сменных инженеров.

Эксплуатация и обслуживание инженерных систем 


В этом большом разделе аудита мы показываем, что все инженерное оборудование и системы получают регулярное техническое обслуживание по рекомендуемому вендорами графику, на складе есть необходимый ЗИП, действующие договоры с подрядчиками на обслуживание, а для каждой операции с оборудованием прописаны свои процедуры и алгоритмы работы на разные случаи.

MMS. Когда эксплуатируешь десятки ИБП, ДГУ, кондиционеров и прочего, нужно где-то собирать всю информацию об этом хозяйстве. Вот примерно такое досье создается на каждую единицу оборудования у нас:

  • модель и серийный номер;
  • маркировка;
  • технические характеристики и настройки;
  • место установки;
  • даты производства, ввода в эксплуатацию, окончания гарантии;
  • договоры на обслуживание;
  • расписание и история ТО;
  • и вся «история болезни» — поломки, ремонты.

Как и где собирать всю эту информацию, каждый оператор дата-центра решает сам. UI не ограничивает в инструментах. Это может быть простая Excel (мы начинали с такого) или самописная Maintenance Management System (MMS), как у нас теперь. Кстати, сервис-деск, складской учет, сетевой журнал, мониторинг тоже самописные.


Вот такое «личное дело» есть на каждую единицу оборудования.

Свои практики по этой части мы показывали в том числе на примере вот этого инфраструктурного ИБП (на фото), который пожертвовал одну из своих деталей ИБП, обслуживающему ИТ-нагрузку. Да, по стандарту таким «донорством» может заниматься только инфраструктурное оборудование, которое питает кондиционеры, аварийное освещение, но не ИТ-нагрузку.



После аудиторы попросили показать соответствующий тикет в Service Desk:



И профиль ИБП в MMS:



ЗИП. Для своевременного обслуживания и аварийных ремонтов инженерного оборудования мы держим свой ЗИП. Есть общий склад с крупными запчастями для оборудования и небольшие шкафы с ЗИП в инженерных помещениях (чтобы не нужно было далеко бежать).

На фото: мы проверяем наличие ЗИП для ДГУ. Насчитали 12 фильтров. Потом сверялись с данными в MMS.  



Аналогичное упражнение проделали на основном складе, где хранятся крупные запчасти: компрессоры, контроллеры, автоматика, вентиляторы, пароувлажнители и еще сотни позиций. Выборочно переписали маркировки и «пробили» их по MMS.




Данные по запасам ЗИП. Красное это то, чего не хватает и нужно докупить.

Предупредительное обслуживание. Помимо ТО и ремонтов UI рекомендует заниматься предупредительным обслуживанием. Оно помогает превратить потенциальную аварию в плановый ремонт. По каждому параметру мы настраиваем пороговые значения в мониторинге. Если они превышаются, ответственные получают алармы и предпринимают необходимые действия. Например, мы:

  • Проверяем тепловизором электрические щиты, чтобы вовремя найти дефект в электроустановках: плохой контакт, локальный перегрев проводника или автомата. 
  • Следим за показателями вибрации и потребляемого тока насосов системы холодоснабжения. Это позволяет вовремя выявить отклонения и без спешки запланировать замену деталей.
  • Делаем анализы топлива и масла ДГУ, компрессоров.
  • Тестируем гликоль в системе холодоснабжения на концентрацию.


График вибрации насосов до и после ремонта.

Работа с подрядчиками. ТО и ремонты оборудования делают внешние подрядчики. С нашей же стороны есть отдельные специалисты по ДГУ, кондиционерам, ИБП, которые контролируют их работу. Они проверяют, есть ли у подрядчиков необходимые инструменты и материалы для ремонтных работ/ТО, профессиональные сертификаты, корочки электробезопасности, допуски. Они же принимают все работы.


Примерно так выглядит чек-лист для приемки работ по ТО кондиционера.


В бюро пропусков проверяем, оформлены ли пропуска на авторизованных представителей подрядчиков, проходили ли они в указанное время ТО и ознакомились ли они с правилами.

Документация. Выстроенные процессы по обслуживанию систем и оборудования —  это полдела. Все процедуры, которые выполняются человеком в дата-центре, должны быть задокументированы. Цель этого простая: чтобы все не замыкалось на одном конкретном человеке и в случае аварии любой инженер мог взять понятную инструкцию и сделать все необходимые операции для ее ликвидации.

У UI своя методология по такой документации.

Для простых и повторяющихся действий составляют стандартные эксплуатационные процедуры (Standard Operational Procedure, SOP). Например, SOP’ы есть для включения/выключения чиллера, постановки ИБП на bypass.

Для технического обслуживания или сложных операций, например, замены батарей у ИБП, создаются процедуры по ведению обслуживающих работ (Methods of Procedures, MOP). Они могут включать в себя SOP’ы. У каждого типа инженерного оборудования должны быть свои MOP’ы.

Наконец, есть аварийные эксплуатационные процедуры (Emergency Operating Procedures, EOP) — инструкции на случай аварии. Составляется список конкретных аварийных ситуаций, и для них пишутся инструкции. Вот часть списка аварийных ситуаций, по которым подробно расписываются признаки аварии, действия, ответственные лица и лица для уведомления:

  • отключение городского электроснабжения: ДГУ запустились/не запустились;
  • аварии на ИБП; 
  • аварии на системе мониторинга ЦОД;
  • перегрев машинного зала;
  • протечка системы холодоснабжения;
  • авария на сетевом и вычислительном оборудовании;

и прочее.

Составить такой объем документации — сама по себе трудоемкая работа. Еще сложнее поддерживать ее в актуальном состоянии (это, кстати, аудиторы тоже проверяют). И главное — персонал должен знать эти инструкции, работать по ним и вносить улучшения при необходимости.


Да, инструкции должны быть доступны там, где они могут понадобиться, а не просто пылиться в архивах.


Отметки об изменениях в регламенте обслуживания инженерных систем дата-центра.

В ходе аудита также смотрят на техническую документацию по системам, исполнительную и рабочую документацию, акты сдачи систем в эксплуатацию. 

Маркировка. Во время обхода по дата-центру проверяли ее везде, куда только могли дотянуться. Куда не могли дотянуться — дотягивались со стремянки:). Смотрели на ее наличие на каждом щите, автомате, клапане. Проверяли уникальность, однозначность и соответствие актуальным схемам исполнительной документации. На фото ниже: мы в насосной топливохранилища сравниваем маркировку на электромагнитных клапанах со схемой исполнительной документации. 



С ней все сошлось, а вот с местной «декоративной» аксонометрической схемой на стене в одном параметре не совпало.



В помещениях дата-центра также должны висеть схемы расположенных там систем. В случае аварий они помогают быстро сориентироваться, где что находится, и принять информированное решение. На фото, например, однолинейная схема в помещении ГРЩ.



Актуальность схем проверяли так: называли маркировку элемента на схеме и просили показать «на натуре». 



Вот тут аудитор фотографирует настройки (уставки) расцепителя вводного автомата ГРЩ, чтобы потом сверить с показателями на однолинейной схеме в бумажном и электронном экземплярах. На одном из автоматов, QF-3, показатель не совпал с бумажной схемой, и мы заработали штрафной балл. Теперь два инженера будут проверять на соответствие маркировку в однолинейных схемах с фактом.



Это далеко не все, что проверяли аудиторы в части процессов обслуживания. Вот что еще было на повестке:

  • система мониторинга. Тут мы заработали плюсы в карму хорошей визуализацией, наличием мобильного приложения и ситуационными экранами, расставленными в коридорах дата-центров. Тут подробно писали про то, как у нас устроен мониторинг.


    Вот такой ЦУП с наглядной информацией о состоянии основных инженерных систем NORD-4 и других наших дата-центров работает на площадке.
  • планирование жизненного цикла инженерного оборудования;
  • управление мощностями (capacity management);
  • бюджетирование (немного рассказывали тут);
  • процедура по анализу аварий;
  • процесс приемки, ввода в эксплуатацию и тестирования оборудования (про тесты писали тут).

На что еще смотрел UI


Безопасность и контроль доступа. В ходе аудита также проверяют работу систем охраны и безопасности. Например, аудитор попробовал попасть в одно из помещений, куда у него нет доступа, а потом проверил, отразилось ли это в системе СКУД и было ли оповещение об этом у охраны (спойлер — было).

Если в наших дата-центрах дверь в любое помещение остается открытой более двух минут, то на посту охраны срабатывает оповещение. Чтобы проверить это, аудиторы подперли одну из дверей огнетушителем. Правда, сирены мы так и не дождались —  охрана увидела неладное через видеокамеры и прибыла на «место преступления» раньше.

Порядок и чистота. Аудиторы смотрят, нет ли пыли, хаотично валяющихся коробок от оборудования, с какой периодичностью убирают помещения. Вот тут, например, аудиторов заинтересовал неопознанный объект в вентиляционном коридоре. Это блок от системы вентиляции, который уже готовился занять свое место. Но все равно попросили подписать.



Еще в тему порядка в дата-центре — вот такие шкафы со всеми необходимыми инструментами для аварийных работ на оборудовании стоят в помещении ГРЩ. 



Месторасположение. Дата-центр оценивают по условиям местоположения — нет ли поблизости военных баз, аэропортов, рек, вулканов и прочих опасных объектов. На фото мы как раз показываем, что с момента прошлой сертификации в 2017 году вокруг дата-центра не выросло никаких АЭС и нефтехранилищ. Зато вон там строится новый дата-центр NORD-5, которому тоже предстоит пройти все ступени сертификации Uptime Institute Tier III. Но это уже совсем другая история).

Tags:
Hubs:
Total votes 16: ↑16 and ↓0+16
Comments1

Articles

Information

Website
dtln.ru
Registered
Founded
Employees
201–500 employees
Location
Россия