Pull to refresh

Comments 18

Куда эффективней оповещений email и sms — звуковая трансляция в радиоканал + гарнитура на рации дежурной смены, желательна световая индикация режима «приём» на рации.
В случае если смена на обходе или в шумном маш. зале — это может ускорить время реакции.
В нашем случае email и sms уходят уже ответственным лицам.
С учетом того, что за мониторами круглосуточно сидит как минимум один инженер, ему слать sms не нужно.
Еще в центре мониторинга срабатывает звуковое оповещение (противное такое:)), так что дежурному будет сложно пропустить аларм.
Если у вас никто не сидит постоянно за экранами мониторинга, то можно другие варианты оповещения использовать.
Что произойдет, если в ночную смену, допустим, срывает или лопает шланг системы охлаждения на развязке около чиллера (резко падает давление в системе охлаждения)?
А инженер в это время отошел заварить кофе и в туалет.
В нашей практике в дежурной смене (даже ночной) 4 инженера, поэтому если смотрящему за мониторами захочется в туалет, покурить, сделать кофе, то он сначала дожидается, пока его подменят на посту, и только идет делать свои дела.
Круто!
Хорошо, когда есть достаточное количество персонала.
Хорошей практикой является использование световых маячков в шумных помещениях.
А email и sms — для «высокоуровневых» ликвидаторов. Процедура уведомления согласно DRP. На дежурной смене обычно сидит младший инженерный состав. У них может быть опытный руководитель, но их задача локализовать проблему, не допустить распространения и пройтись по скрипту для её устранения. Если скрипт не работает — тогда едут опытные товарищи.
А с помощью чего карты создаете? Они интерактивные?
Карты делаем с помощью серверных скриптов (Ralio в частности) как надстройка над системой мониторинга.
В центре мониторинга можно переключаться между дата-центрами и инженерными системами. Часть экранов располагается рядом с машинными залами, они сенснорные и поддерживают функциональность drill-down.
<img src="" alt=«image»/>

Спасибо
Скорее все-таки railo, судя по гуглу…
А не могли бы чуть подробнее, как это работает?

да, railo, конечно, опечатался.
Подробнее обязательно расскажу, но в отдельной статье про инстурменты.
И еще вопрос… А используется у вас какая-то система ticket tracker?
Особенно интересно, чтобы в этой (или другой системе) можно было бы прописывать workflow для диспетчера, персонала, knowledge base… Ну и т.п.
Про периодичность «опроса».
Особого смысла опрашивать ИБП на тему напряжения на входе/выходе можно гораздо реже. Важно вести учет минимума и максимума по токам и напряжениям за период. Период может быть и час, если нагрузка сильно не скачет. Если есть ощущение необходимости снимать показания раз в секунду — лучше поставить анализатор качества питания на вводных фидерах, который при помехах, скачках токов-напряжений и других отклонениях в сети пишет форму тока и напряжения по трем фазам. Есть варианты, предназначенные для установки в ГРЩ
.
А вот с опросом кондиционеров и чиллеров — очень сильно зависит от нагрузки и плотности мощности. В вашем случае — судя по иллюстрации у вас около 3000 м3 объем машинных залов, около 4 МВт общее энергопотребление комплекса. При PUE 1.3 это значит, что в случае катастрофического отказа кондиционеров через секунду после опроса, к моменту следующего опроса температура в машзалах у вас может быть до 80 градусов Цельсия…
Не надо вестись на сказки продавцов «шкафных» кондиционеров про «буферный объем воздуха» и прочую чушь. Когда плотность мощности была 200-500 ватт на м2, да, оно так работало. Когда плотность мощности 1 кВт на м3 — при отказе охлаждения температура растет почти на градус в секунду.

Еще интересный вопрос, мониторинг сделали на базе BMS системы? Какой, если не очень большой секрет?
DCIM какой-нибудь используете (по старой памяти интересуюсь, хоть и не занимаюсь DCIM уже больше года :-) )
Извините, выше налепил опечаток и недоредоктировал, пятница утомительной недели… А потом коммент на модерации и его нельзя отредактировать…
Особого смысла опрашивать ИБП на тему напряжения на входе/выходе можно гораздо реже.

Надо читать как: «Особого смысла часто опрашивать ИБП на тему напряжения на входе/выходе нет. Можно это делать гораздо реже.»
Подробно про мониторинг электроснабжения будет отдельная статья. Если коротко, то мы мониторим всю цепочку – от городских вводов до PDU в стойках. Во всех щитах установлены анализаторы тока. Напряжение на входе и выходе ИБП – это слишком важный показатель, чтобы замерять его раз в час. Отсутствие напряжения на входе или выходе ИБП – уже аварийная ситуация.

Теперь про охлаждение. Если это чиллерная схема, то у нее большая инерционность. С учетом баков-аккумуляторов температура в залах точно не будет расти так, как вы говорите.
Наш опыт с фреоновой схемой также показывает, что отключение половины кондиционеров на пару минут (например, во время тестирования ДГУ) не приведет к критическому повышению температуры. Точных измерений мы не делали, но скорее всего речь идет об 1 градусе в минуту, а не в секунду.

Мониторинг на базе Nagios, DCIM не используем.
Ну, раз в час, да — все же нагрузка меняется. Но раз в секунду — особо ничему не поможет, ведь ИБП при аварии и отключении напряжения на выходе в любом случае должен выдать аварийный сигнал (и вообще должно быть резервирование и авария одного ИБП не должна ничего менять для оборудования). Из личного опыта, при анализе логов после аварии, информация мониторинга ИБП с частотой чаще примерно раза в пять минут — не добавляет полезной информации. Другое дело, что некоторые ИБП умеют показывать реальную кривую напряжения на входе и выходе… Но это тоже, по большому счету, перебор.

Про охлаждение — ситуация из личного опыта. Глюк в одном АВР привел к отключению сразу всех насосов, обеспечивающих циркуляцию жидкости во «внутреннем» контуре системы охлаждения. Наличие баков-аккумуляторов на 20 минут охлаждения при полной нагрузке тут помочь не смогло. Хорошо еще система была в процессе наладки, а не в боевом режиме, из вычислительных систем еще почти ничего не смонтировали в тот момент. Но все равно, ручка двери машзала успела нагреться так, что была обжигающе горячей.
С фреоновыми кондиционерами — чуть лучше и чуть хуже одновременно. Меньше шансов одновременного катастрофического отказа, но меньше инерционность и потенциальные проблемы, если вдруг ДГУ не запустились с первой попытки…
Еще один важный момент, что все же половина работающих у вас была. Я, видимо, пропустил ваш рассказ про систему охлаждения, но обычно в таких системах очень серьезный перезаклад по мощности кондиционеров. Вполне возможно, что у вас половины кондиционеров было бы достаточно, чтобы тянуть все охлаждение неограниченно долго. Такое тоже случалось у меня в практике, когда вендор мамой клялся, что потребление их оборудования будет 40 кВт и письма про это писал, по моим расчетам (я тогда был моложе и больше верил вендорам) получилось, что оборудование будет потреблять 12-15 кВт. Когда все запустили в боевом режиме, выяснилось, что оборудование кушает 3.5 кВт большую часть дня, а когда запускается генерация отчетов больших, раз в день на примерно 30 минут, потребление поднимается аж до 5 кВт! Понятно, что у вас ситуация другая и понимание реального потребления в зале у вас есть, но нужно еще учитывать, что многие кондиционеры не умеют вычислять реальную тепловую нагрузку на себя. (не будем говорить какой большой вендор за пять лет обновлений прошивок сумел снизить индикацию тепловой нагрузки с 80 кВт на блок до 50 кВт на блок, но реальная тепловая нагрузка как была 35 кВт на блок, так и оставалась такой все это время...)
Если один АВР валит _все_ насосы, то, я так понимаю, это не Tier III…
Это и не ЦОД был, а суперкомпьютер. Особенность суперкомпьютера — когда выбор стоит между повышением надежности инфраструктуры еще чуть-чуть или добавлением пары терафлопс производительности — выберут всегда производительность. Насосы питались от частотных регуляторов, частотные регуляторы от АВР, АВР — от двух независимых ИБП.
Главное, что для СК простой день-два — не смертельно. Соответственно, инфраструктура затачивается на сохранение вычислительного оборудования при проблемах. Буржуи разбаловались со своим качественным энергоснабжением, даже ИБП не ставят ради экономии.
Sign up to leave a comment.