Как стать автором
Обновить

Комментарии 10

Интересно что даже производители видеокарт часто включают продув на 70-80% пока не запустится драйвер и не начнёт контролировать температуру, имменно чтобы при отсутствии драйвера ничего не перегрелось. Т.е. имхо производитель сервера(материнки и софта к ней) должен позаботиться о том, чтобы сервер обнаружив существенные проблемы с чтением температуры перешёл в fail safe режим и дул пропеллерами аки боинг на взлёте.
Вообще, все приличные сервера делают так же. Обычно это звучит так: УУУУУУУуууууууу шшшшш при включении. А вот насчёт поведения при отсутствии сенсоров — это да. Хотя мне кажется, уважающий себя сервер должен был просто зарепортить проблему в sel, а если всё плохо — встать. Лучше вставший сервер, чем тротлящий.

Ну я думаю, что проблем с чтением температуры CPU в BMC не было, по крайней мере BCM её показывал такой-же, как lm-sensors.
И вращались вентиляторы тоже с приемлемой скоростью (~10k оборотов) для idle или небольшой нагрузки, но под значимой нагрузкой этого был недостаточно.
Так же, я связываю это с тем, что отключил C-States, т. к. постоянно валились сообщения:


[Tue Nov 13 14:35:35 2018] Uhhuh. NMI received for unknown reason 21 on CPU 84.
[Tue Nov 13 14:35:35 2018] Do you have a strange power saving mode enabled?
[Tue Nov 13 14:35:35 2018] Dazed and confused, but trying to continue

Кстати, в этой платформе, каждые две ноды обдуваются парой вентиляторов (80x80x38 mm, 16.5K RPM, Non-hot-swappable):

Напомнили очень давнюю историю, когда серверные платформы Intel (да и на младших HP пролиантах я встречал такое поведение) после обновления BIOS ревели вентиляторами безостановочно, пока не обновишь и прошивку BMC. frusdr она тогда называлась. Многие админы ловились не прочтя описания в readme, кто производителя ругал, кто считал что так должно быть — всё равно в серверной шумно.

Я надеялся что культура разработки прошивок с тех пор изменилась. Оказывается бывает по разному.
на HP (вроде бы g4) требовалось для мажорной прошивки BMC переключить джампер на матплате в нужное положение. Потом вернуть.
Ага у HP BMC в failed state вставала и реактивный визг…
А Zabbix из коробки умеет в Telegram отправлять сообщения?
Нет.
Увы нет. Я использовал это github.com/ableev/Zabbix-in-Telegram, настраивается достаточно просто и в группе t.me/ZbxTg народ отзывчивый
насколько я помню из коробки — нет. У меня для этих целей создан вручную способ оповещения и прикручен скриптец в 2-3 строки, которому Zabbix скармливает через параметры нужные данные (абонент, текст сообщения)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации