Как стать автором
Обновить

История одного сервера с пассивным охлаждением

Время на прочтение5 мин
Количество просмотров8.7K
Всего голосов 12: ↑11 и ↓1+10
Комментарии44

Комментарии 44

Как то я ожидал выводов в конце статьи а там бац и всё. Статья незаконченная?

Отдельно хотим опубликовать тесты инференса на разных типах сетей. Intel NUC8i5BEK показал себя весьма эффективно. В нашем варианте использования это детекция номерной пластины, распознавание номеров и марок моделей ТС. Получилось стабильно обрабатывать 80 потоков RTSP 15 FPS, Full HD. Далее, данные (события) со всех микрокомпьютеров через REST API собираются на едином хранилище.

НЛО прилетело и опубликовало эту надпись здесь
Спасибо! Поправили!
В масле/охлаждающей неэлектропроводной жиже не пробовали топить? или ограничение по объему?

Нет смысла. В предыдущих статьях есть обзор применения жидкостного охлаждения для GPU (двухфазное иммерсионное и hot pipes). Там при тепловыделении по 150 Вт и более с каждой карты смысл есть. Здесь, при использовании мобильных процессоров, проще, удобнее и дешевле — воздух.

я бы прикупил, для обогрева дома зимой, вместо масляного радиатора, сборку из нескольких gpu (или может сразу asic?) с пассивным охлаждением и контролем температуры, да вот только никто не продаёт

Вопрос в том, чтобы тепло отводить максимально эффективно при наилучшей производительности. Область применения наших решений — это серверные стойки и наружная установка в непосредственной близости от камеры для исполнения нейронных сетей. Варианты интеграции с отоплением были у ASIC'ов с жидкостным охлаждением в пору популярности майнинга, но до серии эти решения так и не дошли.

А моё желание в том чтобы обогрев был основной функцией устройства с полезным дополнением в виде процессорных мощностей которые даже можно попытаться монетизировать. Эдакий действительно умный обогреватель.
ASIC'и и системы с водяным охлаждением (подключаемые к системам отопления). Они, в принципе, есть. У нас другие устройств — сервера для стоек и безвентиляторные промышленные ПК для наружной эксплуатации.
А в чем смысл использования NUCов? Они вроде не особо шустрые, даже если 8 штук — не проще один нормальный комп взять с топовой картой?

В том, что они дают минимальную стоимость FPS в инференсе. Получается использовать гибридную схему инференса и параллельно исполнять несколько нейросетей. В нашем случае на CPU — детекция и распознавание номеров, на GPU — классификация марок и моделей ТС. Фактически на 1U мы получили 8 CPU Core i5, 32 физических ядра и 64 потока, 8 GPU для декодинга потоков и инференса. Конкретно в нашей задаче и с топологией сети Darknet19 (YOLO), это аналог сервера на 4 Tesla T4, но с меньшим энергопотреблением и минимум в 2 раза дешевле по стоимости.

А стоимость работы по созданию и настройке всего этого добра вы в расчет не включили? Во многих странах день работы инженера стоит сравнимо со стоимостью всего этого железа.
Включили. Мы поставляем сервер в комплекте с софтом по детекции и распознаванию объектов (марки, модели ТС и номера) или предустановленной ОС Linux. Для дальнейшей работой с группой устройств, вы можете использовать связку Docker, Docker Swarm, Ansible для максимально гибкой и быстрой настройки.
Как будто выглядит избыточным — вентиляторы на каждый блок. Видимо сделано для возможности замены по блочно о чем написано в тексте. Просится по одной «шпале» на каждую сторону.

Да, все верно. Вроде, отразили это в тексте. Версия на фото — выставочная. При открытой верхней крышке сервера "шпалы" с вентиляторами (ее достаточно устанавливать с одной стороны) не хватает, так как нарушается поток воздуха. В продакшн версии блок вентиляторов находится на наружной стороне, продувая от холодного коридора в сторону горячего (спереди назад).

Всё-же на высос с горячей стороны обычно эффективнее, чем на вдув с холодной. Кроме того, если ставить что-то типа этого: FAN-0086L, то Вы бы поместились бы внутри, за счет экономии 4х посадочных мест для вентиляторов возле каждого нук-а
Спасибо, учтем!
Я лично видел рак с супермикрами, у которых грелся в дежурке БП, но так как рак был выключен и в дежурке, то продув не работал и блоки прогревали друг друга, т.к. были в одном месте, и верхние блоки падали в ошибку, убирая дежурку, и таким образом сервера не были доступны даже по IPMI… Вот Вам и пассивное охлаждение…
Здесь уже вопрос условий эксплуатации и своевременного обслуживания оборудования, скорее возникает, чем вопрос проектирования…
Условия эксплуатации — охлаждаемый датацентр. Просто конкретный рэк был полностью выключен и в дежурке, готовый для новых клиентов. А теперь представьте надеплоить рэк пассивных устройств как у Вас, когда продува то и не предвидится. Я вот к чему.
Весь сервер потребляет не более 450 Вт. БП — 500 Вт и оснащен системой активного охлаждения, выведенной на заднюю панель сервера. Он, в принципе, не может настолько нагреться, чтобы выйти за рамки рабочего диапазона. В продакшн версии сервера с активным охлаждением — 2 БП по 600 Вт Supermicro с системой активного охлаждения, которая не требует дополнительного (стоечного) продува.
Сделайте так, чтобы все разъемы/индикация были спереди сервера. Пожалейте тех, кто будет эксплуатировать это дело…

Согласны, тоже задумывались об удобстве эксплуатации и сделали. На передней части сервера в продакшн версии располагается дисплей, на котором отражается информация по статусу и индикация неисправностей (внутри Nano Pi от FriendlyARM для сбора статистики и управления по GPIO).

По просьбам трудящихся сейчас выпустили второй ревижен сервера с учетом множества замечаний, о которых вы писали в том числе. Был реализован следующий основной функционал:

  • IPMI/BMC — мониторинг и управлением компонентами системы;
  • графический OLED дисплей на передней панели с индикацией текущих состояний каждого модуля NUC, IP-адресами, нагрузки на систему, сообщений об ошибках и сбоях, температур всех и вся, оборотов вентиляторов и т.д.;
  • быстрая горячая замена (Hot Swap) модулей NUC;
  • быстрая горячая замена высокопроизводительных вентиляторов;
  • активное управление вентиляторами по температуре с модулей NUC и дополнительных датчиков входящего и выходящего воздуха;
  • избавились от обилия сетевых проводов- развели их на плате;
  • установили два БП с поддержкой Power Management и возможностью горячей замены.

Схема сервера на базе 8 х Intel NUC
image
Как данные попадают в сервер с 8-ю NUCами?

По сети, вход 3 Гбит (основной и резервный), внутрення маршрутизация между узлами — по 1 Гбит. Пол инференс этого хватает с запасом. 80 потоков по 4 Мбит/сек = 320 Мбит/сек на входе и по 10 потоков на каждый Intel NUC: 4 Мбит/сек * 10 потоков = 40 Мбит/сек.

Какие параметры у камеры, что дает 4Мбит/с?
Full HD, 30 FPS, H.264, CBR
вообще говоря, сама идея не очень понятна. Iris как GPU довольно хиленькая, одна нормальная видяха от nVidia по идее должна опережать 8 штук нюков.

Вы наверное делали какие-либо сравнения — поделитесь результатами? Почему было выбрано решение «много мелких юнитов» против «один большой с тем же потреблением»? Что бы можно было downscale до одного юнита в IP66?

Очень многогранный вопрос. Во-первых, все зависит от топологии сети. У нас это Darknet19 (YOLO), сегментация UNET. Аналогичную производительность мы получаем на четырех nVidia Tesla T4, что дороже в два раза и менее выгодно по энергопотреблению. Во-вторых, мы используем гибридный инференс. То есть одна сеть исполняется на CPU (детекция и распознавание номеров), а другая на GPU (классификация марок и моделей ТС). В-третьих, нам нужен аппаратный декодер для обработки входящего видеопотока, чтобы не загружать этим CPU. Таблица сравнений стоимости FPS (стоимость внедрения и стоимость владения) будет в следующем посте. Данные есть в том числе по nVidia GTX, RTX, Tesla, Xavier и другим решениям. Но сейчас не хватает кармы для публикации :(


Intel NUC и другие решения "на краю" мы уже применяем. В нижней части статьи показали Outdoor Box NUC, IP66, климатический модуль, температурный диапазон -40+50. Есть варианты на FriendlyARM Nano Pi M4, Upboard и другие. Выбор конкретных устройств зависит от задачи. Не везде Intel NUC будет оптимальным.

Если прям так сильно хотелось безвентиляторный сервак, то вполне логично было бы разместить корпуса вертикально, «на боку», и соответственно поменять направление ребрения радиаторов.
Какой смысл колхозить в серверной такую штуку, если там и так постоянно ревут сотни вентиляторов? Я бы еще понял если бы это для дома.
Себе я собрал в миди-тауэре домашний «сервачёк» (одна «большая» мать, три распберри и 7 дисков) — поставил три тихоходных 140 мм вентилятора на вдув (через фильтра), корпус стоит под давлением — внутри чисто, заодно работает как очиститель воздуха в квартире. С 2-3 метров его уже не слышно, рядом заметно только шуршание воздуха.

Собственно, так и есть в устройствах наружной эксплуатации. Это линейка Outdoor Box (компактные сервера для инференса на краю). Здесь был, скорее, эксперимент с прицелом на будущее и применением технологий пассивного охлаждения на Нюках восьмого поколения. В рамках стоечного корпуса надеялись на прецизионные системы охлаждения серверных, но при полученном тепловыделении это оказалось невозможным.

А почему использован именно такой микрот? Разве не могла подойти более простая модель?

Требовался SFP и возможность корректировки правил маршрутизации, плюс он стабилен при пассивном охлаждении (в случае отключения PoE).
2011|3011 и простые из серии CRS тоже подходят под эти требования, но стоят ещё меньше.
2011 вычеркните, это я не проснулся. У него только 5 гигабитных портов (+ один sfp). Другие 5 портов — 100 мбит.
Они кардинально разные. 3011 — температурный диапазон до 40 градусов, 4011 — до 70 градусов. В варианте с пассивным охлаждением в рамках закрытого серверного корпуса это важно. Разница в стоимости 3011/4011 — около 1000 руб. Внутренняя пропускная способность 4011 — 40 Гбит/сек.
Просто интересно, как часто нуки дохнут у Вас?

Полная статистика есть по 4-ому поколению Нюков в корпусах наружного исполнения с климатикой. Там около 10% с 2015 года. По 8-ому поколению за 6 месяцев тестовой эксплуатации нет ни одного вышедшего из строя (48 штук работает исправно).

Процессор себя не даёт перегреть, в отличие от внешнего видеочипа. Вероятно, этим и обусловлен полученный результат.
Да, верно. Он переходит в тротлинг, т.е. понижает частоту и отключает часть ядер при перегреве. Но это отразится и на быстродействии в том числе. При тестировании устройств (как в серверном исполнении, так и в корпусах наружного применения) мы проверяем устройства на отсутствие тротлинга в процессе эксплуатации, а с работающих устройств собирается статистика (Zabbix, Chronograf), что также позволяет отслеживать тротлинг и температуру по сенсорам.
подскажите как/где изготоавливали радиаторы?
Вероятно, просто подобрали подходящий. Производство маленькой партии недёшево. Вообще на фрезерах с ЧПУ изготовляют массово то, что невозможно на экструдере.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории