Как стать автором
Обновить

Комментарии 38

НЛО прилетело и опубликовало эту надпись здесь
Это факт, без преувеличений.
НЛО прилетело и опубликовало эту надпись здесь
Ответили же, это не опечатка. В чем проблема то собственно? Сейчас популярно именно подобное. У организации есть стойка серверов. Вместо всей этой стойки бывает достаточно одного амд сервера. Либо другой вариант, как у нас было. Вместо покупки кучки серверов на интеле можно за теже деньги взять намного более интересную кучку серверов на амд. А 2 года для интела не имеет значения. В их процессорах за это время ничего принципиально лучше не стало, чтобы уповать на это.
Нет, просто такой хитрый маркетинг. CPU Intel Scalable Silver — 4/8/12 ядер (ниже их только модели Intel Xeon Bronze), в то же время AMD EPYC 7742 64 — 64 ядра.

Как у вас реализовано хранение (тройная репликация, в частности), очень интересно.

Хранилище реализовано на RBD CEPH в конфигурации size=3, min_size=2, кластер CEPH состоит только из NVMe дисков, приватная и публичная сеть находится на разных интерфейсах SFP28.

Неплохо

ipmi и ipKVM у этого сервера такой же убогий как и у младших братьев?
К сожалению, такой же убогий, только java.
Стопэ, а разве по Remote Control -> iKVM/HTML5 не запускается малость тормозная версия на HTML5? Или это только в X10/X11 платах со свежей прошивкой появилось?
iKVM/HTML5 на этой платформе нет, Supermicro обещает в новых прошивках.
У нас на двухпроцессорных эпик серверах все такое же как у интелов. iKVM, все дела. Никаких отличий. Работает и ладно, не вижу убогости особо никакой.
Убогость имхо там только в скорости реакции клавиатуры.

С охлаждением там проблемы понятные…
Во-первых, поток воздуха практически полностью перегорожен дисками и бэкплэйном. На корпусе есть "воздухозаборники" сверху, но их явно мало и воздух туда идет больше уже нагретый из "горячей" зоны стойки.
Во-вторых, зачем-то сдвинуты назад вертикальные направляющие в стойке… Даже на фото видна большая щель сбоку. Эта щель ни на что не влияет, пока в стойке 2-3 кВт тепловыделения. Когда в стойке больше 4 кВт тепловыделения — уже начинается рециркуляция горячего воздуха и оборудование начинает греться лишнего… Так что, начинать надо не с дополнительного охлаждения, а с устранения лишних щелей и юнитов без заглушек. (Как правило, просто устранения щелей хватает без дополнительных мер до 7-10 кВт на стойку. Дальше, если хватает мощности кондиционеров, изолировать горячий коридор… или холодный, если воздух раздается из под фальшпола. Что важно — это почти бесплатно по сравнению со всякими охлаждающими дверями, "активными фальшполами" и т.п.)

FLOPS не замеряли? В сравнении с Intel интересно.
Мы обычно тестируем через Geekbench5, пример теста запущенном на виртуалке на сервере AMD EPYC: browser.geekbench.com/v5/cpu/2842208
Если вас интересует выхлоп какой-либо другой утилиты, мы можем в будущем провести такие тесты.

Linpack интересен. Если будет возможность.

У нас одна двухпроцессорная нода и процессор действительно мощный. Мы начали процесс перехода исключительно на процессоры AMD Epyc. Рекомендую их опробовать.
Сервер
image
Ну проблема выбора серверов Супермикро немного в другом: сама компания и вендор Vmware не рекомендуют использовать сервера если вы хотите использовать виртуализацию Vmware. Основная проблема это програмный рейд, который виэмка не видит. Конечно можно купить полочку СХД и будет вам счастье, вроде как таким образом все будет работать. А иметь просто мощный сервер с одной ОС под какую-то задачу — скорее нет, хотя и не исключаю. Развертывать кучу сервисов вредит правилу «один сервер, один сервис». Но если вас все устраивает, то конечно на здоровье. Мне юлиже HPE с плюшками типа ILO и физич. контроллером рейда, полной поддержкой Vmware и т.д.

Чё то я не понял. Какой рейд контроллер используется в проблемных серверах? Поддерживает ли он HBA? Кроме того, у Vmware уже давно в моде гиперконвергентные решения. Это проще, плюс легко горизонтально масштабируется.
Раньше супермикро плотно сидел на адаптеке, и нужно было подобрать прошивку контроллера и драйвер vmware, и все отлично работало годами. Но если не заморачиваться, то да. Были проблемы.

Встроенный в чипсет, также известный как Fake-RAID/Soft-RAID.
С такими бюджетами впору поднимать vsan, который на этой железке будет отлично бегать. Полочки СХД это прошлое. Программный рейд вообще непонятно зачем тут. Хочется играться с этим — берем нормальный контроллер и все у vmware будет хорошо с ним. Супермикро ничем тут не отличается от хпе, деллов и прочих.

Развертывать кучу сервисов вредит правилу «один сервер, один сервис».

В эпоху kubernetes странное какое-то правило. Один сервер может и должен держать тучу сервисов и виртуалок.
Sad, but true. Но сам искал работу год назад, время от времени просматриваю вакансии чтоб понимать что сейчас используют — до сих пор люди сидят даже с новым железом на обычных дисках с рейдами. Да и магнитные ленты в ходу. А уж чтоб заниматься контейнерами даже речи не идёт.
Даже сталкивался с тем что существуют сервисы, которым необходимо быть установленными только под железо, а при их виртуализации поддержка отказывается на обработку, говоря «да это у вас виртуализация небось криво настроена».
Ладно, не буду о грустном
Это не грустно, а просто надо понимать юзкейсы правильно.
Если бизнес расписал бизнес-план, выделил бюджет, вложился в самое современное на момент вложений железо, и весьма дорогое на тот момент, то просто так, через год, только из-за выхода более новой версии процессора или СХД, не будет пускать всё под снос и закупать и настраивать новое железо. И ленты для архивного хранения не так уж дорого стоят, если ими пользоваться с умом. И запрет на запуск чего-то в виртуализации не просто так, а обусловлен или лицензионными требованиями (читай: хотим бабла), или чтоб своей же техподдержке упростить работу: одно дело когда у Вас не грузится физический сервер и всем более-менее понятно куда копать, другое дело когда в виртуалке что-то валится, держать высококвалифицированных (читай: дорогих) спецов в первой линии техподдержки никто не будет.
Ну и есть случаи, когда необходимо соблюдать требования безопасности и не то, что у кого-то там, в чужом облаке, не захостишь, а еще и в датацентре комната со своми серверами дополнительно ограждается сетками и сигнализациями, чтоб мышь не проскочила!
Ну тут я строго рекоммендую использовать внешние СХД, про то что IPMI (iLO) у HP намного симпатичнее — это бесспорно и они с iLO4 внедрили HTML5 virtual console, что действительно очень приятно.
В качестве Bare Metal такой конфиг тоже интересен, для чего-то дико нагруженного и что не стоит выносить на CIDA ядра — можно соблюсти правило 1 сервер — 1 приложение.

Мне очень сильно интересно, сколько шасси на 4 ноды потребляет электричества при полной забивке.
около 3квт
Даже при нагрузке процессоров 30% на ноде, температура подбиралась к отметке 95 градусов

и сразу же
В результате, сервер более чем оправдал наши ожидания, процессор AMD EPYC 7742 кажется нам неубиваемым в нагрузке. Схема, построенная на подобных решениях, будет дальше
масштабироваться, со временем планируем запустить эту услугу в Нидерландах.

Это как??? Вы серьезно хотите строить решение на базе железа, которое может работать только со снятой крышкой, а при норм нагрузке при, например, трейне нейросети на всех ядрах, или, например, тяжелых отчетах на колоночной СУБД, вообще расплавится? После первой цитаты ожидал что-то вроде «теперь мы всем офисом думаем кому бы это впарить»
Тут скорее вопросы с их комнате серверной и охлаждению в ней. Я вполне уверен, что при должно потоке свежего воздуха этот сервер отлично себя охлаждает.
Это уже как раз о том, что новые мощные серверы это не только радость «мы купили суперсервер», а еще и грамотное проектирование датацентра, с учётом разведения горячих-холодных потоков в коридоры без протечек между ними, подачи и учёта электропитания (когда один такой сервер в стойке это одно, а если вся стойка забита такими обогревателями, то требования к проводам и соединителям ужесточаются в разы) и его резервирования, охлаждение в серверной. Может дойти до смешного: комната большая, а работает только одна стойка с такими новыми серверами, так как физически столько тепла откачать из помещения невозможно или нерентабельно. Вполне возможно, что под такие серверы прийдётся потом специально проективать датацентр.
Я не забуду, как проходя мимо одного блэйдового сервера чуть не упал — т.к. не ожидал, что он даст такой поток воздуха по ногам.

На эту тему слушал спич человека из Амазона. Он показывал их железо, спрректированное под заказ для aws. И прямо сказал, мол, мы имеем плотность 2 проца на 1 юнит, и у нас в сервере гуляет куча места, и в масс маркете вы запросто найдёте железо с 3-5 раз большей вычислительной плотностью.
Но нам несложно построить дата центр на больше квадратных метров. Зато мы получаем серьёзную экономию на затратах на охлаждении, и энергоэффективность, которую не получишь на публично доступном железе.

думал, будет «теперь мы всем офисом туда дуем»
Системный диск: 1x INTEL SSDSC2KB240G8

Ну почему, почему везде вендоры экономят на спичках и закладывают под систему (а то и в самом железе) одиночный носитель вместо пары под зеркало? Да, я понимаю что износ системного диска минимальный; да, я понимаю что тут кластер. Но, блин, такое везде.
Особенную боль вызывают материнки для встраиваемых и промышленных решений с поголовным наличием только одного m.2 разъёма/одним слотом для карты памяти/одним sata dom.

Эти блейды от супермикры имеют некоторый минус. Питание в ноду подается через плату на которой распаян дисковый контроллер. И поэтому он может помереть. Иногда забирает и материку.

За время гарантии мы успели в примерно таком поменять 4 контроллера и 3 ноды. Хотя может конечно именно нам просто не повезло.
Коллеги, и SM без проблем валидировала вам сервер с EPYC 7742 и безо всяких оговорок огрузила? Интересно просто…
Естественно, заплатили деньги и получили сервер :) Единственное долго ждали, как написано выше.
как раз неестественно, потому и спросил )
сейчас сам бьюсь с подобной конфигурацией, продакты Supermicro не дают мне добро на такую набивку из-за TDP. На 7702 пожалуйста, говорят, а на этих нет…
Зарегистрируйтесь на Хабре, чтобы оставить комментарий