Как стать автором
Обновить

Компания Ampere анонсировала 128-ядерный ARM-процессор Altra Max

Время на прочтение3 мин
Количество просмотров19K
Всего голосов 44: ↑43 и ↓1+42
Комментарии67

Комментарии 67

Ultra, Epic, ...?

Epyc же :)
Да, нерядовой маркетинг — название компании также намекает на высокое потребление процессорами энергии, а не на высокую производительность.

Это может быть имя. Сначала Макс, потом Сэм, Джон, Иннокентий…
Семейство процессоров-то называется Ампер.

Макс Ампер — это звучное имя. Для процессора.

Хм, а если следующее семейство назовут Ом? А конкретный процессор Мин? Это будет звучно? :)

в одной армии салдатам на увольнение раздавали презервативы, все брали стандартный и большой, и никто не захотел брать маленький. тогда руководство переименовало размеры в нормальный, большой и гигантский, в результате все солдаты начали брать свой размер.

Гигантский?

SuperPlusTurboMax
НЛО прилетело и опубликовало эту надпись здесь
В прошлом году мы сравнивали для внутренних нужд ARM и х86
— Huawei TaiShan 2280 V2 (2 x Kunpeng 920-4826 2.6GHz)
— DELL PowerEdge R440 (2 x Intel Xeon Gold 6130 2.10GHz)

Конечно тут не тот же самый процессор. Но картина думаю похожа. Могу привести выдержки:

1. Результаты тестирования включением в продакшен кластер RELK
На реальных задачах в кластере ElasticSearch сервер Huawei (ARM) показывает равную производительность с сервером Dell (x86) на процессоре Intel Xeon Gold 6130. Не смотрят на то, что Huawei работает на 10Тб HDD, а DELL – на SSD.

2. Результаты синтетического теста на параллельную запись в ElasticSearch
Сервер Huawei (ARM) на 20-30% более производителен чем Dell (x86) при параллельной записи, несмотря на то что Huawei на HDD, а Dell на SSD.

3. Результаты теста на энерго-эффективность с использованием stress-ng
В представленной на тест конфигурации сервер Huawei (ARM) примерно на 30% менее энергоэффективен чем Dell (x86).

НЛО прилетело и опубликовало эту надпись здесь

Если там все те же 0.8V на ядре, то модель на 250W можно назвать 312 Ampere.

Производительность интелл начинает деградировать когда переходит порог пол сотни потоков, потому что там аппаратно 48 потока.
У АМД аппаратно 128 потока, деградация заметна на числах больше 128.
Ампер держит 160 потоков на 80 ядер без деградации производительности?
Это как, это что за магия? Создаются фантомные ядра? Арм вроде не имеет гипертрединга.
А дальше, что как будет вести себя система, когда потоков будет в 2.5 — 3 раза больше чем ядер? Дальше можно фантазировать. Появится еще 80 фонтомных ядер, или произойдет полный локдаун системы.
В принципе, это — интрига, когда график останавливается перед очередным порогом.
В общем эта статья свидетельствует, что за дело, взялись профессиональные маркетологи, которые легко проходят границы, от таких приемов маркетинга, как акцентировать, умолчать, до полного введения в заблуждение.
На графике 160 cores, видио тестировали на двухпроцессорной машинке. Но графики забавные, сравнивают ядра с потоками. Для Ампер он останавливается на 160, а для остальных продолжается за границы физических ядер.
На всех графиках — двухпроцессорные машины. На ampere имеем 160 ядер/потоков, на АМД 128 ядер/256 потоков. Интел 48/96. Всё максимально прозрачно. Тот же Aмазон продаёт VCPU, поэтому поток ARM против x86 — это честное сравнение, для платформы предназначенной для гиперскейлов.
НЛО прилетело и опубликовало эту надпись здесь
график начинает задолго до 40 отклоняться

Чему можно найти объяснения:
1) Падение частоты при задействовании всех ядер.
2) Упор в ПСП

ark.intel.com/content/www/us/en/ark/products/120502/intel-xeon-platinum-8160m-processor-33m-cache-2-10-ghz.html

Maximum Memory Speed 2666 MHz
Max # of Memory Channels 6

У Ampere и AMD 8 каналов x 3200, т.е. ПСП на 60% выше.

Дальнейшее падение уже из-за SMT.

тогда как амд с их чиплетами и неравномерным доступом к кешам — ровно до физических?

Если не гонять данные между чиплетами, то равномерным.
Не знаю что именно они там тестировали, но нагрузка именно такая — куча независимых потоков.

Отличные графики ни о чём.

Графики понятно о чём — о масштабируемости.
Считайте что N1 это 50-60% от Zen2
НЛО прилетело и опубликовало эту надпись здесь
Чтоб так считать, нужны цифры.

По Graviton2 есть масса тестов. Собственно это цифры его.
Там точно-такое же ядро и обвязка похожа, но в случае Ampere,
80 ядер вместо 64 и частота выше на 40%.
НЛО прилетело и опубликовало эту надпись здесь
Зависимость потребления от частоты — нелинейная.

в тех тестах сравнивают не зен2, а конкретный заказной чип АМД
Zen2 это не CPU, а микроархитектура. Точно так же как и N1.

в конкретном девайсе его могли ограничить с целью понижения потребления, например.

Верно, поэтому для «облаков» не берут самые топовые чипы.
Тем более важно сравнить с оптимальным по perf/watt решением.
НЛО прилетело и опубликовало эту надпись здесь
Я думаю что это может быть завязано на реализации транспорта между ядрами. Кольцевая шина против инфинити фабрики и тд
Мне ещё интересно, как на самом деле там дела с конкурентным доступом к памяти. 8 каналов это хорошо, но вот что будет, когда ядра полезут по памяти так, что burstы нормально формироваться перестанут.
Как я понял, все эти ARM ядра — однопоточные. Те самые «фантомные» ядра у Intel и AMD как раз и являются причиной деградации, нельзя просто запустить 2 потока на одном ядре и думать, что производительность вырастет в 2 раза, это так не работает.

График "Бенчмарк для 80-ядерного ARM процессора Ampere Altra" вызывает много вопросов:


  1. Почему подписи под графиками отличаются? У ARM написано "cores", у x86 — "threads". Они могут увеличивать cores на ARM динамически?
  2. Если число потоков превышает число ядер — то дальнейший рост должен прекратиться. Более того, должно начаться падение и деградация, т.к. потоки будут лишь мешать друг другу. На графиках мы видим продолжающийся рост, хоть и более замедленный.
  3. Почему для ARM не продолжили кривую? Надо было по аналогии с AMD — продолжить до 250, ну или хотя бы до 1000. Ведь там больше ядер, чем у AMD, не так ли?

Выглядит, как неумелые маркетинговые картиночки.

У ARM написано «cores», у x86 — «threads».

Потому что у ядер N1 нет SMT.

Если число потоков превышает число ядер — то дальнейший рост должен прекратиться.

Оно не превышает — графики для двухсокетных систем.
2*80 ядер Altra (160 cores)
2*64 ядер Epyc (256 threads)
Ну и кстати бывают задачи, которые можно ускорить поставив количество потоков больше числа ядер.
Например www.7-cpu.com

О, здорово, в chome можно будет больше 2х вкладок открыть

По делам моей компании я пробовал купить Mt. Jade Two Socket Rack Server (2x 80 ядер) у компании Ampere, но мне это не удалось. На мои вопросы о сроках, о поставках и о диллере головной офис компании не ответил совсем до сих пор (4 месяца уже будет). Все эти теоретические успехи прекрасны, но по факту в продаже же нет ничего.

Напишите в твиттер :D
@jwittich — это их SVP of Products

Спасибо за контакт, напишу обязательно. Но увы, сама покупка не актуальна уже, мы в апреле-мае купили сервер от их конкурентов на базе ThunderX2 2x 32 cores.

Ну что, я получил официальный ответ, что на сегодняшний день они могут только организовать pre-order тут: https://amperecomputing.com/evaluate-altra/ (наверно поэтому было молчание — им просто нечего было продавать). Ссылка ведет на https://www.phoenicselectronics.com/ampere.html. А Phoenics Electronics является так же официальным дистрибютером Gigabyte и предлагает другие сервера на базе ARM64: https://www.phoenicselectronics.com/gigabyte/thunderx2.html.

TDP 250W на ARM. Приплыли.
В том то и дело. И это же 7 нм, и частоты не заоблачные. Видимо, дедушке кремнию действительно пора подыскивать замену.
А в чём ваше удивление? Любых процессоров можно напихать в чип под любой TDP.
Представляете, сколько их влезет на Cerebras Wafer Scale Engine?
Всего 128 более простых ядер, выполненных по современному техпроцессу, на относительно низких частотах, и опять 250 Вт. Перспектива где?
<2W на ядро? Это очень мало. Например в Epyc ядра потребляют половину энергии, остальное уходит на uncore, ЕМНИП.

Напихали ядер, чтобы при этом они влезли на кристалл и в приемлемый теплопакет,
В итоге «плотность вычислений» увеличивается.
Перспектива в том, что на ARM производительность пока растёт быстрее чем росла на x86.
Интел/АМД делают высокочастотные дизайны на high-perf техпроцессах, но в серверах они не имеют выигрыша по частоте. Наоборот, ARM уже выигрывает по частоте и количеству ядер благодаря более лучшей энергоэффективности и high-density техпроцессу.

на относительно низких частотах,
Базовую частоту 7742 напомнить? Она составляет 2.25ГГц.
2 Вт/ядро это неплохо, но и не удивительно, есть двухваттные интел, да и обычный кристалл при лёгком снижении напряжения и частоты может умерить аппетит на порядок.
Речь о новой архитектуре, о долгих ожиданиях ARM в серверном/суперкомпьютерном сегментах. Свершилось, но чудо ли? Энергоэффективность архитектуры незначительно отличается от старшей и более сложной, выигрыша хотя бы на порядок по количеству ядер не предвидится.
выигрыша хотя бы на порядок по количеству ядер не предвидится.

Можно и 7 шапок(с)
Крайне легко сделать в 10 раз больше ядер ценой низкой однопоточной производительности.
А вот сделать в 2 раза больше ядер и как минимум догнать по однопотоку — не легко.
Для линейки Neoverse ARM ориентировался на 128-256 ядер на кристалле.
В то время как будущий Интел IceLake будет иметь до 38 ядер вместо 28 сейчас.
Это понятно. Понятно также, что x86 это проприетарщина без перспектив стать доступной для сторонних производителей. Просто казалось, что ARM нацелен убить двух зайцев. Может у меня были завышенные ожидания по отношению к ARM в производительном сегменте.
Быстрые серверные ядра от ARM(конторы) — Zeus будут реализованы только в следующем году. Также, возможно уже в этом году будут Cortex-A78/X1. Пока непонятно как они выступят.

Просто казалось, что ARM нацелен убить двух зайцев.

ARM (архитектура) разработана с учётом предыдущих ошибок, поэтому она хорошо ложится на ОоО железо. Apple в конце года покажет state-of-art проц для ноутов.
Подождём, посмотрим. Спасибо за информацию.
НЛО прилетело и опубликовало эту надпись здесь
угадайте почему?

TDP 280W

Только они при этом имеют возможность и апаться до 4,3 на ядро при необходимости.

При скольки рабочий ядрах?
Таких частот я даже на 3950X не вижу. Не, он конечно в однопотоке до 4.8 раскочегаривается, но в нормальной ситуации (нагрузка на все ядра) там около 4ГГц.
А ещё у TR всего 4 канала памяти — как бы он не слил Altra в memory-bound задачах, несмотря на кэш. У Интелов вообще кэша кот наплакал, тем не менее они более-менее справляются с AMD.

Это же бесплатно? Не греет проц, не жрёт ватты…

Я про это писал выше. (hint: uncore)

Внимание вопрос: не будет ли ещё интереснее в этих задачах ГПУ-ускорители?

Конкретно эти ядра плохо подходят для вычислений.
Но Ampere прекрасно работает с ускорителями Nvidia =)

Если же смотреть в целом, GPU, не считая дополнительных усилий, требований к квалификации программистов — это лишние копирования данных, хрупкость GPU-шного кода (glass-jaws), латентность. Поэтому Fugaku, как и его предшественник, чисто процессорный.
GPU хорош для рекордов линпака и нейросетей, а остальные задачи так себе.
НЛО прилетело и опубликовало эту надпись здесь
В однопотоке?

Да, и TigerLake уже сильно быстрее. Правда про серверные процессоры на нём даже не говорят.

У АРМов же этих пока вижу варианты — фигарим на базовой максимум.

Нет. У Ampere «sustained turbo» 3,3, базовая 3.
ThunderX3 турбо 3, база — 2.2 (при максимальной нагрузке на FPU).

А вот аналогов последних ноутных апушек от интела (на 10нм) или амд — на арме и близко не видел.

Будет через полгода.

Попробуйте даунвольтнуть проц, он будет греться меньше

Рисковать стабильностью? Нафиг — нафиг. Я же его не в руках держу. Шуршит себе тихонько и ладно.
НЛО прилетело и опубликовало эту надпись здесь
Угу. Будут. А у амд вон, уже новые интелриперы выходят, через неделю где-то.

Вы так говорите как будто они каждую неделю выходят. Есть цикл разработки продукта и он не обязан совпадать у разных компаний.
Релиз принципиально новой платформы это совершенно не то же самое что выпустить железку с подкрученными характеристиками, пусть даже и на новом сокете. Им даже не нужны новые кристаллы. 8 каналов и так есть на TR IOD (он от Rome).
НЛО прилетело и опубликовало эту надпись здесь
Сколько до возможности любому купить этот арм пройдёт?

Я говорил про Apple, если что. У них, как правило, в день анонса можно заказать.
Больше никто вроде не собирается выпускать ARM аналоги «последних ноутных апушек».
НЛО прилетело и опубликовало эту надпись здесь
Номинальный TDP вообще никакой роли не играет. В реальности важен лишь показатель удельной производительности FLOPS/Вт. Это же камни для стационарных систем, а не для планшетов каких-нибудь.
это как посмотреть, не играет. С одной стороны, туда надо запихать эти 250вт (т.е. чуть ли не 300А), с другой — потом их оттуда куда-то деть. А это все цена матери и системы охлаждения
В реальности мне надо знать, сколько у меня в ДЦ будет жрать стойка, чтобы понять, сколько ей надо дать питания и сколько с неё удалять тепла. А эта цифра весьма так зависит от того, сколько там жрут сервера.
Ваш комментарий подкрепляет мои слова: есть ЦОД и есть кабель, с которого энергетик разрешает снять 100кВт. Я постараюсь утилизировать эти 100кВт так, чтобы получить максимум FLOPS (или любой другой полезной работы). Меня не интересует то, что другой процессор потребляет на 10% меньше энергии. Для меня важно то, что он при этом делает на 20% меньше работы. Будет он жрать 180Вт или 250Вт, ничего не изменится, решение не принимается от номинала TDP, это бессмысленно.
Решение принимается по лимиту мощности потребления/мощности холода, которое на стойку выделено. Если я буду отталкиваться только от того, сколько мне киловатт с луча приходит — я получу дико фиговый ДЦ, КПД которого вполне себе сделает его нерентабельным. И при постановке вашего железа в ДЦ у вас либо спросят «а какая у вас тама мощность всех БП» или в лучшем случае «а сколько оно жрёт при 100% загрузке» и уже от этой цифры будут плясать с размещением вашего сервера, ибо если кидать как попало, то половина зала будет перегреваться, а в другой можно будет вино в стойках охлаждать не снимая фальшпола. И как ДЦ меня при этом совершенно не заботит, сколько попугаев у вашего железа, я вам хоть обогреватель с управлением по ethernet поставлю в свой ДЦ, платите за колокейшен и всё.
Если я буду отталкиваться только от того, сколько мне киловатт с луча приходит — я получу дико фиговый ДЦ, КПД которого вполне себе сделает его нерентабельным.

Каким образом, по вашему, тут может снизиться КПД? Подход, что я описал выше, как раз и даёт максимальный КПД, т.е. максимум работы-на-ватт-мощности. Именно от того `сколько киловатт с луча приходит` и надо отталкиваться, других способов я не вижу.
Таким, что если раскидать тепловую мощность по машзалу по принципу «как попало», то с охлаждением начнутся проблемы, что вызовет снижение КПД за счёт того, что больше электроэнергии пойдет на систему охлаждения.
Дано: один процессор Cerebras, потребление 15 кВт, как у честной стойки. Ваши действия? Как правильно распределить его тепловую мощность по машзалу, чтобы он, бедолага, стоящий как весь машзал, не сгорел? А если таких будет сотня? Есть типовые решения?
Ну давайте ещё что-то типа сотни полностью нафаршированных Sun M6-32 пораскидываем по машзалу типового ДЦ. Колокешейн для такого найти весьма геморно, и уж если у вас стоят задачи применения такого — то впору свой собственный ДЦ строить под ваши собственные нужды.
В том то и дело, сама концепция типового машзала типового ДЦ будет меняться по мере изменения типовой начинки.
«RISC-архитектура изменит все!» (фильм «Хакеры», 1995)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий