Комментарии 67
Ultra, Epic, ...?
Это может быть имя. Сначала Макс, потом Сэм, Джон, Иннокентий…
Семейство процессоров-то называется Ампер.
— Huawei TaiShan 2280 V2 (2 x Kunpeng 920-4826 2.6GHz)
— DELL PowerEdge R440 (2 x Intel Xeon Gold 6130 2.10GHz)
Конечно тут не тот же самый процессор. Но картина думаю похожа. Могу привести выдержки:
1. Результаты тестирования включением в продакшен кластер RELK
На реальных задачах в кластере ElasticSearch сервер Huawei (ARM) показывает равную производительность с сервером Dell (x86) на процессоре Intel Xeon Gold 6130. Не смотрят на то, что Huawei работает на 10Тб HDD, а DELL – на SSD.
2. Результаты синтетического теста на параллельную запись в ElasticSearch
Сервер Huawei (ARM) на 20-30% более производителен чем Dell (x86) при параллельной записи, несмотря на то что Huawei на HDD, а Dell на SSD.
3. Результаты теста на энерго-эффективность с использованием stress-ng
В представленной на тест конфигурации сервер Huawei (ARM) примерно на 30% менее энергоэффективен чем Dell (x86).
Если там все те же 0.8V на ядре, то модель на 250W можно назвать 312 Ampere.
У АМД аппаратно 128 потока, деградация заметна на числах больше 128.
Ампер держит 160 потоков на 80 ядер без деградации производительности?
Это как, это что за магия? Создаются фантомные ядра? Арм вроде не имеет гипертрединга.
А дальше, что как будет вести себя система, когда потоков будет в 2.5 — 3 раза больше чем ядер? Дальше можно фантазировать. Появится еще 80 фонтомных ядер, или произойдет полный локдаун системы.
В принципе, это — интрига, когда график останавливается перед очередным порогом.
В общем эта статья свидетельствует, что за дело, взялись профессиональные маркетологи, которые легко проходят границы, от таких приемов маркетинга, как акцентировать, умолчать, до полного введения в заблуждение.
график начинает задолго до 40 отклоняться
Чему можно найти объяснения:
1) Падение частоты при задействовании всех ядер.
2) Упор в ПСП
ark.intel.com/content/www/us/en/ark/products/120502/intel-xeon-platinum-8160m-processor-33m-cache-2-10-ghz.html
Maximum Memory Speed 2666 MHz
Max # of Memory Channels 6
У Ampere и AMD 8 каналов x 3200, т.е. ПСП на 60% выше.
Дальнейшее падение уже из-за SMT.
тогда как амд с их чиплетами и неравномерным доступом к кешам — ровно до физических?
Если не гонять данные между чиплетами, то равномерным.
Не знаю что именно они там тестировали, но нагрузка именно такая — куча независимых потоков.
Отличные графики ни о чём.
Графики понятно о чём — о масштабируемости.
Считайте что N1 это 50-60% от Zen2
Чтоб так считать, нужны цифры.
По Graviton2 есть масса тестов. Собственно это цифры его.
Там точно-такое же ядро и обвязка похожа, но в случае Ampere,
80 ядер вместо 64 и частота выше на 40%.
в тех тестах сравнивают не зен2, а конкретный заказной чип АМДZen2 это не CPU, а микроархитектура. Точно так же как и N1.
в конкретном девайсе его могли ограничить с целью понижения потребления, например.
Верно, поэтому для «облаков» не берут самые топовые чипы.
Тем более важно сравнить с оптимальным по perf/watt решением.
www.arm.com/products/silicon-ip-cpu/cortex-a/cortex-a65ae
Вон в фичах — Simultaneous Multithreading, 2 треда в парраллели.
График "Бенчмарк для 80-ядерного ARM процессора Ampere Altra" вызывает много вопросов:
- Почему подписи под графиками отличаются? У ARM написано "cores", у x86 — "threads". Они могут увеличивать cores на ARM динамически?
- Если число потоков превышает число ядер — то дальнейший рост должен прекратиться. Более того, должно начаться падение и деградация, т.к. потоки будут лишь мешать друг другу. На графиках мы видим продолжающийся рост, хоть и более замедленный.
- Почему для ARM не продолжили кривую? Надо было по аналогии с AMD — продолжить до 250, ну или хотя бы до 1000. Ведь там больше ядер, чем у AMD, не так ли?
Выглядит, как неумелые маркетинговые картиночки.
У ARM написано «cores», у x86 — «threads».
Потому что у ядер N1 нет SMT.
Если число потоков превышает число ядер — то дальнейший рост должен прекратиться.
Оно не превышает — графики для двухсокетных систем.
2*80 ядер Altra (160 cores)
2*64 ядер Epyc (256 threads)
Ну и кстати бывают задачи, которые можно ускорить поставив количество потоков больше числа ядер.
Например www.7-cpu.com
По делам моей компании я пробовал купить Mt. Jade Two Socket Rack Server (2x 80 ядер) у компании Ampere, но мне это не удалось. На мои вопросы о сроках, о поставках и о диллере головной офис компании не ответил совсем до сих пор (4 месяца уже будет). Все эти теоретические успехи прекрасны, но по факту в продаже же нет ничего.
@jwittich — это их SVP of Products
Спасибо за контакт, напишу обязательно. Но увы, сама покупка не актуальна уже, мы в апреле-мае купили сервер от их конкурентов на базе ThunderX2 2x 32 cores.
Ну что, я получил официальный ответ, что на сегодняшний день они могут только организовать pre-order тут: https://amperecomputing.com/evaluate-altra/ (наверно поэтому было молчание — им просто нечего было продавать). Ссылка ведет на https://www.phoenicselectronics.com/ampere.html. А Phoenics Electronics является так же официальным дистрибютером Gigabyte и предлагает другие сервера на базе ARM64: https://www.phoenicselectronics.com/gigabyte/thunderx2.html.
Представляете, сколько их влезет на Cerebras Wafer Scale Engine?
Напихали ядер, чтобы при этом они влезли на кристалл и в приемлемый теплопакет,
В итоге «плотность вычислений» увеличивается.
Перспектива в том, что на ARM производительность пока растёт быстрее чем росла на x86.
Интел/АМД делают высокочастотные дизайны на high-perf техпроцессах, но в серверах они не имеют выигрыша по частоте. Наоборот, ARM уже выигрывает по частоте и количеству ядер благодаря более лучшей энергоэффективности и high-density техпроцессу.
на относительно низких частотах,Базовую частоту 7742 напомнить? Она составляет 2.25ГГц.
Речь о новой архитектуре, о долгих ожиданиях ARM в серверном/суперкомпьютерном сегментах. Свершилось, но чудо ли? Энергоэффективность архитектуры незначительно отличается от старшей и более сложной, выигрыша хотя бы на порядок по количеству ядер не предвидится.
выигрыша хотя бы на порядок по количеству ядер не предвидится.
Можно и 7 шапок(с)
Крайне легко сделать в 10 раз больше ядер ценой низкой однопоточной производительности.
А вот сделать в 2 раза больше ядер и как минимум догнать по однопотоку — не легко.
Для линейки Neoverse ARM ориентировался на 128-256 ядер на кристалле.
В то время как будущий Интел IceLake будет иметь до 38 ядер вместо 28 сейчас.
Просто казалось, что ARM нацелен убить двух зайцев.
ARM (архитектура) разработана с учётом предыдущих ошибок, поэтому она хорошо ложится на ОоО железо. Apple в конце года покажет state-of-art проц для ноутов.
угадайте почему?
TDP 280W
Только они при этом имеют возможность и апаться до 4,3 на ядро при необходимости.
При скольки рабочий ядрах?
Таких частот я даже на 3950X не вижу. Не, он конечно в однопотоке до 4.8 раскочегаривается, но в нормальной ситуации (нагрузка на все ядра) там около 4ГГц.
А ещё у TR всего 4 канала памяти — как бы он не слил Altra в memory-bound задачах, несмотря на кэш. У Интелов вообще кэша кот наплакал, тем не менее они более-менее справляются с AMD.
Это же бесплатно? Не греет проц, не жрёт ватты…
Я про это писал выше. (hint: uncore)
Внимание вопрос: не будет ли ещё интереснее в этих задачах ГПУ-ускорители?
Конкретно эти ядра плохо подходят для вычислений.
Но Ampere прекрасно работает с ускорителями Nvidia =)
Если же смотреть в целом, GPU, не считая дополнительных усилий, требований к квалификации программистов — это лишние копирования данных, хрупкость GPU-шного кода (glass-jaws), латентность. Поэтому Fugaku, как и его предшественник, чисто процессорный.
GPU хорош для рекордов линпака и нейросетей, а остальные задачи так себе.
В однопотоке?
Да, и TigerLake уже сильно быстрее. Правда про серверные процессоры на нём даже не говорят.
У АРМов же этих пока вижу варианты — фигарим на базовой максимум.
Нет. У Ampere «sustained turbo» 3,3, базовая 3.
ThunderX3 турбо 3, база — 2.2 (при максимальной нагрузке на FPU).
А вот аналогов последних ноутных апушек от интела (на 10нм) или амд — на арме и близко не видел.
Будет через полгода.
Попробуйте даунвольтнуть проц, он будет греться меньше
Рисковать стабильностью? Нафиг — нафиг. Я же его не в руках держу. Шуршит себе тихонько и ладно.
Угу. Будут. А у амд вон, уже новые интелриперы выходят, через неделю где-то.
Вы так говорите как будто они каждую неделю выходят. Есть цикл разработки продукта и он не обязан совпадать у разных компаний.
Релиз принципиально новой платформы это совершенно не то же самое что выпустить железку с подкрученными характеристиками, пусть даже и на новом сокете. Им даже не нужны новые кристаллы. 8 каналов и так есть на TR IOD (он от Rome).
Если я буду отталкиваться только от того, сколько мне киловатт с луча приходит — я получу дико фиговый ДЦ, КПД которого вполне себе сделает его нерентабельным.
Каким образом, по вашему, тут может снизиться КПД? Подход, что я описал выше, как раз и даёт максимальный КПД, т.е. максимум работы-на-ватт-мощности. Именно от того `сколько киловатт с луча приходит` и надо отталкиваться, других способов я не вижу.
Компания Ampere анонсировала 128-ядерный ARM-процессор Altra Max