Как стать автором
Обновить

Обновление списка TOP500: впервые лидером стал суперкомпьютер на процессорах ARM

Время на прочтение 4 мин
Количество просмотров 11K
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 24

Комментарии 24

Где-то в недрах Apple, читая эту новость, ликует Тим Кук.
В каком месте ликует? Тим Кук скорее очкует…

Софт то под железо arm64 многие даже не начали писать, а линейка компьютеров вот-вот должна выходить. Те же Adobe уже имели опыт работы на arm64 на Windows 10. Удачным этот опыт назвать сложно. А что говорить про рядовых разработчиков мелкого софта.

Поживем увидим, как Xcode заведётся на новых машинах…

Эмуляторы arm64 работают на x86_64 довольно неплохо.
Попробуйте запустить QEMU эмуляцию хотя бы простых x86 на arm64.

Маркетинг != эффективность, удобство и др. Поэтому мой комментарий скорее саркастического характера. Я сам очкую и уже продумываю, чего-бы такого х86-64 урвать, пока ещё есть. Так как текущее состояние платформы мне нравится и устраивает, а каких нервов пользователям и разработчикам будет стоить это решение, и будет ли мак впредь удобным и функциональным как сейчас, пока не может предсказать никто.
Честно говоря, меня бы сейчас больше всего устроил вариант, когда разработчики бы заигнорили Apple, и те признали свою ошибку, сначала постепенно откладывая релизы ARM-устройств, а потом отменив.

«Вот и все, вот и кончилось теплое лето. Вот и все, расставаться всегда тяжело»
Но, похоже, расставаться с x86 архитектурой в суперкомпьютерах пока рановато — чемпион имеет одинаковые с системой №6 на Xeon Gold энергоэффективность и потребление на ядро, и незначительно лучшую производительность в расчёте на ядро. Да и частоты пока невысоки — 186 Вт на процессор рассеять для архитектуры ARM так же сложно, как и для x86. Так что вожделенного скачка производительности придётся подождать.
Потребление системы на Xeon Platinum тактично умолчано.

Ты не путай: все системы на Intel и Power имеют в составе специализированные ускорители вычислений (NVidia, или даже специальный ускоритель матриц, как в "самом зеленом").


Fujitsu A64FX же справляется без внешних ускорителей (правда, с расширенным набором SIMD инструкций).


Кроме того, другая система на таком же A64FX занимает четвертую строчку в рейтинге зелености.

Ну справляется и чего? Судя по всему, взяли банально брутфорсом. Количество ядер и энергопотребление зашкаливает. У меня вообще ощущение, что архитектура в подобных условиях не имеет никакого значения. Имеет значение возможность этой архитектуры масштабироваться, с чем нет никаких проблем ни у arm, ни у x86.

Зашкаливает? На 30% больше, чем у NVidia Tesla — это "энергопотребление зашкаливает"?

Первое место 28,335 кВт
Второе место 10,096 кВт
Это называется взять силой. Никому не мешало накинуть еще миллион другой ядер и нвидий в кластер, чтобы быть на первом месте. Суперкомпьютеры эти скейлятся настолько, насколько хватит кошелька. Мой посыл был простой — тот факт, что система на арме, не имеет никакого значения. Энергоэффективность ничем не примечательна, производительность не из воздуха взялась, а ценой огромного энергопотребления и числа ядер в сравнении с прошлым лидером. Это просто еще один суперкомпьютер, ни больше, ни меньше.

Подожди, Green 500 — это не про общее потребление, а про ватт на террафлопс. На пример, первое место в Green 500 — это 395 место в Top 500 с эффективностью 21,1 гигафлопс /ватт. И для этого ему потребовался специальный ускоритель матричной арифметики.


У Fugaku же эффективность 14,665 гигафлопс/Вт, т.е. всего лишь на 32% меньше.
И это практически равно номеру 2 в Top 500 — Summit (14,719гфлопс/Вт).
Однако Summit, как и остальные восемь опередивших Fugaku в Green 500, — это гетерогенная система. А Fugaku — гомогенная. И она обогнала по эффективности еще 491 систему, из которых 136 используют ускорители.


Для гомогенной системы на ядрах общего назначения (пусть и с расширенным набором инструкций) это большое достижение.

Ok, в №8 NVidia нету же, от №6 отличий коренных нет.
Интересно, что шестое место по энергетической эффективности занимает система Dell HPC5 на процессорах Xeon Gold 6252 и ускорителях Nvidia Tesla V100, по производительности тоже являющаяся шестой.
Вопрос к оформлению результирующей таблицы.
Fujitsu A64FX же справляется без внешних ускорителей (правда, с расширенным набором SIMD инструкций).

У процессоров Intel и Power давно реализована поддержка SIMD иструкций. MMX, SSE, AVX у Intel и VMX, VSX у Power.

Только почему-то чистых Intel/Power систем нет в топ Green 500. Только с ускорителями. А вот A64FX в ускорителях не нуждается.

Вот поэтому и нет, потому что GPU и спец ускорители намного эффективнее и производительнее и x86, и power, и армов. Если арм систему захотят сделать такой же эффективной, то придется точно так же добавлять спец ускорители и гпу. У вас посты такие, будто революция свершилась, хотя ее не наблюдается ни по каким параметрам. То, что арм серверы могут быть быстрыми, всем давно известно. Так же как известно, что ничего особо революционного они не принесли. Им давно предрекали захват серверного рынка, но они как были, так и остались нишевыми продуктами.

Так революция и свершилась: гомогенный суперкомпьютер, порвавший всех в клочья, и всего лишь на 30% уступивший по энергоэффективности специализированным ускорителям.


А про сервера, так Амазон выпустила Гравитоны 2, и даже по независимым тестам, они таки эффективнее на доллар арендной стоимости. Так что, до конца года многие примерятся к ним, а в следующем году будет массовая миграция. Ибо сэкономить 10-30 процентов денег захочется очень многим.


Конечно, вполне возможно, что Амазон выкатит и поколение на новых Эпиках, и оно по стоимости сравняется с Гравитонами. А еще, сделают ли они под гравитоны оптимизацию EMR, RDS, Aurora и прочего вовремя.
Вобщем, от Амазона сейчас очень многое зависит.

X86… Hygon — в оставшихся, в 1 системе. почему оставшихся, если система одна?
Производительность выше в 2.8 раза, энергопотребление выше в 2.8 раза, количество ядер выше в 3 раза.
Производительность на ватт сопоставимая.
Не хватает строки со стоимостью суперкомпьютера, чтобы понять что выгоднее, т.к. это единственный параметр который не приведён. Тогда и станет понятно, а стоило ли оно того.
Если гугл меня не подвёл, то стоимость fugaku 1 миллиард долларов против 101.5 миллиона долларов у summit, итого имеем стоимость в 10 раз выше.
Итоги:
Мощность — 2.8
Энергопотребление — 2.8
Производительность — паритет
Стоимость — 10

Таким образом, при самых грубых оценках, суперкомпьютер с такой же мощностью как у fugaku, но на архитектуре summit стоил бы минимум вдвое дешевле, по всем остальным характеристикам они совпадали бы.
Не удалось найти занимаемую площадь, физически.
Полэкзофлопа по цене экзофлопа, так себе победа.
По другим данным, стоимость summit 200 миллионов, что всё ещё приводит нас к экзофлому за 1 миллиард, хотя intel на aurore обещает экзофлопа за вдвое меньшую цену, но этого нужно ещё дождаться.
Вероятно, со временем и увеличением тиража стоимость новой системы будет падать, но по энергоэффективности есть вопросы — частота невысокая, предпосылок к росту нет — потребление одного процессора и так высокое.
Т.е. масштабирование за счёт увеличения количества ядер. Также, возможно, отвязка от производственных проблем Intel, и, как следствие, в совокупности с удешевлением экзафлопа, ускорение темпа наращивания производительности, в результате — вытеснение Intel и AMD из топа. Но не революционно, а не спеша.
А в wikipedia пишут
The United States Department of Energy awarded a $325 million contract in November 2014 to IBM, Nvidia and Mellanox.
en.wikipedia.org/wiki/Summit_(supercomputer)
Fugaku — 130 billion yen, что за эти шесть лет выросло с $1053M до $1209M. Возьмём среднюю $1131
Получается, что Fugaku дороже всего в 3.5 раза. Удельная мощность (производительность) дороже 1.25 раза, т.е. на 25%.
Учитывая, что это была полностью новая разработка (не на базе «используемых всеми» компонентов), понятна завышенная стоимость разработки/пуска/наладки.

btw, я только сообразил: Mellanox не упоминается. Что же они использовали для соединения? Возможно, разработка нового транспорта тоже на стоимость повлияло.
Они использовали очередное поколение интерконнекта Tofu — Tofu D (по ссылке откроется PDF).

Про сам интерконнект можно прочитать в статье (аналогично).
Как человек, писавший под GPU, могу сказать, что писать под нормальные ядра и GPUшные недоядра это далеко не одно и тоже. Задержки по доступу к памяти и сети тоже радикально разные.
Подозреваю, что нетрудно найти задачу реального мира, где GPUшная система в 10-100 раз проиграет системе с полноценными ядрами
Зарегистрируйтесь на Хабре , чтобы оставить комментарий