Pull to refresh

Comments 16

Любопытно. Вроде бы официально его представят на выставке re:Invent через неделю, а пока, опять же, по слухам, это будет 7-нм SoC на базе Neoverse N1 с 32 ядрами (против 16 ядер на базе Cortex A72 у Graviton ранее). Это должно дать прирост процентов на 20, но главное — он будет примерно вдвое дешевле Intel-овских аналогов, хотя и медленнее. Ещё в нём будут всякие ускорилки для машинного обучения, которые тоже могут пригодиться, и некоторые задачи он решает в 6 раз быстрее Гравитона.
(Отсюда: https://siliconangle.com/2019/11/28/report-aws-developing-new-graviton-chip-32-cores-20-speed/)

Самые производительные чипы Intel могут стоить несколько тысяч долларов, а стоимость базовых серверных процессоров ARM не превышает тысячи.
Вот этого не понял, сравниваем цену топовых Интела с самыми простыми ARM?
UFO just landed and posted this here
UFO just landed and posted this here
В статье сравнили тёплое с мягким… Ни у кого нет претензий к ARM, просто опять учёный изнасиловал журналиста.
Вы написали «сравниваем… с самыми простыми ARM?» в ответ на высказывание
про серверные ARM процессоры ценой в $1000? Кто кого тут изнасиловал это ещё вопрос.
Самые простые ARM стоят доллар или меньше.
Думал было понятно, что я имею ввиду. Хорошо, тогда так:
Самые производительные чипы Intel могут стоить
а стоимость базовых серверных процессоров ARM
Ниша армов энергоэффективность, а вот вычислительная мощь не их конек.
Первая ссылка же тоже пока только об энергоэффективности, а не вычислительной мощности.
1е место по энергоэффективности (скорость на 1 Вт), но только 159е собственно по скорости вычислений.

Хотя в случае суперкомпьютеров, ее можно будет разменять на скорость просто задавив большим количеством экономичных и относительно дешевых вычислителей.
159 место у прототипа. Сам суперкомпьютер только на днях начали строить.
Он будет вдвое быстрее самого быстрого на сегодня (400PF)

У Интел, конечно, есть процессор с производительностью больше ARM-овских 2.7TFLOPS на double precision. Но ПСП в 1TB/s нет, а многие HPC алгоритмы её любят.

ark.intel.com/content/www/ru/ru/ark/products/194146/intel-xeon-platinum-9282-processor-77m-cache-2-60-ghz.html
Цена, по слухам, была всего лишь $18000

Это склейка из двух топовых чипов, в то время как A64FX монолитный.
Ну для прототипа тогда неплохо. Впрочем когда полная машина будет построена и заработает и множество других проектов на х86 и Power должно быть к тому времени завершено со скоростями вплоть до 1 экзофлопа и верхушка рейтинга сильно поменяется.

Хотя 2.7 TFLOPS на 48 ядерный чип это конечно все-равно круто, по 56 GFLOPS на 1 ядро — примерно на уровне самых современных х86.

Интересно за счет чего они этого достигли? Потому как все остальные ARM ядра в 3-5 раз медленнее этих показателей. А те что в смартах и подобных мобильных применениях и во все 10-15 раз медленнее в вычислениях на 1 ядро чем современные х86.

Похоже это достигнуто просто путем интеграции в обычный ARM сверхширокого блока векторных/SIMD инструкций (SVE) и подобная скорость наблюдается только на ПО специально переписанного под этот набор.

Но сравнения скорости на свершироких SIMD инструкциях это так себе сравнения. Для софта где он хорошо подходят к используемым алгоритмам сейчас рулят вовсе не x86 или Power архитектуры, а GPU-like ускорители (собственно серверные варианты GPU и Intel Phi). Причем рулят как по абсолютной скорости (например еще несколько лет назад вышедший в серийное производство Nvidia Tesla P100 дает ~ 5 TFLOPS на double precision вычислениях) так и по энергоэффективности. Поэтому почти все современные проекты суперкомпьютеров включают подобные ускорители и именно на них приходится основная доля пиковой производительности, а не на х86 ядра.
Не зря Фуджи там в своеv пресс-релизе сравнивают свой прототип исключительно с суперами БЕЗ ускорителей — очень удобно: главных конкурентов из рассмотрения просто изначально убрали.

Ну и этот Intel (да и Intel вообще) уже не топчик в x86. Когда нужно много числомолотилок теперь наверху уже AMD.
Например серия процессоров Epyc 77хх — 64/128 ядра/потока за примерно половину потребляемой энергии и чуть больше трети по стоимости по сравнению с Интел (рекомендованные цены $6500-7000 против $18000). В следующем (или через одно) поколение AMD еще в 2 раза больше ядер накинут и вероятно добавят AVX-512 (что значит удвоение или учетверение производительности на SIMD оптимизированном коде)
Интел просто слишком долго расслаблялся и много лет стриг купоны с одной и той же микроархитектуры не занимаясь серьезными разработками в х86. Хотя и денег и времени для этого был вагон.
Сейчас пришла пора за это расплачиваться — конкуренты их уже не просто догнали, а начали перегонять.

А насчет склеек. Какой же A64FX монолитный? Это тоже «склейка» из 4 отдельных вычислительных модулей и 4 стеков (каждый из которых тоже склейка-стопка из нескольких отдельных кристаллов) HBM памяти.
По 12(+1) ядра в выч. модуле и 1 канал HMB с 8 ГБ памяти. Блок-схема чипа:
Схема
image


По ПСП, суперы это конечно любят. Но это же заслуга не ARM архитектуры, а интегрированной прямо на подложку с ARM чипом HBM памяти. Такой «чит» можно и к х86 легко применить при необходимости и к векторным ускорителям (там собственно он уже давно используется).
Только он имеет как большие плюсы: собственно очень высокую ПСП.
Так и большие минусы: объем такой памяти сильно ограничен, а стоимость получается намного выше традиционной DDR памяти.
Интересно за счет чего они этого достигли?
Каждое ядро имеет 2 x512bit FMA.

А те что в смартах и подобных мобильных применениях и во все 10-15 раз медленнее в вычислениях на 1 ядро чем современные х86.
«Те» это какие? Apple A13 имеет IPC выше чем у Skylake, но может быть чуть ниже чем у Sunny Cove — надо проверять.
A12X и так быстрее большинства ноутов и обходится без активного охлаждения.
У Snapdragon 865 уже сейчас ПСП выше чем у десктопных 9900.

так и по энергоэффективности.
Они хуже A64FX.
Пиковые флопсы у GPU больше, но вот только они не достижимы даже в linpack.

Поэтому почти все современные проекты суперкомпьютеров включают подобные ускорители и именно на них приходится основная доля пиковой производительности, а не на х86 ядра.
БОльшая часто кода всё равно на CPU. Запуск кернелов на GPU занимает время. Обмен данными между памятью акселератора и основной не бесплатный.

Какой же A64FX монолитный?
Самым непосредственным образом. «Network on chip» не заметили?
Да тут 4 кластера, но обмениваться данными они могут достаточно быстро.

Но это же заслуга не ARM архитектуры
Производительность не заслуга х86 архитектуры.

поправка: производительность в пересчёте 1 Топ/с на ватт :)
Добавлю, что есть нижняя оценка серверных ARM'ов по производительности – это серийный ThunderX2 (0,56 ТФлоп/с на чип) и готовящийся на 2020 год ThunderX3 (1,1 ТФлоп/с).

И верхняя оценка – это Fujitsu A64FX с InfiniBand (от 2,7 до 3 Тфлоп/с на чип) и он же с интерконнектом Tofu (3,3 ТФлоп/с на чип).

А между ними быстрейший Xeon Skylake Platinum (2 Тфлоп/с на чип).

Так что Интелу придётся очень извернуться, что бы повысить производительность своих чипов минимум в 1,5 раза для превосходства над серверными ARM'ами, имеющими между прочим резерв по энергоэффективности.
Sign up to leave a comment.

Other news