VASExperts Mar 16 2019 at 16:12

Новый стандарт на базе PCIe 5.0 «свяжет» CPU и GPU — что о нем известно

3 min

23K

VAS Experts corporate blogHigh performance*IT Infrastructure*IT Standards*

+14

Comments 22

torgeek Mar 16 2019 at 17:37

Странно, по поводу интеловского CXL уже вторая заметка на Хабре.
А про полностью открытый и только что вошедший под крыло фонда Linux стандарт OmniXtend ни слова.
А там главные застрельщики Western Digital и NVIDIA. Плюс нативно используется физический уровень Ethernet наравне с PCIe. И так как OmniXtend планируется широко использовать в проектах реализации RISC-V процессоров, то перспективы для тех кому выбирать достойный протокол широкие :)

qw1 Mar 17 2019 at 10:46

Intel же поставит в процессорах и чипсетах свою шину. NVidia невыгодно будет поддерживать два стандарта в PCIe-картах. Либо разные картые, отдельно для Intel, отдельно для RISC-процессоров (что дороже в проектировании и поддержке), либо от своего стандарта откажутся.

torgeek Mar 17 2019 at 12:34

Хороший довод.
Если продолжить, то надо учесть, что внутри своих процессоров NVIDIA уже использует RISC-V архитектуру. И при наличии выбора под кого подстраиваться, я уверен, через 2-3 года будет существенно больший выбор между x86/AArch64/RISC-V.
Евросоюз, Индия и Китай сделали однозначную ставку на RISC-V. Так что выбор не однозначен :)

-1

qw1 Mar 17 2019 at 15:37

Что значит «уже использует»? Есть какие-то конкретные продукты, которые вышли на рынок?

torgeek Mar 17 2019 at 15:59

Это значит NVIDIA «использует в проектах своих новых управляющих ядрер в GPU» на новой системе команд. С 2005 года использовали при проектировании собственную RISC архитектуру Falcon. C 2017 года перешли на открытый RISC-V, который реализуют под рабочим названием NV-RISCV.
Срок от начала проектирования до открытой продажи готовых чипов примерно 3 года. Вот и считайте.

a5b Mar 18 2019 at 05:29

У Nvidia есть решения на ARM, как на лицензированных ядрах, так и на собственных — https://en.wikipedia.org/wiki/Tegra https://en.wikichip.org/wiki/nvidia и они уже часто используются в автомобилях.
Если посмотреть внутрь новейшего https://en.wikipedia.org/wiki/Tegra#Xavier — ни один из крупных блоков не использует RISC-V — https://en.wikichip.org/wiki/nvidia/tegra/xavier (cpu — 10wide superscalar, armv8; gpu — cc7 set, dissecting; PVA — 7slot vliw; DLA — nvdla; Optical Flow Engine)

Falcon который они собирались заменять на RISC-V — это служебный микроконтроллер (управляющее, вспомогательное ядро) — размером менее 0.1мм2; само ядро 0.05-0.06 мм2 и еще кэши; "Falcon is NVIDIA proprietary control processor"; их пучок в каждом gpu — "Avg. #Falcons / GPU 10"; на 11 слайде есть схема TX2 где видны некоторые служебные ядра). В планах даже указывали, что будут встраивать в gpu сразу и старый falcon и новый nv-riscv, для упрощения миграции управляющего кода.

С недавним объявлением о приобретении появляется доступ еще к такому продукту: mellanox bluefield "BlueField SoC combines up to 16 ARMv8 A72" + "integrates the Mellanox ConnectX-5 network controller" + "PCIe switch… up to 32 lanes of PCIe Gen 3.0/4.0" (16 ports… Root Complex or Endpoint) + DDR4. К нему можно добавить nvme диски и получить сервер хранения данных, или несколько GPU и получить узел машинного обучения или суперкомпьютера. В форм-факторе ATX материнской платы такое решение не требует каких-либо Xeon, zen/epyc или POWER.
Для ARM софта, как мне кажется, чуть больше, чем для RISC-V (дебиан недопортирован — fosdem19 — Porting Debian to the RISC-V architecture, слайд 28 = 87% против 93-98% для arm).
Лицензии на высокопроизводительные ядра (и разработка своих Denver/Carmel) уже оплачены, продукты уже отлажены. Высокопроизводительных ядер для RISC-V не видно. (Зато у ARM есть заказчики, которые хотят в top500 — Fuji A64FX + Post-K.)
Больше вероятность увидеть продукты новой Nvidia с ARM. (… NVIDIA could be making its own Arm server CPUs which it already has some experience in with… NVIDIA already has some IP to do this… BlueField is not just a potential HPC/ deep learning training NVMeoF storage building block… "if NVIDIA took this model, and made the Arm SoC plus high-speed I/O a part of its future GPUs, we could be seeing a new generation of fabric attached GPUs without servers. Imagine a datacenter full of NVMeoF and GPUoF.")

PS: OmniXtend это сериализация TileLink в пакеты Ethernet, удобно для разработки и отладки всяких devboard-ов и подключения к fpga (например, "SiFive FU540 includes a simple parallel synchronous bus to connect to an expansion FPGA", он же ChipLink). Сам TileLink — замена внутри-SoC шин типа AHB, AXI, Wishbone, в т.ч. для подключения всяческой периферии типа SPI I2C GPIO PWM UART блоков.

torgeek Mar 18 2019 at 10:28

всё по полочкам. спасибо!

a5b Mar 22 2019 at 07:49

Почитал про OmniXtend — он может использоваться как высокопроизводительный когерентный линк. Им уже соединяли 2 дорогие FPGA платы (у них как раз есть пара свободных qsfp разъёма) — слайд 13 в https://content.riscv.org/wp-content/uploads/2019/03/14.10-OmniXtend_RISC-V_Taiwan_2019_Paul_ver2a.pdf#page=13 " the first ever two-socket RISC-V — 50 MHz SiFive U54 on Xilinx UltraScale+ FPGA boards (VCU118)" (7 тыс.долларов за каждый VCU118)

Однако соединить таким линком не 2-3-4 подобные платы сложно, а ваше утверждение неточно:

красивее решение на обычном 100G Ethernet коммутаторе внутри.

слайд 12
https://content.riscv.org/wp-content/uploads/2019/03/14.10-OmniXtend_RISC-V_Taiwan_2019_Paul_ver2a.pdf#page=12

Replaces Ethernet L2… interoperates with Barefoot Tofino… – Custom frames are parsed and processed in P4 language

т.е. в стандартный "обычный" Ethernet это не подключается, т.к. нет полей MAC в L2 ethernet frame. Может использоваться исключительно с программируемыми матрицами, из которых доступен только Barefoot Tofino (и вероятно Tofino2) с исполнением произвольного P4 кода над пакетами (презентация https://p4.org/assets/p4_d2_2017_programmable_data_plane_at_terabit_speeds.pdf).
Чип Tofino бывает на 65, 33, 13, 9, 7 портов 100 Гбит/с с приблизительными ценами крупных коммутаторов на их базе более 1 тысячи долларов за порт.
При этом выводить с процессорного кристалла физический сигнал 100 Гбит/с Ethernet (qsfp28) — не так уж просто (нужно 4х 25G-28G PHY; либо паять внешние qspf28 phy чипы типа BCM82790 и более широкие массивы 10G phy). По неясным причинам, 25G PHY предлагают только для техпроцессов 16-14-12-7 нм.
Потом, 100 гбит/с — это всего 12 ГБайт/с, т.е. приблизительный аналог одного 64-битного канала DDR4-1600 (или половины канала DDR4-3200). Высокопроизводительной NUMA системе таких скоростей может быть недостаточно.

torgeek Mar 22 2019 at 13:55

Спасибо за тонкие детали! Так глубоко ещё не копал.

Возникает вопрос, почему нет из кристала наружу оптики? То есть поставить на интерпозере рядом ЦПУ, память и конвертер в оптику. Какие препятствия мешают?

Вот ещё альтернативный взгляд: мешевое использование общего пула кешей. Проверяли на ПЛИСах с 25-ю спарковыми ядрами. Сейчас перешли на RISC-V ядра. Проект открытый и вся информация есть в доступе.

a5b Mar 22 2019 at 17:30

Возникает вопрос, почему нет из кристала наружу оптики? То есть поставить на интерпозере рядом ЦПУ, память и конвертер в оптику. Какие препятствия мешают?

Дорого (любые mcm, https://habr.com/ru/post/417319/), отсутствие готовых кремниево-оптических технологий. Некоторые ставят, вроде altera и ibm использовали — http://www.ewh.ieee.org/soc/cpmt/tc12/fdip10/05_Benner.pdf 11 — MLC module + Avago microPOD, 12 — MCM with Optical I/Os, 13 — High-Density Optical Transceivers and Optical Connectors
https://www.osapublishing.org/oe/fulltext.cfm?uri=oe-23-3-2085&id=310831 "4. Current and foreseen optical implementations"
https://researcher.watson.ibm.com/researcher/view_group.php?id=5517
http://wipe.jeppix.eu/public/images/6.pdf
https://static1.squarespace.com/static/55ae48f4e4b0d98862c1d3c7/t/58d3f08e2e69cf8e4b6cf1c2/1490284699928/Wilfried+Haensch+-AIM+Summit+OFC+2017+03+22-17.pdf
(о внутренностях 25 гбит/с трансивера — https://community.mellanox.com/s/article/inside-the-silicon-photonics-transceiver https://phoxtrot.eu/wp-content/uploads/2017/01/ECOC-2016-Peter-De-Dobbelaere.pdf https://www.franceix.net/media/cms_page_media/841/ProLabs_from_electrical_to_optical...by_Giacomo_Losio.pdf)
Общая статья — https://en.wikipedia.org/wiki/Silicon_photonics

Еще интересный демонстратор — riscv + оптика https://riscv.org/wp-content/uploads/2016/01/Wed1015-riscv-sunchen-1-6-2016.pdf "First microprocessor chip to communicate using light" (внешний лазер, встроенные модуляторы и приемники, см слайд 57)
https://www.nextbigfuture.com/2016/02/darpa-has-electronic-photonic.html

torgeek Mar 22 2019 at 18:10

То что надо)) Огромное спасибо!
И как я пропустил эту историю с оптикой внутри riscv?!
Пошел делать свой фотонный чип.

a5b Apr 22 2019 at 06:17

Интел недавно рассказывал про свои 400 гбит qsfp-dd модули,
https://www.servethehome.com/intel-silicon-photonics-update-at-interconnect-day-2019/ "Hong Hou" Intel Silicon Photonics — Connectivity At Scale, Intel Interconnect Day 2019 (offline/sth only?). Упоминаются некоторые сложности и направления развития.

Про оптику STH пишет:

Silicon actually cannot be a light source, a requisite for building a laser. Instead, the company integrates an Indium Phosphide light source onto a 300mm silicon wafer. It then uses silicon to do modulation and other functions. Intel points out that its solution is the most integrated at this point and they are delivering the process at scale. (over 1M units /100G/ shipped)

One of the key advantages to its silicon photonics is that with the integrated laser, photodetector, and modulator, it is also able to build into silicon many of the required passive functions into silicon making it a tightly coupled package.

Current 100Gb optical transceivers need a labor-intensive “gold box” that needs to be carefully constructed with many different components (in this example 26) then hermetically sealed. In contrast, Intel gets the advantages of scaling through silicon process and the precision that brings. The silicon photonics package does not need to be hermetically sealed to operate in adverse conditions (e.g. humid deployments.)

… A hyperscale data center will consume around 1 million optics representing opportunities in the hundreds of millions to billions per data center deployment. /сотни-тысячи долларов за трансивер???/

… Certainly, in the industry, there is now a lot of buzz around silicon photonics. There is so much power being used just to move data across PCB from the switch ASIC to the QSFP28 and QSFP-DD cages that packaging of optics will have to occur in a few years

И еще про cxl, тоже STH с Intel Interconnect Day 2019 — https://www.servethehome.com/new-intel-cxl-details-at-intel-interconnect-day-2019/ Stephen Van Doren — Intel CXL Interconnect

CXL will utilize three dynamically multiplexed sub-protocols over a single link. These are CXL.io, CXL.cache, and CXL.memory.

CXL.io still allows PCIe like I/O

CXL.cache allows accelerators to reach into the CPU cache (using 64-byte cache lines)

CXL.memory allows CPU to reach across to device and access the device memory.

In CXL.cache, the device is always the requestor and the CPU is always the responder. In CXL.memory, the CPU is always the requestor and the device is always the responder.

… HPE and Dell EMC are pushing Gen-Z… HPE, Dell, and the Gen-Z consortium conspicuously were quoted supporting CXL.

… The CXL.io stack is very similar to the PCIe stack but the CXL.cache and CXL.memory run through their own layers. Intel thinks that the extra investment in the CXL stack pays off in latency.… CLX Gen1 would use a standard PCIe Gen5 PHY.… The CXL coherency protocol is asymmetric,

By enabling the ecosystem with CXL, the company sees this as a step to running higher-performance heterogeneous computing infrastructure. This includes not just Intel CPUs, but also Intel sees its future GPU and deep learning accelerators, as well as its FPGA products and their chiplets to as being enabled by CXL.

… Now, all we need is silicon that supports Comptue Express Link.

torgeek Apr 22 2019 at 12:57

Хорошие вести. Будет над чем подумать на досуге))

Пока остановился на том, что бы изучить как IBM делает оптические шины между кристраллами прямо в интерпозере. И экспериментирует с наружными соединениями до «больших» стандартных коннекторов.

Плюс пока все делают лазерную накачку из внешнего источника. Думаю, что из-за перегрева. Похоже есть большие потери на преобразование в самом лазерном источнике.

Думаю, если хорошо пойдёт, в следущем году хочу сделать примитивный оптический линк на 1 ГБ/с через воздух или с ПММА-кабелем.

torgeek Mar 18 2019 at 10:43

За MIPS в этом свете что-нибудь скажете?

Потому как вспоминать российский Эльбрус с Ангарой наверное ещё рано, а Байкал-Т1 со встроенным 10G красив.

torgeek Mar 17 2019 at 16:24

если гадать по этому направлению дальше, то рассуждения такие:
— внутри GPU спроектирован и готов к выпуску собственный управляющий контролер кешей и памяти и бонусом нативная поддержка RISC-V
— ядро Линукс, а также текущие сборки Debian, RedHat и даже российского Alt Linux уже портированы на RISC-V
— софта под RISC-V за следующие 2-3 года понапишут и отладят во всём мире тоннами
— NVIDIA будет вполне готова собирать вычислительные системы без x86 вычислителей.
Дальше продолжать?))

вот отличная цель для продажников NVIDIA: top100 HPC
считайте сколько там Intel (Xeon + Omni-Path)
и NVIDIA (NVIDIA + Mellanox)

и не забываем, что вместо проприетарного PCIe в планах RISC-V стоит цель задействовать для интерконнекта напрямую из процессора физику Ethernet.

qw1 Mar 17 2019 at 16:58

Всё это очень непонятно. Если NVidia собирает суперкомпьютеры без x86, то как к этому относится NVidia GPU (особенно с шиной PCIe)?

Если говорить о том, что NVidia GPU будет иметь RISC-V процессор как ядро логики, то непонятно зачем тащить в этот процессор шину CXL, что будет периферией для этого процессора? Скорее всего, речь о ядре RISC-V (без CXL).

torgeek Mar 17 2019 at 17:24

Cейчас без x86 собирает, например, в дружбе с IBM на Power. А без GPU HPC не очень хороши. В ближайшие годы будет готова сделать полностью на своих решениях. Что про шину, то сейчас их всего две PCIe или NVLINK.

CXL закономерно, что не потащат. Поэтому у CXL туманные перспективы. Особенно при его производительности в 30G/линию на PCIe 5.0. Почему не на PCIe 3.0 и прямо сейчас?

Гораздо красивее решение на обычном 100G Ethernet коммутаторе внутри. И не надо ждать – стандарту уже почти 10 лет как.

qw1 Mar 17 2019 at 17:00

и не забываем, что вместо проприетарного PCIe в планах RISC-V стоит цель задействовать для интерконнекта напрямую из процессора физику Ethernet.

Интерконнекта между чем и чем? CPU-GPU?

torgeek Mar 17 2019 at 17:26

Именно так. Между CPU, GPU, кешами, памятью, SSD, сетью и так далее.

То есть годится для соединения нескольких CPU на одной плате, например.

-1

DarkTiger Mar 17 2019 at 12:38

Вот как раз NVidia (как мне кажется) с приобретением Mellanox на этот стандарт забьет сразу, как только впихнет на свой кристалл с GPU еще и хост-процессор, что видится теперь вполне логичным решением. И будут на серверных HPC материнках не три экосистемы (BMC никуда не уйдет в любом случае), а две.

torgeek Mar 17 2019 at 12:47

Добавлю сюда же, что NVIDIA только что купила компанию Mellanox. А значит де факто напрямую конкурирует теперь уже собственным интерконнектом (InfaniBand) против интеловского Omni-Path.

maxzhurkin Mar 16 2019 at 18:48

Он основан на интерфейсе PCI Express 5.0, предназначенном для подключения серверных компонентов

звучит примерно так же, как на заре USB звучало бы «USB, предназначенный для подключения клавиатур и мышей»