Как стать автором
Обновить

RDMA внутри ЦОД в реализации от Huawei

Время на прочтение 6 мин
Количество просмотров 8.2K
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 16

Комментарии 16

поскольку InfiniBand имеет малую рыночную долю, найти специалистов будет не так-то просто


Можете мне не верить, но Infiniband настолько прост, что не требует сетевых админов от слова «совсем», и специалисты заточенные и сертефицированные под Infiniband не нужны. Админы Linux, осваивают его минут за 20. Именно им и работать с Infiniband. Сетевым админнам там нет работы.

Главная проблемы Infiniband:
1. Большие дистанции (да Long Haul есть, но стоит (стоило года 3 назад) несообразно дорого), и если вы на 40км оптику проложили, и отдали под Infiniband то кроме Infiniband по этой оптике ничего не пойдёт. Также как и с FC впрочем.
2. Проблемы с дровами в enterprise дистрах (RHEL). Это просто кошмар какой-то. Под новыми ядрами и в gentoo/ubuntu всё отлично. Но для ubuntu 18LTS ядро пересобирать пришлось (под gentoo это вообще норма).

А у «Huawei Ai Fabric» как с вышеприведёнными пунктами, включая «привязку к вендору»?

С точки зрения сетевых карт поддерживаются Ethernet карты от Mellanox и Huawei, так что лок ина тут нет. Поддержка тут начинается от возможности приложения использовать RoCE
За время работы с infiniband не увидел каких-то громадных проблем или необходимости супер специфических навыков. Да надо привыкнуть к SM Lid, Port Guid, Base Lid. opensm… и некоторым специфическим утилитам диагностики. Но в остальном все проще даже, чем настройка через ethtool параметров сетевой карты+sysctl.
Тут берется комплексом, так как строится единая унифицированная фабрика, а не три острова — Ethernet/FC/IB.
Все как на первой картинке as-is to-be

А откуда взялись три? Когда два: ethernet и infiniband. Да и ethernet при наличии infiniband можно часто не строить, а использовать ipoib.
вопрос в масштабируемости IB, а третий FC — пока де-факто у многих.
RoCEv2 — уже с полноценным рутингом.
Основная идея — AI Fabric — это 0-loss, low latency и throughput. Поэтому провели с Tolly испытания, в тч и на Latency — краткий срез, что производительность эквивалентна IB — www.huawei.com/en/press-events/news/2019/3/huawei-ai-fabric-lossless-data-center-network-tolly-test

С какими iNIC совместима фабрика?
В презентации https://e.huawei.com/en/material/networking/dcn/be80bbc977ac49afa73851e3d176dd6b есть только продукты коммутации (стр 6):


Modular switches CE12800 (ce12816 ce12808 ce12804), Fixed switches 25GE/100GE TOR Switch Flexible Card CE8861, 100GE TOR Switch CE8850, 25GE TOR Switch CE6865

В https://e.huawei.com/en/material/onLineView?MaterialID=2d91d86926e7467e815a5d54615a3ec8 упомянут "Commercial NIC" / iNIC (стр 10,11)
Бенчмарка — https://e.huawei.com/en/material/onLineView?MaterialID=2d91d86926e7467e815a5d54615a3ec8


The solution includes data center switches and smart network interface cards (NICs) based on 100GigabitEthernet (100GbE) and 25Gigabit Ethernet (25GbE). The Huawei solution uses… RoCEv2… Mellanox CX4 100GE NIC… PFC… ECN… Intel MPI Benchmarks

Сравнение с другими вендорами: https://e.huawei.com/en/material/onLineView?MaterialID=642a12984b0d49548d0235dcbeda3a9d https://e.huawei.com/en/material/onLineView?MaterialID=334f712b8f584d718d41e9c2ec172c67

В основном — если про NIC это — Mellanox NIC и Huawei iNIC, продукты с точки зрения коммутации (помимо описанных)- это новые модульные коммутаторы CE16800 и CE68хх серии на собственных чипах. Так как для работы AI Fabric на коммутаторах используется дополнительный чип AI Ascend310

На чипах какого вендора построены решения Huawei iNIC и Huawei CE?

Huawei iNIC — это разработка Huawei
По буллетам выглядит так:
1)Huawei HiSilicon 2nd Gen controller(Hi1822)
2)High-Performance Network/PCIe Interface
2 x 100GE/4 x 25GE
PCIe 3.0 x16
15 Mpps OVS offload
3) IN200 Ethernet Standard Card
Supports 100GE/25GE
IN500 iNIC
Supports OVS/VxLAN acceleration
4)HW and FW All Self-Developed
All PCBA designed by Huawei
All FW designed by Huawei
All products manufactured by Huawei

По чипам в коммутаторах — надо разделить историю на две части — networking и AI Chipset
В первом поколении Networking -это Broadcom чипы, во втором HiSilicon. Но в обоиъ поколениях необходим чипсет AI — Ascend для работы функций и тренированных моделей AI Fabric.

Где почитать про то, как работает AI Chipset в деталях?


  • На каких данных обучены модели (и какого масштаба фабрика для этого использовалась)?
  • Или же обучение происходит непосредственно в процессе эксплуатации AI фабрики? На базе каких параметров? С помощью какого алгоритма?
Почитать можно здесь — e.huawei.com/ru/material/MaterialSearch?keyword=ai%20fabric

Если кратко используется алгорити iLossless — это своя сборка из открытых моделей. Очень много описано техническим языком в [White Paper] Data Center AI Fabric Technology White Paper

Помимо этого здесь habr.com/ru/company/huawei/blog/461413 описали сценарии тестирования до пуска в среду Заказчика. Далее модель продолжает обучаться в продуктивной сети с целью подгонки алгоритмов под конкретный сценарий.

И еще хотел бы уточнить несколько вопросов по flow control в фабрике.
Сам по себе RoCE никак не гарантирует Lossless коммуникацию. Для этого есть другие протоколы и методики, как например buffer credits в InfiniBand, или же PFC и/или ECN в Ethernet.


  • Используется ли PFC в AI фабрике? Если да, то как решается проблема incast congestion spreading и victim flow с PFC?
  • Используется ли ECN? В связке с PFC или без него?
  • Используется ли flow control на NIC? В Mellanox или HiSilicon?
  • Какая протестированная масштабируемость AI Fabric? Кол-во конечных узлов? В какой топологии?
  • Можете поделиться какими-либо реальными бенчмарками на трейнинге со стандартными моделями (ResNet/VGG/etc.)?
Уточню, что при корректной E2E реализации RoCEv2 все же дает и даже гарантирует Lossless коммуникацию. per-hop PFC/ECN — не дают нам E2E историю без дополнительных танцев со специальным бубном, и даже с ним история иногда выглядит как замок из костылей.

По вопросам, в порядке очередности:
-Да — используется алгоритмы расчета E2E PFC и ECN, как часть технологий фабрики
-Большая часть логики используется на сетевой карте. Вот основные требования к NIC
«The server NIC must support RoCEv2 and be configured with the following functions:
-Configure QoS priority mapping based on the planned priority of RoCEv2 packets on the
entire network, and set the DSCP priority corresponding to RoCEv2 packets.
-Enable PFC based on the priority of RoCEv2 packets.
-Configure Enhanced Transmission Selection (ETS) if separate bandwidth allocation
control is required for RoCEv2 and non-RoCEv2 packets.
-Configure DCQCN for RoCEv2.
-Configure the MTU for RoCEv2 packets.»

-По топологии CLOS- Leaf/Spine/SuperSpine внедрено решение в Японском регионе для одного мотоконцерна на 500+ нод. Полет нормальный. Есть несколько внедрений на сотни нод в Китайском регионе в Банках по той же топологии.

— По открытым бенчмаркам без нарушения NDA — доступны 2 репорта от Tolly
1)[Product Certificate] Tolly test report for Huawei AI Fabric intelligent lossless data center network solution(vs Mellanox)
2)[Product Certificate] Tolly test report for Huawei AI Fabric intelligent lossless data center network solution(vs Cisco)
Для скачивания доступны по той же ссылке, что и Whitepaper — e.huawei.com/ru/material/MaterialSearch?keyword=ai%20fabric
Зарегистрируйтесь на Хабре , чтобы оставить комментарий