Комментарии 9
У них есть ROCm, который должен позволять сильно облегчать портирование с CUDA, но его как-то очень лениво пилят, да и поддерживается тот только на нативном Linux(т.е. не получится даже пробросить в WSL / Dokcer for windows). Из популярного софта на него портировали Tensorflow, но это форк, который не смержен в основной репозиторий.
[Буквоед edition] Не rocm, а hip(в составе rocm) который проксирует все либо в nvcc либо в свой компилятор. Не принимают в основном, потому что это ломает сборку на чистом cuda окружении (т к. для сборки нужно будет ставить hip). Btw pytorch там тоже есть.
Да и в Tensorflow в каком-то виде то же есть поддержка.
Собирал из исходников Pytorch с ROCm и много различных проблем при сборке. До недавнего времени HIP был экспериментальным и они на него мигрировали. К тому же они используют свою ветку clang/llvm, что выливается в проблемы с драйверами в Mesa при сборке со штатным llvm.
Конечно, интересно они придумали сравнить производительность своего ускорителя матричных операций с производительностью обычных fp32-операций у nvidia.
Понятно, что не очень хочется показывать сравнение 156 TFLOPS конкурента со своими 46, но блин, это же сильно в глаза бросается. Лучше бы просто написали о двукратном приросте производительности для матричных операций, а в сравнение с конкурентом его не включали.
У A100 156 TFLOPS для формата TF32, не FP32.
Действительно, API же не позволяет задавать FP32 → FP32 операции, хотя в спецификации A100 написано "Peak FP32 Tensor Core".
В любом случае этот пункт на слайде очень сомнительно выглядит.
Похоже в спецификации ошибка. В whitepaper стоит "Peak TF32 Tensor Core" в табличке и далее в сравнении с V100.
Хотя я бы не стал полагаться на эти цифры ни в презентации AMD, ни в спеках Nvidia. Попугаи они и в Африке попугаи. Не на всех задачах эти терафлопы выжимаются.
AMD показала ускоритель вычислений Instinct MI100 на архитектуре CDNA