maybe_elf 17 ноя 2020 в 12:08

AMD показала ускоритель вычислений Instinct MI100 на архитектуре CDNA

2 мин

2.9K

Высокая производительность*Облачные вычисления*Компьютерное железоИскусственный интеллект

+10

Комментарии 9

Alexsey 17 ноя 2020 в 12:56

Железо это хорошо, а со стороны софта AMD делает какие-то телодвижения? А то не понятен смысл этих железок если весь софт все равно под CUDA заточен.

kasthack_phoenix 17 ноя 2020 в 13:35

У них есть ROCm, который должен позволять сильно облегчать портирование с CUDA, но его как-то очень лениво пилят, да и поддерживается тот только на нативном Linux(т.е. не получится даже пробросить в WSL / Dokcer for windows). Из популярного софта на него портировали Tensorflow, но это форк, который не смержен в основной репозиторий.

Kobalt_x 17 ноя 2020 в 13:51

[Буквоед edition] Не rocm, а hip(в составе rocm) который проксирует все либо в nvcc либо в свой компилятор. Не принимают в основном, потому что это ломает сборку на чистом cuda окружении (т к. для сборки нужно будет ставить hip). Btw pytorch там тоже есть.

nrndda 17 ноя 2020 в 13:59

Основная ветка Pytorch поддерживает ROCm уже несколько версий подряд: CMake

nrndda 17 ноя 2020 в 14:09

Да и в Tensorflow в каком-то виде то же есть поддержка.
Собирал из исходников Pytorch с ROCm и много различных проблем при сборке. До недавнего времени HIP был экспериментальным и они на него мигрировали. К тому же они используют свою ветку clang/llvm, что выливается в проблемы с драйверами в Mesa при сборке со штатным llvm.

Aldrog 17 ноя 2020 в 15:24

Конечно, интересно они придумали сравнить производительность своего ускорителя матричных операций с производительностью обычных fp32-операций у nvidia.
Понятно, что не очень хочется показывать сравнение 156 TFLOPS конкурента со своими 46, но блин, это же сильно в глаза бросается. Лучше бы просто написали о двукратном приросте производительности для матричных операций, а в сравнение с конкурентом его не включали.

nrndda 17 ноя 2020 в 16:54

У A100 156 TFLOPS для формата TF32, не FP32.

Aldrog 17 ноя 2020 в 19:12

Действительно, API же не позволяет задавать FP32 → FP32 операции, хотя в спецификации A100 написано "Peak FP32 Tensor Core".
В любом случае этот пункт на слайде очень сомнительно выглядит.

nrndda 17 ноя 2020 в 19:45

Похоже в спецификации ошибка. В whitepaper стоит "Peak TF32 Tensor Core" в табличке и далее в сравнении с V100.
Хотя я бы не стал полагаться на эти цифры ни в презентации AMD, ни в спеках Nvidia. Попугаи они и в Африке попугаи. Не на всех задачах эти терафлопы выжимаются.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

AMD показала ускоритель вычислений Instinct MI100 на архитектуре CDNA

Комментарии 9

Другие новости

Истории