Комментарии 13
«Что этот красный себе позволяет!?»
Вроде речь Epyc 7742, а они по технологии 7нм (ядра и кэш) + 12нм (контроллеры памяти и I/O) делаются.
Причем тут 14нм тогда?
P.S.
Как впечатления от тестирования и эксплуатации в итоге?
Положительные впечатления. Процессор умеет динамически распределять нагрузку по ядрами — наши старые intel так не умели. Плюс смогли запустить распознавание лиц исключительно на эти процессорах без видеокарты — получили неплохой fps. На Intel пару кадром показывало. Теперь только AMD Epyc будем брать.
Процессор умеет динамически распределять нагрузку по ядрами — наши старые intel так не умели.
ничего не понял, можете пояснить?
разве этим не планировщик ОС занимается?
и да, на intel это плохая идея: при нагрузке на одно ядро процессор может повысить потребление (а значит и частоту) этого ядра за счёт остальных.
при «размазывании» одного потока по всем ядрам мы получаем такую картину:
- ядро не нагружено, процессор снизил частоту на нём;
- планировщик переключил нагрузку на него;
- процессор увидел и начал поднимать частоту;
- код всё выполняется;
- процессор таки поднял частоту;
- планировщик перенёс нагрузку на другое ядро.
на amd, думаю, поведение похожее.
vmware лицензируется по сокетам, а не по ядрами
Если обращение в память попадает в «родной» кэш, то все хорошо, а вот если в удаленный
PPS: Это, кажется, вообще о Zen 1, см. ниже.
В Zen 2 L3 cache делится между четырьмя локальными ядрами, 2 таких пакета образуют один CCX на восемь ядер. Доступ к L3 = ~39 тактов. По информации Anandtech, L3 между разными CCX больше не шарится (кстати, вы это сами подтверждаете (16(!) NUMA nodes=8ccx*2); пришлось бы делать round-trip через IO-Die и в случае промаха опять через IO-Die лезть в память).
Но что интересно, L2-cache в одном пакете CCX по сути является общим для 4-х ядер только на чтение:
If a core misses in its L2 cache and the L3 cache, and the shadow tags indicate a hit in another L2 cache, a cache-to-cache transfer within the CCX is initiated. CCXs are not directly connected, even if they reside on the same die. Requests leaving the CCX pass through the scalable data fabric on the I/O die.
А это, минуточку, ещё 512КиБ кэша с каждого ядра (+1536 в пределах пакета)
Ссылки: Zen2 wikichip и Zen2 Cache anandtech
PS: Я очень сомневаюсь, что доступ к памяти другого сокета вообще сравнится с временем доступа inter-CCX на Zen1.
Серверные процессоры AMD EPYC Rome 7x32 — рекордная производительность на одно ядро