Комментарии 5
Спасибо за перевод, но
точечное произведение
ну серьезно, даже Google Translate переводит «dot product» правильно.
И
У него 8-битные регистры с плавающей запятой
«8-wide» там означает 8 значений по 32bit float.
НЛО прилетело и опубликовало эту надпись здесь
1) Не случается ли проседания производительности при переключении между avx2 инструкциями и обычными?
2) С какими опциями оптимизации компилировался исходный код?
3) Есть ли смысл в микрооптимизациях типа (vertex_count & ~7)? Нельзя ли сразу писать vertex_count % 8?

1) Вроде как на последних Core оверхед сведен к минимуму


Не случается ли проседания производительности при переключении между avx2 инструкциями и обычными?

При компилировании в AVX-таргет, SSE-инструкции тоже генерируются в схеме кодирования инструкций VEX, что позволяет выполнять без пенальти.


The AVX instructions support both 128-bit and 256-bit SIMD. The 128-bit versions can be useful to improve old code without needing to widen the vectorization, and avoid the penalty of going from SSE to AVX
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.