vikky13 Oct 25 2011 at 13:46

Помочь компилятору в векторизации? — Лучше просто не мешать

3 min

11K

Intel corporate blog

+28

Comments 21

braindamaged Oct 25 2011 at 14:17

SSE2 — это, конечно, здорово; и хорошо, что компиляторы подобрались вплотную к автоматической векторизации.

Но вот в чём вопрос — счас широко распространён такой девайс, Intel Core iX (3, 5,7), неважно. У него внутри свой хорошо оптимизированный под векторные инструкции RISC-агрегат. У этого агрегата есть ассемблер, называется SSE4.X + AVX. То, что этот девайс умеет ещё и x86 код «исполнять» (ну, как «исполнять», эмулировать в микрокодах) — это такое legacy, мало связанное с тем, что он хорошо умеет на самом деле. Intel рады бы отказаться от legacy, да пока не могут.

Так вот, суть вопроса: когда же хотя бы родные Intel-компиляторы смогут воспользоваться этими преимуществами? Счас кроме как раскладывать вручную алгоритм в базис из псевдофункций intrinsics, которые транслируются в этот самый SSE-ассемблер, путей нету никаких.

Непорядок, не находите?

vikky13 Oct 25 2011 at 16:21

Первые два предложения комментария — истина. Остальное — никак нет. Объяснять подробнее здесь не буду.
Вам прямая дорога на мой вебинар. Если нет времени 27ого, то через несколько дней будет доступна его запись.

braindamaged Oct 25 2011 at 16:58

Скажите, а на вебинаре будет затронута тема про SSE4.Х, или вы планируете ограничиться примерами SSE2, по которым, собственно, вопросов и нету?
Не смог найти этого на сайте

vikky13 Oct 25 2011 at 17:28

я покажу пример AVX. Но если есть конкретные вопросы по SSE4 -давайте, отвечу.

tangro Oct 25 2011 at 18:31

Нет, ну что за хамство такое «Вы не правы, но объяснять я здесь не буду». Много ли читателей посмотрят тот вебинар? Объясните здесь, в чем braindamaged не прав.

vikky13 Oct 25 2011 at 18:40

Это не хамство, а невозможность объяснить в паре предложений то, что объясняется вкратце за час. Я же сказала, braindamaged не прав во всем :) Внутри процессора нет ассемблера; отказаться от скалярных инструкций нельзя, так как не весь код можно сделать векторизуемым, а компиляторы, причем, не только Intel давно и успешно автоматически генерируют векторные инструкции в подавляющем большинстве случаев из тех, когда это теоретически возможно.

vikky13 Oct 25 2011 at 18:43

и еще — фильм такой есть «День Выборов». Там одного персонажа просят убрать последнюю (нецензурную) строчку предвыборного стихотворения. Но он отказывается, говоря, что все оно только ради последней строчки и писалось.
Так вот, можете считать, что весь пост и писался ради заключительного приглашения на вебинар :)

Sapien2 Oct 25 2011 at 15:39

Кто-нибудь может доступно объяснить, что такое векторизация?

TomskDiver Oct 25 2011 at 15:58

англ. wiki
русская wiki

vikky13 Oct 25 2011 at 16:28

К ссылкам на wiki добавлю ответ vikky :): совершение одной командой нескольких однотипных действий над данными. Типа сложить попарно четыре пары чисел и получить четыре суммы.

vikky13 Oct 25 2011 at 17:00

я покажу пример AVX. Но если есть конкретные вопросы по SSE4 -давайте, отвечу.

braindamaged Oct 25 2011 at 17:33

Прямо здесь? Окей. Не секрет, что SSE4.x предназначается для ускорения процедур криптографии и обработки видеопотоков.

Скажем, есть задача нахождения двумерной разницы между двумя соседними кадрами (прямоугольные массивы), умноженных на некоторый коэффициент. Или задача размытия изображения.

Можете привести пример кода, который будет успешно свекторизован в SSE 4.1/4.2 компилятором Intel? Желательно указать использованные хинты, если они есть.

vikky13 Oct 25 2011 at 18:02

Давайте пойдем с другого конца. Можете привести пример кода, который НЕ будет свекторизован в SSE4.x, хотя, вроде-бы, должен? Будем разбираться.
А в общем случае, берем программу, скомпилированную с /QxSSE4.x, в которой точно НЕ используются интринсики и проверяем ее с помощью SIMD Check (про нее я упоминала здесь — habrahabr.ru/company/intel/blog/94381/ ). Программа показывает наличие векторных SSE4 инструкций, что и означает автовекторизацию.

ErmIg Oct 25 2011 at 17:40

А как на счет целочисленной (char, short, int) векторизации циклов — поддерживают ли ее компиляторы?

vikky13 Oct 25 2011 at 17:44

Поддерживают. Но надо учесть, что для этих типов данных имеются не все операции, существующие для float. Плюс есть не все преобразованиям типов. Следовательно, будут векторизованы не все такие циклы.

Wott Oct 25 2011 at 17:42

К вопросу о понимании фразы о преждевременной оптимизации.
Сначала померь — потом оптимизируй, но потом опять померь.

vikky13 Oct 25 2011 at 18:20

Открою секрет — приведенный здесь код был ориентирован на компилятор gcc, которому действительно надо помогать. Поэтому мерить надо семь раз — для разных систем :)

whiteTigr Oct 25 2011 at 20:36

Большинству современных компиляторов, похоже, можно задавать вопрос:
— Вам помочь или не мешать?
И компилятор, с большой вероятностью, попросит не мешать.

andrei_an Jan 10 2013 at 09:50

В нашем компиляторе есть оптимизация обратная развертке — свертка (reroll), но она почему-то здесь себя не проявила. Я посмотрел совсем простой пример — не работает.
Было бы интересно посмотреть, что сообщает компилятор о причинах, почему он не сделал векторизацию. (-Qvec_report3). Если цикл предварительно не свернуть, то наш автовекторизатор создает неэффективный код и заполняет векторные регистры поэлементно. Поэтому, на мой взгляд, #pragma simd — это ложная альтернатива для получения удовольствия от векторизации. Нужно выбирать — выгода от векторизации + развертка по умолчанию (ее делает сам автовекторизатор) или удовольствие от ручной развертки + неэффективной векторизации. Есть еще #pragma unroll (N), но у меня сложилось мнение, что для векторизованных циклов эта возможность не работает.
И много встречается таких примеров ручной развертки?

andrei_an Jan 10 2013 at 10:01

Ошибся. #pragma unroll (N) учитывается автовекторизатором. Т.е. можно эксперементировать и выбирать уровень развертки оптимальный для обрабатываемого векторизованного цикла. Но N — будет число итераций уже векторизованного цикла.

vikky13 Jan 10 2013 at 19:23

Я смотрела причины невекторизации, но, за давностью лет, естественно, не помню. #pragma simd по моим воспоминаниям давала такой же ассемблерный код, как и свертка цикла. Но, опять таки, за давностью лет могу ошибаться. Зато точно помню, что производительность кода не отличалась. Иначе я бы этот способ не предложила :).
Подобных примеров немало — почти любой open source проект, заточенный на производительность и произвольный компилятор.