m1rko 2 сен 2017 в 23:05

История предсказания переходов с 1 500 000 года до н.э. по 1995 год

18 мин

42K

Программирование*Assembler*Алгоритмы*Компиляторы*

Перевод

+71

Комментарии 77

Dreyk 2 сен 2017 в 23:18

хороший перевод, спасибо

Скрытый текст

Knock knock
Branch prediction
Who's there?

+21

claimc 3 сен 2017 в 08:36

В основном, каждое отдельное ветление часто срабатывают в одном направвлении, и очень редко в другом. Если каждый переход, еще на уровне компилятора, помечать в какую сторону он срабатывает чаще, то можно без сякого предсказания получать очень высокую вероятность правильного попадания.

Jamdaze 3 сен 2017 в 09:01

Компании столько тысяч человеко-лет инвестировали в патенты, а ты им предлогаеш всю эту лавочку похерить.

-2

svr_91 3 сен 2017 в 10:18

В gcc на это есть __builtin_expect

qw1 3 сен 2017 в 10:30

Это не про предсказание переходов, а про группировку кода.
Чтобы редко используемые куски вынести подальше, чтобы они не перемешивались с «горячими» и не захламляли кеш L1.

qw1 3 сен 2017 в 10:27

Если «чаще» — это только 75%, то получаем проигрыш в сравнении с динамическими предикторами, которые дают 95%.

fukkit 3 сен 2017 в 13:12

В основном, каждое отдельное ветление часто срабатывают в одном направвлении, и очень редко в другом.

Так себе гипотеза.

Igor_O 3 сен 2017 в 22:42

Почему вдруг? Гипотеза, что ветвления чаще всего срабатывают в одном направлении (назад, BTFNT), дает очень хороший прирост производительности, на фоне которого все остальные изыски — мелкие оптимизации.

fukkit 4 сен 2017 в 09:48

Так считали люди, для которых оптимизация на 30% — не мелкая.

Igor_O 5 сен 2017 в 12:03

Очевидным вариантом является, что при наличии пустых таблиц для оптимизации предсказаний — считать, что все переходы — назад. При накоплении некоторой достаточной статистики — плавно переключаться на более продвинутые методы. Что интересно, именно такой подход используется в Pentium и, видимо, более поздних процессорах…
Таким образом мы получаем начальный уровень успеха предсказания не 50:50, а 80:20. Что дает хорошую прибавку к пенсии, пока накапливается статистика для остальных предикторов.

DistortNeo 3 сен 2017 в 22:54

Почему же? Intel в старых процессорах её использовала. Переходы назад — likely, переходы вперёд — unlikely.

iehrlich 3 сен 2017 в 23:28

И отказалась от неё потому что… что?

DistortNeo 4 сен 2017 в 00:11

Видимо, Intel посчитала, что может лучше предсказывать переходы.

Igor_O 5 сен 2017 в 12:05

Потому что не отказалась?
Какая-та статическая модель предсказаний до сих пор используется в случаях, если таблицы для динамических предикторов пусты.

iehrlich 5 сен 2017 в 16:51

Не какая-то, а вполне конкретная — fallthrough likely. Собственно, это даже сложно назвать моделью, просто принимается самое простое решение из всех возможных. Однако это не полноценный статический предиктор, о котором мы говорили — выше по ветке речь шла про 2EH/3EH префиксы :)

4eyes 4 сен 2017 в 16:26

Скорее всего, этого можно достичь с PGO. Скорее всего, разработчики компиляторов в курсе, какие ветвления лучше предсказываются процессором, и строят код именно так, чтобы достичь минимума ошибок перехода для тестового случая.

DrZlodberg 3 сен 2017 в 11:30

Интересно, а как процессор контролирует изменение кода? Например при выгрузке/загрузке в своп. Или никак, просто некоторое время перезаполняет таблицу переходов с кучей промахов?

DistortNeo 3 сен 2017 в 13:15

При Page Fault происходит аппаратное прерывание, приводящее к сбросу конвейера.
Ничего страшного в этом нет: по сравнению с чтением из диска, разгон конвейера — мгновение.

DrZlodberg 3 сен 2017 в 13:39

А таблицы переходов являются частью конвейера или привязаны к оперативке? Или при каждом переключении задачи это всё сбрасываться в 0? Не очень понял этот момент. Или это какие-то внутренние регистры проца?

DistortNeo 3 сен 2017 в 14:08

Всё, что я могу сказать — никакой привязки к оперативке быть не должно: в инструкциях x86 просто не предусмотрено хранения соответстующего флага предпочтительной ветки, да и в случае ROM непонятно, как быть.

Скорее всего, в процессоре присутствует просто небольшая табличка на несколько значений (т.е. внутренние регистры процессора), содержащая в себе физический адрес инструкции перехода и статистические данные для неё.

А вообще, это нужно уже инженеров Intel спрашивать, потому что гадание на кофейной гуще получается.

RainM 5 сен 2017 в 10:55

Я боюсь, что даже те, кто знает ничего не скажут. Если интересно, есть хорошие мануалы от Agner Fog, которые лучше публичной документации некоторых компаний.

werevolff 4 сен 2017 в 03:06

Иными словами, хорошей практикой является упрощение ветвлений до такой степени, чтобы их ветки (по возможности) выполнялись всегда и без ошибок. Правильно?

DrZlodberg 4 сен 2017 в 09:32

GPU так и работают, поскольку условные переходы там весьма дороги (если получаются разные переходы в пределах одной группы потоков). Там куча встроенных инструкций (типа min, max, clamp), которые позволяют избавиться от очень большого количества условных переходов. А некоторые переходы бывает дешевле (и достаточно не сложно) свести к чуть более громоздким вычислениям, чем пихать лишний if. Например вместо
if( a < 10.) b = 20.; else b = 30.;
можно
b = 20. + step(a, 10.) * 10.;

valeriyk 3 сен 2017 в 16:19

обычно есть способ заинвалидировать таблицу переходов, чтобы избежать ложных срабатываний. Ядро операционки должно это делать при переключении контекста

DistortNeo 3 сен 2017 в 16:29

Не совсем так. В x86/amd64 архитектуре этого делать не нужно. А вот в ARM есть соответствующая команда.

MacIn 3 сен 2017 в 16:56

Думаю, здесь путаница с инвалидированием кеша.

DistortNeo 3 сен 2017 в 16:59

А зачем кэш инвалидировать? Внутренний кэш декодированных инструкций очистится сам. Кэш памяти же ещё пригодится, когда ОС вернёт управление процессу.

MacIn 3 сен 2017 в 22:54

Я лишь о том, что эта возможность есть.

marsianin 4 сен 2017 в 21:26

В случае x86 ни branch predictor ни кэш инвалид рожать не нужно. Что касается ARM, там инструкция branch predictor invalidate действительно присутствует, но с некоторых пор ничего не делает и оставлена в целях совместимости. Кэш же в ARM программист обязан инвалидировать в случае self-modified code, а именно, если код был перезаписан, программист обязан выполнить Data Cache Clean by VA at Point of Unification и Instruction Cache Invalidate by VA at Point of Unification. Связано это с тем, что в ARM кэш инструкций согласно архитектуре не является когерентным.

marsianin 4 сен 2017 в 21:27

Сорри, там не 'инвалид рожать', а инвалидировать. Это всё грёбаная автозамена в андроиде

Gryphon88 3 сен 2017 в 12:45

Можно ли перенести предсказание переходов с аппаратной части на программную (компилятор, стат.анализатор, правила написания кода) и будет ли это выгоднее с точки зрения скорости исполнения? Я имею в виду не взаимодействие с пользователем или оборудованием, а числомолотилки.

DistortNeo 3 сен 2017 в 13:12

В числомолотилках эта проблема не настолько актуальна.
Разворот циклов, условное выполнение операций (в SSE/AVX расширениях) — и ветвлений становится значительно меньше.

qw1 3 сен 2017 в 14:49

Возьмём, например, умножение матриц:

void mult(int n, double *a, *b, *c) {
    for (i = 0; i < n; i++)
        for (j = 0; j < n; j++)
            ....

При n=3 динамический предиктор рано или поздно выявит паттерн, что во внутреннем цикле каждый 3-й переход не выполняется, а как это должен понять компилятор?

DistortNeo 3 сен 2017 в 14:54

На практике размер матриц, особенно небольших, редко является произвольным.
Поэтому n будет константой, и оптимизирующий компилятор просто развернёт цикл.

qw1 3 сен 2017 в 15:10

Это модельный пример. На практике может быть любой другой цикл обработки данных, который программист сделал параметризуемым, а параметр читается из конфига.

DistortNeo 3 сен 2017 в 15:23

Если производительность настолько важна, то в приложении можно сделать несколько веток: для n = 2, n = 3, n = 4 и произвольного n, где ошибки в предсказании ветвления для внутренних циклов уже не насколько критичны.

qw1 3 сен 2017 в 16:34

Вопрос выше был, что может сделать компилятор, а не программист вручную )))

RainM 5 сен 2017 в 10:57

Ну, теоретически, компилятор может сделать versioning. Т.е. несколько кусков кода под разные параметры.

qw1 5 сен 2017 в 21:16

Если только PGO.
Иначе откуда компилятор узнает, какой кусок кода наиболее критичен.

Gryphon88 3 сен 2017 в 15:21

Если n константное, то можно развернуть цикл. Если неконстантное, но вычислимое заранее, то тоже можно, если язык есть поддержка самомодифицирующегося кода. Можно попробовать векторизовать и раскидать на разные ядра, предвычислив i и/или j
PS Компиляторов не писал, процессоров не разрабатывал, так что все мои рассуждения сугубо теоретические

qw1 3 сен 2017 в 16:44

Цикл менее 1000 итераций, внутри которых пара арифметических действий, нет смысла раскидывать по ядрам. Больше потеряешь на создании потоков.

Насколько я видел (OpenMP, TPL и т.п.), везде программист даёт указания, что можно попробовать запараллелить. Поскольку программисты оптимизируют только горячие места, а не всё подряд, оптимизации всего остального лучше переложить на процессор.

Gryphon88 3 сен 2017 в 17:12

Подскажите, если не сложно, статью, где обобщенно (я понимаю, что серебряной пули нет) рекомендуется, начиная со скольки итераций/инструкций и какого объёма памяти раскидывание по ядрам или на GPU становится выгодным.

qw1 3 сен 2017 в 17:28

Ха, у процессора есть таймер с потактовой точностью замера (RDTSC).
Можете сами померять, сколько что стоит, и сделать соответствующие расчёты.

DistortNeo 3 сен 2017 в 19:39

Проверяется просто: создаёте поток в играете с ним в пинг-понг через средства синхронизации.

Вот одна из простейших реализаций parallel do: https://gist.github.com/e673/31b73495bfb83e818f226d2300568176

Варьируете N и смотрите, сколько итераций будет в зависимости от N.
Оптимальное значение N = числу логических ядер минус 1 (текущий поток тоже должен выполнять задачу).

Под Windows на 4-ядерном процессоре при N = 3 у меня получается 400к переключений в секунду (при N = 1, кстати, получается ~2 миллиона), т.е. ~10000 тактов уходит только на одну синхронизацию. Под Linux на 2-ядернике вдвое меньшей частоты при N = 1 — 80к переключений.

Чем на большее число потоков вы параллелите задачу, тем выше накладные расходы. Я даже боюсь представить, что будет твориться на Threadripper при 32 потоках, ведь блокировка шины при изменении атомарной переменной, за которую борется куча потоков — штука очень неприятная.

То есть, чтобы задачу вообще имело смысл параллелить, задача должна выполняться ощутимое время — несколько десятков микросекунд.

Кстати, низкая гранулярность тоже может оказаться не в фаворе, если будет страдать локальность доступа к памяти.

DistortNeo 3 сен 2017 в 19:59

Update: при использовании Windows-specific варианта при больших N (N = 8 и выше) накладные расходы становятся ниже, чем при кросс-платформенном варианте.

DrZlodberg 4 сен 2017 в 09:38

Кстати в командах x86 есть ведь и команды для цикла ( loop и иже с ними ). Нельзя ли их как-то оптимизировать и делать циклы по возможности на них. Правда для вложенных циклов необходимо, чтобы компилятор достаточно заранее восстанавливал CX, чтобы все ступени конвейера успели среагировать.

Gryphon88 3 сен 2017 в 15:23

Кстати, с VLIW-компиляторами как-то выкрутились, или по прежнему не получается выжать всё из архитектуры?

qw1 3 сен 2017 в 16:45

У меня ощущение, что они не нужны никому. Тот же Intel прекратил развитие Itanium.

Gryphon88 3 сен 2017 в 17:00

Есть ещё неподимый и легендарный Эльбрус, но документацию я одолеть не смог, она гораздо грустнее интеловской, и компилятор я не знаю, где скачать

valeriyk 3 сен 2017 в 17:02

В DSP активно используются. Вот, например, свежий 8-way VLIW для 5G модемов: www.ceva-dsp.com/product/ceva-xc12

valeriyk 3 сен 2017 в 16:33

Можно-то можно, но есть один нюанс. Дешифрация команды не происходит мгновенно, и сколько тактов пройдет, прежде чем процессор поймет, что он испольняет команду ветвления — одному Аллаху ведомо. А знать это процессору необходимо сразу, ибо следующую команду надо выбирать уже на следующем такте.

marsianin 4 сен 2017 в 21:35

Современные процессоры не читают по одной инструкции — они гребут код, что называется, «большой лопатой». В частности, мне приходилось видеть CPU, который читает по 2 кэшлайна кода за такт.

valeriyk 4 сен 2017 в 22:56

это никак не отменяет того, что я сказал

marsianin 4 сен 2017 в 23:09

Согласен. Только декодирование — процесс достаточно быстрый, и, соответственно, на out of order CPU о том, что инструкция является переходом, может быть известно сильно раньше, чем она реально начнёт исполняться. Что же касается двухстадийного конвейера, который нам упорно рисуют в статье, так в нём вообще можно обойтись без предсказания переходов — человечество изобрело такое понятие как delay slot.

DistortNeo 3 сен 2017 в 13:19

Довольно интересная ситуация, когда предсказание переходов можно пощупать на практике:

https://stackoverflow.com/questions/11227809/why-is-it-faster-to-process-a-sorted-array-than-an-unsorted-array

Задача: пробежаться по массиву байт и посчитать количество байт, больших 128.
Наблюдение: при случайном заполнении скорость работы алгоритма в 6 раз медленнее, чем при неслучайном (отсортированный массив).

homm 3 сен 2017 в 13:24

Я может быть глупость спрошу, но вот это предсказание нужно чтобы выбрать одну из двух ветвей выполнения. Если предсказание не сбылось, то результат работы с неверной веткой просто отбрасывается. Можно ли пойти сразу по двум веткам одновременно и отбросить результат работы той, что не сбылась?

DistortNeo 3 сен 2017 в 13:59

> Можно ли пойти сразу по двум веткам одновременно и отбросить результат работы той, что не сбылась?

Можно, но это дорого: в процессоре лишних вычислительных блоков под такое просто нет.
Возможно, это и используется, но очень ограничено: для выборки команд в кэш из обеих веток, например.

KursoRUS 3 сен 2017 в 20:59

По такому принципу кстати работают GPU. Но там это обусловлено тем, что блоки по 32 ядра (warpы в cuda) в один момент времени могут выполнять только одинаковые инструкции.

DrZlodberg 4 сен 2017 в 09:42

Не совсем по такому. Речь об одновременном выполнении обоих, а в GPU последовательное. Так что вместо выигрыша получаем наоборот проигрыш. Но там это частично решается кучей команд условных вычислений.

НЛО прилетело и опубликовало эту надпись здесь

qw1 3 сен 2017 в 21:40

В наборе x86/x64 нет такой инструкции.

С другой стороны, зачем? Если ветвление выполняется часто, оно будет запомнено и не вытеснится из буфера предсказаний. А если редко, потеря нескольких тактов не важна.

НЛО прилетело и опубликовало эту надпись здесь

DistortNeo 3 сен 2017 в 22:33

Касательно процессоров Intel:

https://www.intel.com/content/dam/www/public/us/en/documents/manuals/64-ia-32-architectures-optimization-manual.pdf, раздел 3.4.1.

Про статическое предсказание (п. 3.4.1.3) вполне конкретно написано: The Intel Core microarchitecture does not use the static prediction heurist.

qw1 4 сен 2017 в 00:55

может даже так сложиться, что именно вторая, малоприоритетная ветка станет выполняться чаще, что добавит тактов 10 на перезагрузку конвейера в случае, когда код должен быть максимально быстрым

Не понимаю примера. Статически — это значит один раз при компиляции, без возможности изменения. То есть, эта ветка 100 раз выполнялась, её предиктор пометил как приоритетную, а потом она 3 раза не выполнилась и предиктор промахнулся? А что будет, если её статически пометить как не приоритетную? Будет 100 промахов и 3 попадания?

Если они близки к случайным, то в половине случаев (!) предсказатель будет ошибаться и результат работы будет ужасный

Что предлагается? Например, в цикле

for (int i = 0; i < N; i++) { if (i & 1) { .... } }

Перед условным переходом вычислить i&1 и выполнить какую-то команду, которая подскажет по значению i, будет ли переход? Так такая команда — то же самое, что и ветвление, почему бы эти 2 команды не объединить в логику инструкции ветвления. На самом дела, нужно загрузить конвеер намного заранее до вычисления условия, а не прямо перед ним.

НЛО прилетело и опубликовало эту надпись здесь

DrZlodberg 4 сен 2017 в 09:48

На самом деле не совсем. Например в циклах о том, будет ли переход часто известно ещё в начале цикла, что (теоретически) можно использовать. Кстати у x86 есть встроенная команда (loop и её вариации) которую можно было бы оптимизировать предсказанием, если бы были какие-то гарантии, что её рабочий регистр (CX для основного варианта) не используют подо что-то другое. Правда там ещё есть варианты, которые по флагам работаю, и тут уже ничего не предскажешь.

AndrewTishkin 5 сен 2017 в 12:29

А про 1 500 000 год до н.э. — это юмор?

AndrewTishkin 6 сен 2017 в 10:35

Допустим минус вопросу означает, что это не юмор. Тогда тем более не понимаю, к чему это было вынесено в заголовок и больше в тексте не упоминалось.

MacIn 6 сен 2017 в 12:44

Допустим минус вопросу означает, что это не юмор

Непонятна основа такого допущения.

mkostya 5 сен 2017 в 19:47

Мне кажется что лучше было бы использовать не «цель перехода», а «целевой адрес перехода». К слову «цель» напрашивается вопрос «зачем», но это совсем не то, что имелось в виду.

m1rko 5 сен 2017 в 19:47

Хм, может быть.

semifunctional 6 сен 2017 в 00:16

Замените пожалуйста везде по тексту «подым(\S+)» на «подним$1». А то читать тяжело с самого начала.

semifunctional 6 сен 2017 в 00:18

Замените «в раках» на «в рамках».

Psychosynthesis 8 сен 2017 в 13:15

Объясните, пожалуйста следующий момент:

if x > 0: x -= 1 if y > 0: y -= 1 if x * y > 0: foo()

Если произойдёт переход по первой или второй ветви, то третья определённо останется незадействованной.

Пусть x = 3, y = 3… Независимо от того, по какой из ветвей пойдёт код (даже если по обеим), условие выполнения третьей всегда будет истинно (2*2 > 0). Или какой это язык? Возможно имелось ввиду x = -1?

В чём смысл вставок с кодом, если они никаких пояснений не вносят?

DistortNeo 8 сен 2017 в 17:59

Объясняю: это косяки перевода.
В оригинале: If either the first branch or the next branch isn’t taken, then the third branch definitely will not be taken.
То есть вместо «или» должно быть «исключающее или».

Deosis 11 сен 2017 в 08:21

Тут перевод прямо противоположен по смыслу.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

История предсказания переходов с 1 500 000 года до н.э. по 1995 год

Комментарии 77

Публикации

Истории