m1rko Dec 26 2016 at 15:35

История одного бага: выравнивание данных на x86

14 min

16K

C++*Assembler*Compilers*Debugging*C*

Translation

+32

Comments 13

UFO just landed and posted this here

mejedi Dec 26 2016 at 18:12

Стоило включить PGO (profile-guided optimisation) для того, чтобы оптимизация выполнялась для типичного кейса, когда вычисляется сумма 20 слов, а не миллионов.

Для невыравненного доступа к данным мы используем каст в такую структуру

struct unaligned_i32 {
  int32_t value;
} __attribute__((packed));

Получается более оптимально, чем с memcpy — компилятор не делает лишнего копирования на архитектурах с невыравненным доступом.

mikeus Dec 26 2016 at 21:24

Да, кстати вот получается __attribute__((packed)) решает проблему, а стандартизированный _Alignas(...) не может выравнять меньше чем на естественную границу.

mikeus Dec 26 2016 at 21:50

Так же: "When used as part of a typedef, the aligned attribute can both increase and decrease alignment...", поэтому можно использовать каст к

typedef uint32_t unaligned_uint32_t __attribute__((aligned(1)));

kovserg Dec 27 2016 at 09:57

Вместо того чтобы скрывать особенности архитектуры компилятор выворачивает их мехом наружу.
Вот за это современный C++ мне не нравится

dendron Dec 28 2016 at 00:07

Для абстракции архитектуры полно других языков программирования, они гораздо лучше справляются с этой задачей. Возможно Вы выбрали не тот язык, если это имеет решающее значение?

-1

Nick_Shl Dec 27 2016 at 09:57

uint64_t sum(const char * p, size_t nwords)
{
    uint64_t res = 0;
    uint64_t data[4] = 0;
    size_t i = 0;
    while(i < nwords*4) 
    {
        data[0] += (uint64_t)p[i++];
        data[1] += (uint64_t)p[i++];
        data[2] += (uint64_t)p[i++];
        data[3] += (uint64_t)p[i++];
    }
    res = (data[3] << 24) + (data[2] << 16) + (data[1] << 8) + data[0];
    return res;
}

Может и не оптимально, зато весело :-D

Deosis Dec 27 2016 at 11:35

Вот только это не везде сработает. Т.к. (uint64_t)p[i++] — разыменование невыравненного указателя

Nick_Shl Dec 27 2016 at 16:22

Вообще-то это приведение char к uint64_t, а не работа с указателями. Можно и без этого наверное — компилятор сам должен привести если к uint64_t прибавляем char.
И да, ошибочка, объявлять надо так:

uint64_t sum(const unsigned char * p, size_t nwords)

Иначе при преобразовании отрицательных char получится не то, что хотелось бы.

boov Dec 27 2016 at 11:47

for (size_t i = 5; i < size / 4; i++) {
        sum += q[i];

Предполагается, что размер заголовка всегда кратен 4?

А по поводу использования инструкций sse.
Недавно у себя при сборке проекта clang'ом 3.8 под x86 также на это наступили.
clang в случае зануления через memset активно использует sse.
Временно решили проблему, используя опцию -mstackrealign

vird Dec 27 2016 at 12:39

Жаль, что в ipv4 контрольная сумма не crc32. Т.к. специально для этого существует отдельная инструкция.

dendron Dec 28 2016 at 00:04

Удивляет, что выравнивание до сих пор отвратительно стандартизировано даже в новейших редакциях C++. И это при том, что почти любые SSE-инструкции требуют выровненных данных. Зато всякий бред из помойки под названием boost тащат.

Отправьте уже старпёров из комитета на пенсию, они безнадёжно застряли в 80-х.

-1

zed_0xff Dec 31 2016 at 12:32

а один раз скопировать в выровненный буфер, и потом целиком посчитать не?

Show the best of all time