Comments / Profile of ErmIg / Habr

How to become an author

Ермолаев Игорь @ErmIg

Пользователь

Profile Publications 11Comments 216Bookmarks 3

Теоретическая и реальная производительность Intel AMX

ErmIg Apr 11 at 17:19

А нет ли смысла (и возможно ли) использовать и то и другое одновременно?

Я первым делом померял производительность AVX512_BF16 на Sapphire Rapids. Может я его не правильно использовал, но получилось, что он работает в 2 раза медленнее обычного AVX512. По сути бесполезен. Я так огорчился, что даже выпилил весь код с ним из Simd.

Да, для самообразования (и образования других) работа отличная. Но стоит посмотреть, сколько ещё могут выжать профессионалы (всё таки нюансов там много, скажем даже при обычном умножении матриц на SSE/AVX/AVX512 кроме обычного кеша надо думать ещё про TLB).

Смотрю разное, изучаю. Если будут какие нюансы обнаружены, добавлю в статью.

Пока писал статью, нашел нюансы позволяющие выжать дополнительные 20% :)

+4

Теоретическая и реальная производительность Intel AMX

ErmIg Apr 11 at 16:39

Тут такое дело, что AVX512_BF16 отдельно от AMX достаточно редко встречается (в Cooper Lake есть, в следующем поколении Ice Lake его уже нет). Но в целом с замечанием согласен.

С oneDNN пока не сравнивал. Было желание самому разобраться с тем как это работает.

0

Рассекреченное видео демонстрирует лазерное оружие DragonFire в действии

ErmIg Mar 15 at 11:43

10 см пучка в диаметре я лично не видел :) - это у очень мощных лазеров, таких в нашей лаборатории не было. Но вообще диаметр пучка ограничивается диаметром активной зоны и диаметром зеркала резонатора. Других причин нет.

0

Рассекреченное видео демонстрирует лазерное оружие DragonFire в действии

ErmIg Mar 14 at 15:32

Не совсем так. Дифракционное рассеяние лазерного пучка (угловое расхождение) обратно пропорционально диаметру пучка: ~(длина волны) / (диаметр пучка). А расстояние на котором лазерный пучок расходится в двое ~(диаметр пучка)^2 / (длина волны). 1 мм лазерный луч расходится на расстоянии 1 м, а 10 см на расстоянии -10 км.

+1

Как калькуляторы вычисляют синус?

ErmIg Mar 11 at 14:13

Да к стати. Недавно нужно было реализовать быструю SIMD версию функций cos() и sin().

Использовал полиномы Чебышева. Если кому интересно: версии SSE/AVX/AVX-512 : https://github.com/ermig1979/Simd/blob/master/src/Simd/SimdTrigonometric.h

+2

Ода бесполезности споров

ErmIg Jan 9 at 11:41

Хоть картошка и не теплокровная, но вполне себе живая и дышит. И выделяет тепло, особенно при гниении.

+1

Химический ракетный двигатель с высоким удельным импульсом

ErmIg Dec 28 2023 at 13:00

Действительно: E=q*U=m*V^2/2 => V = Sqrt(q*U * 2 / m ), Скорость истечения обратно пропорциональна корню молярной массы вещества. Однако изменение импульса P = V*m = Sqrt(E * 2 * m ) уже пропорционально корню молярной массы при заданной энергии. Так как все современные ионные двигатели ограничены в основном со стороны источников питания, то естественно, что в качестве рабочего тела логично использовать наиболее тяжелые ионы для создания наибольшей тяги.

0

Мой заржавелый мозг кипел. Я думал, что в 40+ лет нет смысла даже пытаться. Зачем предпринимателю идти в IT

ErmIg Dec 25 2023 at 01:54

Как бы существует большая разница между прототипом распознавания какой-либо ситуации или объекта при помощи нейросети, которое сейчас достаточно легко на коленке реализуется любым студентом и законченным продуктом, когда задача дожна быть решена с заданной точностью и эффективностью.

0

Как оптимизировать код на С для x86-процессоров: подсистема кэша и памяти, инструкции AVX-512

ErmIg Dec 16 2023 at 19:04

Спасибо за статью. Я бы добавил небольшой раздел про то, как определить наличие этого самого расширения AVX-512VBMI (далеко не каждый сервер его поддерживает, не говоря уже про десктоп). А так же что, делать если такого расширения нет.

0

ONNX Runtime, OpenVINO и TVM: обзор инструментов для ускорения ML-моделей

ErmIg Nov 2 2022 at 22:31

Если кому интересно, то с 18 года разрабатываю фреймворк для запуска обученных нейронных сетей на CPU:

https://github.com/ermig1979/Synet

Он ориентирован в основном на однопоточную производительность и оптимизирован под основные процессорные расширения (SSE, AVX, AVX-512, AMX, NEON) (по этому направлению опережает OpenVINO). Он поддерживает конвертацию из формата ONNX и OpenVINO. А также динамическую квантизацию моделей.

+1

Астероид как роскошь и средство передвижения

ErmIg Oct 22 2022 at 12:14

Как раскрутить астероид для создания искусственной гравитации и не разрушить его, с учетом того, что они по большей части представляют собой слабосвязанную кучу камней?

+5

Умножение матриц: эффективная реализация шаг за шагом

ErmIg Oct 10 2022 at 14:04

Красивая математика, но в реальных алгоритмах не взлетит, как и алгоритм Штрассена впрочем.

0

Война с компилятором и собой: об оптимизациях вещественной арифметики на Эльбрусе

ErmIg Jan 25 2022 at 11:44

Как мне кажется задача упирается прежде всего в пропускную способнось памяти, а не в вычислительные возможности процессора. Intel Core i7-9700K имеет теоретическую производительность 50 GFLOPS на ядро (FP64) для FMA. В вашем цикле порядка 10 операций умножения и сложения. Значит теоретически он может выполняться раз в 10 быстрее (~500 мс). Все упирается в пропускную способность памяти, а не в векторизацию и т.п. Это к стати ответ, почему Эльбрус почти догнал гораздо более высокочастоный Intel и Power.

+3

Японский стартап предлагает ховербайки по $680 тысяч — они разгоняются до 100 км/ч и держат заряд 40 минут

ErmIg Oct 27 2021 at 16:12

Посмотрел. У них все выглядит гораздо продуманней: аппарат и легче и безопаснее (для пилота).

0

Как увеличить стек FPU

ErmIg Jul 28 2021 at 11:33

Зависит от задачи. Но если суммировать порядка 10^6 чисел, то легко получить погрешность во 2-3 знаке. Причем результат будет различасться в зависимости от того, что используешь: Scalar/SSE/AVX/AVX-512 (см подробнее здесь). Впрочем чем больше длина вектора, тем погрешность меньше.

0

Как увеличить стек FPU

ErmIg Jul 28 2021 at 10:57

Ну таких опций компилятора наверное еще не придумали. Я лично этот метод руками писал для нахождения суммы разностей квадратов на fp32 (вот пример на SSE см SquaredDifferenceKahanSum32f ).

0

Как увеличить стек FPU

ErmIg Jul 28 2021 at 10:07

Код на x87 скалярный, 80-bit регистры загружаются по невыровненному адресу за несколько тактов. Единственное возможное преимущество - повышенная точность, но ее можно достичь другими методами (например см метод Кэхена). Если оставаться в рамках стандартных 64-bit, то можно задействовать SSE, AVX, AVX-512. Это легко перекроет выгоду от x87 даже с учетом более медленного алгоритма.

+1

Обзор инструкций ARM NEON для тех, кто знаком с MMX/SSE/AVX

ErmIg Apr 1 2021 at 12:32

Касательно оптимизации загрузки NEON векторов, я бы еще посмотрел в сторону выровненной загрузки и использования префетча:

#define PREFECH_SIZE 384

        template <bool align> inline uint8x16_t Load(const uint8_t * p);

        template <> inline uint8x16_t Load<false>(const uint8_t * p)
        {
#if defined(__GNUC__) && PREFECH_SIZE
            __builtin_prefetch(p + PREFECH_SIZE);
#endif
            return vld1q_u8(p);
        }

        template <> inline uint8x16_t Load<true>(const uint8_t * p)
        {
#if defined(__GNUC__)
#if PREFECH_SIZE
            __builtin_prefetch(p + PREFECH_SIZE);
#endif
            uint8_t * _p = (uint8_t *)__builtin_assume_aligned(p, 16);
            return vld1q_u8(_p);
#elif defined(_MSC_VER)
            return vld1q_u8_ex(p, 128);
#else
            return vld1q_u8(p);
#endif
        }

В некоторых случаях помогает (величиной PREFECH_SIZE лучше поиграться).

+1

Почему именно Tesla победит в гонке за автономностью

ErmIg Dec 24 2020 at 16:51

Чтобы что-то отправить из архива, нужно его прежде туда сохранить. Если интересуют редко встречающиеся ситуации, которые плохо распознаются, то боюсь придется сохранять очень много — т.к. порог на срабатывание нужно будет сильно занижать.

0

Как ускорить игру «Жизнь» в сто раз

ErmIg Dec 15 2020 at 15:31

Небольшое замечание по поводу AVX2 версии:
Есть такая замечательная инструкция VPSHUFB (_mm256_shuffle_epi8, Avx2.Shuffle), которая может использоваться в качестве lookup таблицы из 16 одно байтовых значений.
Этой операцией можно заменить почти все битовые операции во втором цикле.

+1

1

2 3 ...