homm 24 мар 2013 в 12:22

История оптимизации alpha_composite в Pillow 2.0

7 мин

5.9K

Python*C*

+21

Комментарии 11

equand 24 мар 2013 в 16:11

Может быть добавить этой функции несколько опций альфакомпозитинга? Для близкого к photoshop и для «скоростного»?

homm 24 мар 2013 в 16:59

Дак последний вариант и так самый быстрый и близкий к фотошопу.

homm 25 мар 2013 в 12:33

Смотреть большой апдейт.

AterCattus 24 мар 2013 в 18:45

Однотипные операции над компонентами цвета наводят на мысли о применении того же SSE. Не пробовали с ним? Что-нибудь вида:

грузим src
src*coeff1
грузим dst
dst*coeff2 + 0x800
сложить значения на вершине стека
удвоить значение на вершине стека
shr 8
сложить значения на вершине стека
shr 12
заменить в результате «a» значение на (outa + 0x7) >> 4

wwwsevolod 24 мар 2013 в 19:33

об этом должен думать компилятор.

-4

homm 24 мар 2013 в 19:38

Насколько я понимаю, это все-таки mmx, а не sse. Нет, намеренно не применял, использовал ли его компилятор, не проверял.

-1

AterCattus 24 мар 2013 в 19:39

В SSE тоже есть подходящие целочисленные команды. Просто интересно, даст ли это хоть какое-то ускорение.

badchemist 4 июл 2013 в 12:44

Очень поздно я наткнулся на эту статью, конечно (ссылка в другой теме привела сюда), но в свое время я, решая задачу смешивания двух цветов с коэффициентом от 0 до 255, прибегнул к помощи таблиц поиска, полностью заменив ими умножения.

Смысл решения заключается в том, чтобы заменить выражение a * coeff + b * (1-coeff) обращением к массиву в памяти по адресу [a][b][coeff]. Разумеется, при 32-битном цвете размер такой таблицы будет 17 млрд ТБ, но достаточно хранить такую таблицу только для 8-битного «цвета» (0-255) и вызывать обращение к массиву отдельно для каждого компонента (result->r = a->r * coeff + b->r * (1-coeff) заменяется на result->r = table[a->r][b->r][coeff]). Получается всего 16 МБ. Если и это много, можно «проредить» coeff, сделать его не 8-битным, а, скажем, 4-битным или даже 2-битным.

К сожалению, точных цифр прироста сказать не могу (тогда не было цели посчитать, насколько же именно быстрее стало, главным на тот момент было хоть как-то убрать тормоза), но выигрыш был очень заметный.

MrShoor 7 ноя 2013 в 09:38

Случайно пришел сюда из другой статьи, хотя понимаю что дело было давно, и уже не так актуально. Так вот, у вас в выражении делается 2 умножения. Нужно раскрыть скобки и сделать преобразование: a * coeff + b * (1-coeff) = a * coeff + b — b * coeff = (a — b) * coeff + b
Обращение к массиву по индексу — это все равно 1 операция умножения и 1 операция сложения. Так что, да, вы сэкономили 1 умножение по сравнению с начальной формулой, но если бы вы провели преобразование — вы бы точно так же сэкономили умножение.
Кроме того, для 16-ти мегабайтной таблицы — это постоянные кешмиссы, а в случае с преобразованной формулой — этого нет.

badchemist 7 ноя 2013 в 10:34

Да, разумеется, я использовал оптимизированную формулу с одним умножением, просто в комментарии для наглядности проще было написать a * coeff + b * (1-coeff).

Что касается умножений при обращении к массиву по адресу [a][b][coeff], то из-за природы значений самих индексов их можно легко заменить на побитовые сдвиги (что и было сделано). А вот про промахи кэша полностью согласен, конечно.

MrShoor 7 ноя 2013 в 15:14

Что то мне как-то сомнительно, что (a — b) * coeff + b выполняется медленнее, чем 3 разиндексации массива (даже через сдвиги) + чтение памяти с частыми кешмиссами. По крайней мере на современном железе. А вы на каком железе это делали?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

История оптимизации alpha_composite в Pillow 2.0

Комментарии 11

Публикации

Истории