MaxFX 17 мар 2009 в 16:00

CUDA: Как работает GPU

9 мин

136K

GPGPU*

+52

Комментарии 22

narma 17 мар 2009 в 17:13

Большое спасибо за статью.

Klementev 17 мар 2009 в 17:19

Пока не всё осилил, но статья интересная.

P.S.
Кстати в фотошопе можно не только nVidia задействовать, новые модели Radeon'a тоже неплохо ускоряют обработку.

Inco 17 мар 2009 в 17:41

Ам… дык было же уже?

Сам только добавить могу, так как по работе уже применял сие =)
Перенёс один метод под видео карту… получил реальное ускорение в 30(!!!) раз
НО спешу добавить, что большой скачок получается только когда я воткнул в принципы группировки потоков в блок. и использование __constant__ и __share__ модификаторов переменных.

Самая идея там если что-то можно объекдинить в блок — объединять, тогда каждый поток может скопировать например сперва в шаред массив свою ячейку, потом синхронизироваться со всеми, и потом работать только с локальной памятью.
Чтение из обычной 400 клоков, чтение из локальной от 4х… так что вот и выйгрыш. Жаль что там только 16к на локальную память на блок, но пока и этого хватает за глаза.
все параметры, что менять не надо писать в константную область памяти (её 64к на блок)!

А так тема реальная!

Shmakov 17 мар 2009 в 18:40

А каким образом с хоста записать данные в константную память? И не подскажите, возможна ли запись двумерных массивов в эту память?

Inco 17 мар 2009 в 19:15

к примеру так:
__constant__ int _threshold;
…
cudaMemcpyToSymbol( _threshold, threshold, sizeof(int));

Для работы с двумерными массивами там все есть, и специальные функции для выделения даже, чтобы выравнивание по адресам было!

Но мне всегда было с линейным удобнее работать. (если уж оптимизировать, то уметь управление над процессом подсчета индекса)

MaxFX 18 мар 2009 в 07:59

Подробнее о памяти будет в следующей публикации.

Inco 17 мар 2009 в 19:12

Ещё раз отдельное спасибо минусующим! я вас так люблю! =)))))))

jawbreaker 17 мар 2009 в 18:22

Спасибо за статью, как раз начал разбираться с CUDA :)

Shmakov 17 мар 2009 в 18:30

А продолжение будет? )
Очень интересно как реализовывать хотя бы несколько более сложные задачи, чем Вы привели в примере. В частности интересно узнать про деление на блоки (как в этом случае нить узнает над какими данными она работает ?).
Или какой-нибудь реальный пример из жизни перевода программы с CPU на GPU.
За статью спасибо. Полезно.

Inco 17 мар 2009 в 19:18

Поставьте SDK там есть сэмплы, там есть пример умножения матриц, по разберите его и все станет ясно как Божий свет =)

soloweb 17 мар 2009 в 23:37

Спасибо! Очень нужный маттериал.

Toshas 18 мар 2009 в 00:55

MaxFX, так держать.
Однако в Вашу статью вкралась идеологическая ошибка. Размер грида равный 1 никогда не позволит выжать максимум мощи GPU при такой 100% распараллеливаемой задаче как сложение векторов. Да, формально код написан верно, но скорость работы будет на порядок меньше, чем если написать правильно. А правильно будет загрузить все стрим процессоры задачей, задав меньше размер блока и больше размер грида.
Вот например размер блока 32 треда (один варп), размер грида — 16 блоков. В таком случае разные части массива будут обрабатываться параллельно. Пока весь процесс обработки заключен в одном блоке — работает один из десятков процессоров, а остальные простаивают.

MaxFX 18 мар 2009 в 08:01

Знаю. Это сделано для облегчения понимания материала.

Rational_Yurij 18 мар 2009 в 01:20

Картинки не грузятся

НЛО прилетело и опубликовало эту надпись здесь

MaxFX 18 мар 2009 в 08:04

Все в ваших руках. С удовольствием бы почитал.
У самого под рукой нет видеокарт ATI, сам бы помучил Brook в свободное время.

Frosty 1 мая 2009 в 01:32

По вашему мануалу переписал свою старую программку для рисования фигур лиссажу на OpenGL… все шикарно, но… оно работает слишком быстро, рисует с такой дикой скоростью, что по экрану ползают вверх-вниз горизонтальные полосы :) Как бы это дело замедлить? :)

superhabra 1 мая 2009 в 01:48

по экрану ползают вверх-вниз горизонтальные полосы

двойная буферизация?

Frosty 1 мая 2009 в 12:40

Без двойной буфферизации у меня бы плыли полосы и на старой программе, сейчас fps за 2000 кадров и это выглядит примерно вот так

Снимок-Безымянное_окно-5.png - upload images with Picamatic

Тут конечно еще немного артефактов накинул сам скриншот, но суть ясна.

Frosty 1 мая 2009 в 12:44

Ай-ай-ай, извиняюсь, был не прав, когда решил переписать старую прогу, то взял какую то очень давнишнюю версию, где двойной буфер не был включен, включил — все стало отлично.

superhabra 1 мая 2009 в 16:35

Что и требовалось доказать :)

icoz 1 авг 2018 в 23:04

Картинки почините, плиз.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

CUDA: Как работает GPU

Комментарии 22

Публикации

Истории