Как стать автором
Обновить

Комментарии 22

Интересная статья! Подписался на блог.
Максим на какой видеокарте вы тестируете?
Ноутбучная GeForce 9600M GS. До домашнего десктопа все руки не доходят в последнее время.
> В своем примере я не учитываю время копирования данных с хоста на девайс и обратно
А если учитывать, то в тех же тестах сколько оно займёт?
Если это учесть, то в среднем: 420 мс, 138 мс, для 1 и 2 случая соотвественно.
зловещий холивар подниму, но всёже интересно есть ли разница в производительности cuda в линуксе и в венде? слышал что дрова под венду постабильнее будут
У nvidia драйвера под все ОСи высокого качества. Думаю, разница в производительности минимальна. На выходных пойду к знакомому, хочу у него под MacOS CUDA-программы погонять, если удасться, то выложу сравнение.
и ещё вопрос про память — вот например у моём ноуте 9300 там 128 на борту и до 512 может кушать с озу. я так понимаю, лутше не откусывать?
Если много ОЗУ, то можно и откусить. Хотя стандартная ОЗУ не такая быстрая как родная память видеокарты.
А как-же ATI? У них есть свой «ответ»?
и у интел ест нечто похожее, но только неясно в какой стадии
intel.com/go/Ct
И они совместимы? Или опять будут игры «специально оптимизированные для nvidia» и «специально для amd ati»?

*наверное чепуху спорол, ибо совсем не смыслю в этом деле.
несовместимы и будут отдельно под то и под то.
а что мешает сделать некую библиотеку и которая будет некой прослойкой между этими технологиями? и эту либу запихнуть в директХ или опенГЛ. конечно производительность падать будет, зато универсально
Такое планируют сделать в DirextX 11
а ну в принципе я был прав :)
Когда выйдет OpenCL, это уже не будет иметь значения :) По крайней мере ТАКОГО.
А на CPU SSE инструкции использовались? ;-)
Думаю что нет. Насколько я понял цель была показать сравнение чисто процового итеративного вычисления и кудовского.
Тем более не совсем понимаю, как применить SSE именно для задачи транспонирования.
Отличная статья!
P.S. А где вы такие красивые картинки берёте?
Обычно, делаю сам, кое-что из официальной документации от nVidia (например, виды памяти видеокарты).
Отличная статья! Подскажите, почему Вы xIndex и yIndex вычисляете два раза, до и после синхронизации? И почему idx вычисляете по разному? Я про пример с shared памятью.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории