Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

CUDA: с места в карьер

GPGPU
Многие видели моё введение в современные технологии высокопроизводительных вычислений и оценки производительности, теперь я продолжу тему более подробным рассказом о технологии CUDA.
Для тех кто не смотрел предыдущие серии: CUDA позволяет писать и запускать на видеокартах nVidia(8xxx и выше) программы написанные на С++ со специальными расширениями. На правильных задачах достигается значительное превосходство по производительности на $ по сравнению с обычными CPU.
Достижимая производительность — 1 трлн и выше операций в секунду на GTX295.

NB: Статья — краткое введение, покрыть все ньюансы программирования под CUDA в одной статье вряд ли возможно :-)
Читаем дальше CUDA crash course
Всего голосов 39: ↑37 и ↓2 +35
Просмотры26.2K
Комментарии 26

AMD Brook+: с места в карьер

Компьютерное железо
Про nVidia CUDA хабровчане уже наслышаны, теперь настал черед и AMD Brook+. Brook+ позволяет вам писать программы на С и запускать их на видеокартах AMD (ну и как опция — автоматически можно сгенерировать CPU версию со средним качеством кода). Достижимая производительность — порядка 600млрд операций на AMD 4870.

NB: Статья — краткое введение, не стоит ожидать освещения тут всех аспектов программирования на Brook+ :-)
Читать дальше
Всего голосов 32: ↑29 и ↓3 +26
Просмотры1.5K
Комментарии 14

Математик vs. Ферзь

Чулан
Статья адресована читателям, которые имеют опыт решения задач перечислительной комбинаторики, а также тем, кому нравятся трудные задачи по программированию.

Речь пойдёт о сражении, которое длится уже более 150 лет. Математики давно начали войну с шахматными фигурами, и, пожалуй, наиболее упорной фигурой в этой битве является ферзь. Последние 50 лет на помощь математикам приходят компьютеры, однако и этого оказывается недостаточно.

Читать дальше →
Всего голосов 39: ↑34 и ↓5 +29
Просмотры993
Комментарии 5

Сравнение OpenCL с CUDA, GLSL и OpenMP

Высокая производительность
image
На хабре уже рассказали о том, что такое OpenCL и для чего он нужен, но этот стандарт сравнительно новый, поэтому интересно как соотносится производительность программ на нём с другими решениями.

В этом топике приведено сравнение OpenCL с CUDA и шейдерами для GPU, а также с OpenMP для CPU.

Тестирование проводилось на задаче N-тел. Она хорошо ложится на параллельную архитектуру, сложность задачи растёт как O(N2), где N — число тел.
Читать дальше →
Всего голосов 95: ↑94 и ↓1 +93
Просмотры37.5K
Комментарии 43

Распределенные вычисления на платформе .NET

.NET
Широкое распространение параллельных архитектур вычислительных систем вызывает повышение интереса к средствам разработки программного обеспечения, способного максимально полно использовать аппаратные ресурсы данного типа.

Однако к текущему моменту имеется определенный разрыв между имеющимися на потребительском рынке технологиями аппаратной реализации параллелизма и программными средствами их поддержки. Так, если многоядерные компьютеры общего назначения стали нормой в середине текущего десятилетия, то появление OpenMP — популярного стандарта разработки программ для подобных систем — отмечено почти десятью годами ранее [1]. Практически в то же время возник и стандарт MPI, описывающий способы передачи сообщений между процессами в распределенной среде [2].

Развитие обоих данных стандартов, выражающееся только в расширении функциональности без адаптации парадигм к объектно-ориентированному подходу, приводит к тому, что они оказываются несовместимы с современными платформами программирования, такими как Microsoft .NET Framework. Поэтому разработчикам этих платформ приходится прилагать дополнительные усилия по внедрению средств параллелизма в свои продукты.

В [3] автором была рассмотрена одна из таких технологий, Microsoft Parallel Extensions, позволяющая достаточно простым способом внедрять параллелизм в изначально последовательный управляемый код для компьютеров с общей памятью. Там же была показана возможность и целесообразность использования платформы .NET Framework для проведения научных расчетов. Тем не менее, остается открытым вопрос о применимости данной платформы для разработки программ, используемых для проведения сложных расчетов на системах с распределенной памятью, например, вычислительных кластеров. Данные системы базируются на совокупности соединенных между собой вычислительных узлов, каждый из которых является полноценным компьютером со своим процессором, памятью, подсистемой ввода/вывода, операционной системой, причем каждый узел работает в собственном адресном пространстве.
Читать дальше →
Всего голосов 57: ↑44 и ↓13 +31
Просмотры17.4K
Комментарии 28

Серверы HP ProLiant DL980

Блог компании Hewlett Packard Enterprise
HP ProLiant 980Летнее обновление модельных линеек HP в этом году не прошло мимо мощных серверов масштаба предприятия. Почему «не прошло мимо»? Дело в том, что некоторые особо производительные модели серверов от НР строятся со столь серьезным запасом по мощности и плотности памяти, что компания обновляет их реже, чем другие линейки. Такие серверы, как правило, принимают в себя все актуальные процессоры и имеют солидный запас по наращиванию производительности.

Однако закон Мура еще никто не отменял, время на месте не стоит, и почивающий на лаврах рискует отстать от высококонкурентного рынка. HP, очевидно, к таковым не относится, и постоянно отслеживает ситуацию. Возможно, отчасти поэтому Intel, словно по заказу, выпустила восьмиядерные серверные Xeon'ы серий 6500 и 7500. Надо же их куда-то устанавливать?

Теперь их можно установить в новый ProLiant DL980, причем до восьми штук одновременно. Простым умножением получаем 64 процессорных ядра, а такая цифра, согласитесь, внушает уважение даже сама по себе. Под стать процессорам и память. Поддерживаются 16-гигабайтные модули, что на фоне 128 слотов под память дает нам добрые два терабайта. Емкость весьма внушительная, но и задачи перед сервером должны стоять нешуточные: DL980 рассчитан на работу в масштабах крупного предприятия, под виртуализированной нагрузкой, либо в рамках одного, но весьма интенсивно работающего с данными приложения.
Читать дальше →
Всего голосов 25: ↑17 и ↓8 +9
Просмотры9.3K
Комментарии 32

Метод динамического программирования для подсчёта числа циклов на прямоугольной решетке

Алгоритмы
Эта статья адресована тем читателям, кто занимается программированием алгоритмов, и особенно интересуется труднорешаемыми задачами. Тем хабралюдям, которые против размещения алгоритмов на Хабре следует немедленно прекратить читать данную работу.

В статье я покажу как использовать метод динамического программирования по профилю для решения задачи о подсчёте количества гамильтоновых циклов на прямоугольной решётке размером m на n. На Хабре есть несколько статей, посвященных теме динамического программирования (например, эта), но нигде не идёт речь о более сложном применении метода. Данный подход также можно называть методом матрицы переноса, кому как нравится.

Предупреждаю, что статья содержит около 2000 слов (8 страниц А4), но дорогу осилит идущий.

Читать дальше →
Всего голосов 100: ↑94 и ↓6 +88
Просмотры11K
Комментарии 16

Высокопроизводительные вычисления: проблемы и решения

Высокая производительность
Компьютеры, даже персональные, становятся все сложнее. Не так уж давно в гудящем на столе ящике все было просто — чем больше частота, тем больше производительность. Теперь же системы стали многоядерными, многопроцессорными, в них появились специализированные ускорители, компьютеры все чаще объединяются в кластеры.
Зачем? Как во всем этом многообразии разобраться?
Что значит SIMD, SMP, GPGPU и другие страшные слова, которые встречаются все чаще?
Каковы границы применимости существующих технологий повышения производительности?

Введение


Откуда такие сложности?

Компьютерные мощности быстро растут и все время кажется, что все, существующей скорости хватит на все.
Но нет — растущая производительность позволяет решать проблемы, к которым раньше нельзя было подступиться. Даже на бытовом уровне есть задачи, которые загрузят ваш компьютер надолго, например кодирование домашнего видео. В промышленности и науке таких задач еще больше: огромные базы данных, молекулярно-динамические расчеты, моделирование сложных механизмов — автомобилей, реактивных двигателей, все это требует возрастающей мощности вычислений.
В предыдущие годы основной рост производительности обеспечивался достаточно просто, с помощью уменьшения размеров элементов микропроцессоров. При этом падало энергопотребление и росли частоты работы, компьютеры становились все быстрее, сохраняя, в общих чертах, свою архитектуру. Менялся техпроцесс производства микросхем и мегагерцы вырастали в гигагерцы, радуя пользователей возросшей производительностью, ведь если «мега» это миллион, то «гига» это уже миллиард операций в секунду.
Но, как известно, рай бывает либо не навсегда, либо не для всех, и не так давно он в компьютерном мире закончился. Оказалось, частоту дальше повышать нельзя — растут токи утечки, процессоры перегреваются и обойти это не получается. Можно, конечно, развивать системы охлаждения, применять водные радиаторы или совсем уж жидким азотом охлаждать — но это не для каждого пользователя доступно, только для суперкомпьютеров или техноманьяков. Да и при любом охлаждении возможность роста была небольшой, где-то раза в два максимум, что для пользователей, привыкших к геометрической прогрессии, было неприемлемо.
Казалось, что закон Мура, по которому число транзисторов и связанная с ним производительность компьютеров удваивалась каждые полтора-два года, перестанет действовать.
Пришло время думать и экспериментировать, вспоминая все возможные способы увеличения скорости вычислений.
Читать дальше →
Всего голосов 79: ↑79 и ↓0 +79
Просмотры25.2K
Комментарии 43

CUDA: аспекты производительности при решении типичных задач

Высокая производительность
Перед тем как начать переносить реализацию вычислительного алгоритма на видеокарту стоит задуматься — получим ли мы желаемый прирост производительности или только потеряем время. И несмотря на обещания производителей о сотнях GFLOPS, у современного поколения карт есть свои проблемы, о которых лучше знать заранее. Я не буду глубоко уходить в теорию и рассмотрю несколько существенных практических моментов и сформулирую некоторые полезные выводы.
Читать дальше →
Всего голосов 86: ↑84 и ↓2 +82
Просмотры22.7K
Комментарии 67

Графические процессоры NVIDIA Tesla в новых серверах HP ProLiant SL390s G7

Блог компании Hewlett Packard Enterprise
Сервер HP ProLiant SL390s G7 в 4U исполненииСвежая серия серверов SL от HP активно набирает обороты – идея объединения питания и охлаждения в одной корзине и установки в нее серверов половинной и полной ширины в различных сочетаниях оказалась весьма удачной. Это, в общем, неудивительно: за сравнительно небольшие деньги можно построить высокоплотную систему, которая, может быть, в чем-то проигрывает традиционным блейд-решениям, но взамен предоставляет отличную производительность в пересчете на объем занимаемой стоечной емкости.

А с выходом новых серверов половинной ширины под индексом SL390s G7 и без того радужная картина стала еще более красочной. Теперь в дополнение к верным Xeon’ам счастливый обладатель SL390s G7 получает в свое распоряжение самые свежие графические вычислители NVIDIA Tesla третьего поколения. При желании в прохладе серверной можно устроить чемпионат по Crysis 2 на максимальных настройках *, но лучше поступить иначе: «заточить» используемые программные инструменты под работу с Tesla и наслаждаться выросшей в разы производительностью.

Кому это может понадобиться в первую очередь? Если не учитывать популярный в последнее время Bitcoin-майнинг в качестве достойного занятия для компаний малого и среднего бизнеса, лучше всего SL390s G7 могут проявить себя там, где требуется производить серьезные распараллеливаемые вычисления.
Читать дальше →
Всего голосов 19: ↑17 и ↓2 +15
Просмотры10.9K
Комментарии 19

25000$ грант от Nvidia для исследовательских проектов связанных с графикой и GPGPU

Высокая производительность
Несколько дней назад Nvidia начала принимать заявки для получения гранта в размере 25k$ для исследовательских проектов на тему графики и высокопроизводительных вычислений "Graduate Fellowship Program".

Надеюсь на Хабре есть коллеги, которым это пригодится.

Немного деталей и личные впечатления прошлого года под катом
Читать дальше →
Всего голосов 16: ↑16 и ↓0 +16
Просмотры1K
Комментарии 3

Disruptor — новая парадигма многопоточного программирования

Высокая производительность
На прошлой неделе компания LMAX, где я работаю, получила приз Java Duke's Choice Award 2011 за фреймворк Disruptor. Ранее об этой технологии писал Martin Fowler, известный многим читателям публикациями об объектном программировании.

В этой статье я хотела бы вкратце рассказать об этой технологии, а так же о конкретной проблеме, которую эта технология решает в компании LMAX.

Читать дальше →
Всего голосов 33: ↑26 и ↓7 +19
Просмотры29.5K
Комментарии 25

Быстрое сжатие изображений по алгоритму JPEG на CUDA

Высокая производительностьGPGPUОбработка изображений
Краткое содержание: Создан быстрый кодер FVJPEG для сжатия изображений по алгоритму JPEG на видеокартах NVIDIA. Значительное ускорение получено при распараллеливании алгоритма, его реализации и оптимизации с помощью технологии CUDA. По скорости сжатия кодер FVJPEG превосходит все существующие в настоящее время программные и аппаратные решения для компрессии изображений по алгоритму Baseline JPEG.
Читать дальше →
Всего голосов 74: ↑59 и ↓15 +44
Просмотры18.5K
Комментарии 49

Карта Интернета

Я пиарюсь
Привет всем!

Хочу представить вам Карту Интернета или результат кластеризации более чем 350 тысяч сайтов в соответствии с переходами пользователей между ними. Размер круга определяется посещаемостью сайта, цвет – национальной принадлежностью, а положение на карте – его связями с другими сайтами. Если два сайта имеют стабильный поток пользователей между ними, то они будут «стараться» расположиться ближе друг к другу. После завершения работы алгоритма, на карте можно наблюдать скопления сайтов (кластеры) объединенные общими пользователями.

image

Например, если ввести в поиск habrahabr.ru, то можно увидеть, что dirty.ru и leprosorium.ru в том же «созвездии», а еще подальше livejournal.ru. Это говорит о том, что тот, кто сейчас читает этот текст, также с высокой вероятностью посещает эти сайты (относительно усредненного пользователя Рунета конечно).

Еще более интересный пример кластеризации можно увидеть внизу карты, между фиолетовой Японией и желтоватой Бразилией: там расположилась целая порнострана по размерам сопоставимая со всем Евронетом. Интересно, что будучи достаточно компетентным в рассматриваемом вопросе, внутри большого порнокластера можно различить тематические подкластеры меньшего размера.

Тем, кого интересует краткое техническое описание – добро пожаловать под кат
Читать дальше →
Всего голосов 224: ↑217 и ↓7 +210
Просмотры13K
Комментарии 146

2013: пора прекратить погоню за флопсами

Высокая производительность
Перевод
От переводчика: Exascale computing — это такой амбициозный проект по достижению производительности порядка ExaFLOPS к 2018 году. Есть мнение, что наукоемким вычислениям уже сейчас тесно в петафлопсах. Так ли это на самом деле? Размышления на эту тему Уильяма Гроппа, директора Parallel Computing Institute, были опубликованы в The Exascale Report.

2013: TIME TO STOP TALKING ABOUT EXASCALE
William D. Gropp


Каждый, кто читает это, верит в силу вычислительных технологий. Нам кажется само собой разумеющимся, что производительность самых мощных вычислительных систем должна продолжать расти с прежней скоростью, чтобы удовлетворять потребности общества. Тем не менее, это не так уж и бесспорно.
Читать дальше →
Всего голосов 57: ↑46 и ↓11 +35
Просмотры28K
Комментарии 52

Что мы знаем о серверах высокой плотности

Блог компании CloudMTSВысокая производительность
Блейд-сервера RLX Technologies

Комментарии к некоторым постам хабра заставили задуматься, есть ли понимание у народа о серверах высокой плотности и их возможностях. Целью написания данного поста является внесение определенности по этому вопросу. Также планируется, что этот пост станет первым в череде статей на тему HPC (high performance computing, высокопроизводительные вычисления).

Сервера высокой плотности наиболее востребованы в технологиях построения суперкомпьютеров кластерного типа, систем виртуализации и организации облаков, систем параллельного доступа к системам хранения, систем аналитических расчётов, поисковых системах и др. Их применение обусловлено, прежде всего, невозможностью выполнить все предъявляемые требования, используя иные технологии. Рассмотрим варианты решений, их плюсы и минусы.
Читать дальше →
Всего голосов 45: ↑39 и ↓6 +33
Просмотры42K
Комментарии 44

В Университете Иннополис стартовала бесплатная Школа по высокопроизводительным вычислениям

Блог компании Innopolis University
Сегодня, 8 сентября, на казанской площадке Университета Иннополис состоялось открытие Летней школы по высокопроизводительным вычислениям и их приложениям к задачам современной биологии и медицины.

Соорганизатором мероприятия выступил Московский Физико-Технический Институт (Физтех).
Читать дальше →
Всего голосов 10: ↑6 и ↓4 +2
Просмотры13K
Комментарии 5

Вебинары Enterprise Group

Блог компании Hewlett Packard Enterprise
Департамент корпоративных решений HP приглашает на очередную серию вебинаров, стартовавших 15 мая.
Вебинары посвящены обсуждению существующих продуктов, решений, сервисов и новинок HP и наших партнеров для корпоративного применения.
В этой серии мы коснемся тем виртуализации, сетевого оборудования, систем хранения данных, конвергентной системы для SAP HANA, комплексного подхода к резервному копированию и архивированию, а также представим новую линейку продуктов в области высокопроизводительных вычислений.
На вебинаре у вас будет возможность обсудить интересующие вопросы с другими участниками и получить консультацию экспертов по корпоративным решениям HP.
Присоединяйтесь и приглашайте друзей и коллег!
Всего голосов 7: ↑6 и ↓1 +5
Просмотры2.8K
Комментарии 1

Летняя школа высокопроизводительных вычислений в области биологии и медицины доступна онлайн

Блог компании Innopolis University

Вот уже второй год подряд Университет Иннополис проводит на своей базе Летнюю школу высокопроизводительных вычислений в области современной биологии и медицины. Соорганизатор мероприятия — МФТИ (Московский физико-технический институт). В этом году школа пройдет при поддержке Российского Фонда Фундаментальных Исследований.
21 августа стартуют занятия у 40 слушателей, прошедших конкурсный отбор. Мы ждем участников из Москвы, Казани, Ростова-на-Дону, Нижнего Новгорода, Волгограда, Екатеринбурга, Воронежа, Омска, Перми, Уфы, Красноярска, Перевальска (Луганская обл. Украины), Альметьевска, Елабуги, Инсара, Советска (Тульская обл.)
Читать дальше →
Всего голосов 9: ↑7 и ↓2 +5
Просмотры3.9K
Комментарии 4

Как мы провели Летнюю Школу высокопроизводительных вычислений

Блог компании Innopolis UniversityВысокая производительность

С 21 по 30 августа на казанской площадке нового российского ИТ Университета Иннополис прошла VI Летняя Школа высокопроизводительных вычислений в области современной биологии и медицины. Соорганизатором выступил Московский физико-технический институт. Мероприятие проведено при финансовой поддержке Российского фонда фундаментальных исследований, грант № 14-37-10076 мол_г.
Мы готовы поделиться презентационными материалами приглашенных профессоров и записью с онлайн трансляций. Подробности под катом.
Читать дальше →
Всего голосов 17: ↑13 и ↓4 +9
Просмотры5.9K
Комментарии 4