begoon Apr 30 2012 at 15:02

Многопоточный QuickSort на С++ 2011

6 min

13K

C++*

+26

Comments 15

VladX Apr 30 2012 at 15:51

В этом алгоритме получается после фазы разбиения запустить сортировки подчастей параллельно.

Не очень удачное решение с точки зрения параллельности. Мне кажется, более thread-friendly было бы разбить массив на N одинаковых частей и запустить для каждой части quicksort в своем потоке.

begoon Apr 30 2012 at 15:58

Но ведь потом придется сливать куски в один, а это уже только в один поток.

gribozavr Apr 30 2012 at 16:02

Ну а у вас в самом-самом начале std::partition весь массив жуёт тоже в один поток.

VladX Apr 30 2012 at 16:08

Не так уж это и долго, особенно если составить хороший алгоритм для слияния.

Zlobober Apr 30 2012 at 16:10

Научите сливать K кусков суммарного размера N быстрее чем за O(NK)?

Zlobober Apr 30 2012 at 16:12

И, конечно, без использования разного рода логарифмических структур данных, типа сетов, мапов и прочего. При маленьких K они сильно затормозят финальную стадию процесса.

VladX Apr 30 2012 at 16:14

Почему без использования? При маленьких K выгоднее запустить QS в один поток.

bminaiev Apr 30 2012 at 16:30

А разве нельзя рекурсивно посливать по два в сумме за O(N log(K))?

VladX Apr 30 2012 at 17:16

Для слияния O(N log K) наилучшая асимптотика. Правда там константа очень маленькая, и можно реализовать не-рекурсивную версию, будет ещё быстрее.

Но можно подойти с другой стороны, и перед сортировкой обработать массив неким подобием quicksort, который не сортирует, а просто разбивает массив на K частей (при этом K — степень двойки) таким образом, что каждый элемент 1-ой части меньше любого элемента 2-ой части и т.д. Т.е. после сортировки в K потоков мы получаем уже окончательный массив.

qehgt Apr 30 2012 at 16:51

Это уже не совсем quicksort будет.

rPman Apr 30 2012 at 18:31

Интересно, а если предположить что процессоров бесконечное количество, хотя бы сравнимо с log(N)… реально ли будет добиться O(N log K)? или даже O(N)?

Много ядер уже сейчас можно найти в GPU (там только куча ограничений для эффективного доступа к оперативке), в будущем, я думаю, ситуация с многопроцессорными сопроцессорами будет только улучшаться.

BarsMonster Apr 30 2012 at 23:37

Там ограничение в межпроцессной коммуникации и передаче данных через PCI-E шину…

А у CPU — обмен данными через L3 кеш весьма медленный (и это если нам еще повезло, и не нужно в процессор на «соседнем» сокете идти).

a_v Apr 30 2012 at 19:46

А брать-то надо не среднее время выполнения, а наименьшее. Результаты выше минимального просто больше «пострадали» от отсутствия данных в кеше CPU, переключения процессов и др.

-3

BarsMonster May 1 2012 at 00:17

Стоп-стоп-стоп, отсутствие данных в кеше — это как раз ожидаемый фактор замедления работы алгоритма )

B08AH May 2 2012 at 01:47

Не совсем понял как работает такая многопоточность. Task Manager показывает сначала 8 потоков, а потом на 3-ем или 4ом проходе количество потоков на приложении увеличивается до 13ти.

По идее, если ограничить число потоков по количеству ядер, то будет меньше переключений, лучше доступ к памяти и т.п. Интересно было бы проверить, будет ли быстрее.

ЗЫ в инклюде присутствует future и chrono, это буст приходит в студию, или это уже входит стандарт c++11?

Show the best of all time