Шпаргалка по сортировке для Data Science / Комментарии / Хабр

longclaps 17 июн 2020 в 07:56

Прикольный обзор, но его практическая ценность сомнительна.

Сортировка — не тот процесс, которые отъедает пресловутые 80% времени в пайплайнах датасаенса (даже не 20%). Здравый смысл и опыт подсказывают, что на чем лопатишь данные (numpy/pandas/etc) — средствами той библиотеки их и сортируй, тогда эта сортировка занимает одну строку, да?

В Vanilla Python сортировка на месте происходит на удивление медленно...

Это — плата за универсальность. Попробуй сортировку массивов из объектов в numpy/pandas, и всё станет на свои места.

Всё же 0.2сек на сортировку 1kk чисел — это не ужас-ужас, так что

Используйте встроенную сортировку питона по умолчанию для исследования относительно небольших наборов данных.

Тем более, что

Timsort и, соответственно, Vanilla Python, постоянны.

Timsort устойчив, дорогой переводчик, ваш эпитет «определенный» был о том же. А Python — чистый.

Если вы хотите использовать GPU для сортировки, прикрепите .cuda() к концу вашего тензора.

Берегите себя.