Комментарии 2
Прикольный обзор, но его практическая ценность сомнительна.
Сортировка — не тот процесс, которые отъедает пресловутые 80% времени в пайплайнах датасаенса (даже не 20%). Здравый смысл и опыт подсказывают, что на чем лопатишь данные (numpy/pandas/etc) — средствами той библиотеки их и сортируй, тогда эта сортировка занимает одну строку, да?
Всё же 0.2сек на сортировку 1kk чисел — это не ужас-ужас, так что
Сортировка — не тот процесс, которые отъедает пресловутые 80% времени в пайплайнах датасаенса (даже не 20%). Здравый смысл и опыт подсказывают, что на чем лопатишь данные (numpy/pandas/etc) — средствами той библиотеки их и сортируй, тогда эта сортировка занимает одну строку, да?
В Vanilla Python сортировка на месте происходит на удивление медленно...Это — плата за универсальность. Попробуй сортировку массивов из объектов в numpy/pandas, и всё станет на свои места.
Всё же 0.2сек на сортировку 1kk чисел — это не ужас-ужас, так что
Используйте встроенную сортировку питона по умолчанию для исследования относительно небольших наборов данных.Тем более, что
Timsort и, соответственно, Vanilla Python, постоянны.Timsort устойчив, дорогой переводчик, ваш эпитет «определенный» был о том же. А Python — чистый.
Если вы хотите использовать GPU для сортировки, прикрепите .cuda() к концу вашего тензора.Берегите себя.
+3
А почему у вас в столбце Best используется омега? Это же ограничение снизу.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Шпаргалка по сортировке для Data Science