ru_vds Aug 1 2018 at 12:26

Python — это медленно. Почему?

9 min

84K

RUVDS.com corporate blogWebsite development*Python*

Translation

+51

Comments 55

SirEdvin Aug 1 2018 at 13:13

Я ссылаюсь на The Computer Language Benchmarks Game уже больше десяти лет.

Больше десяти лет ссылаться на такой бесполезный источник. Этим можно гордится?

Javian Aug 1 2018 at 13:20

Как вы решаете проблемы невысокой производительности Python?

Для особой задачи существуют особый инструмент. Проблема производительности не должна волновать, если выбран Python. Если же этот вопрос стоит, то вы ошиблись в первоначальном выборе инструмента для решения задачи. В общем случае в сравнении C, C++ и JAVA, программный код на языке Python проще писать, отлаживать и сопровождать.

А так пробовать CPython, Jython, IronPython.

+10

artskep Aug 1 2018 at 15:47

В общем случае в сравнении C, C++ и JAVA, программный код на языке Python проще писать, отлаживать и сопровождать

Я бы добавил "в определенных задачах". С и плюсы, как компилируемые, конечно, имеют вынужденные сложности с разработкой, но java и прочие интерпретируемые строго типизированные языки при определеном размере кода могут быть проще в написании (IDE, как правило, проще работать с языками "построже"), и в сопровождении (проверки на уровне компиляции это хорошо — в слишком гибких языках regression можно отслеживать только тестами. Не, TDD это неплохо, но когда тест надо писать на любой чих, чтобы ничего не свалилось, то это сомнительное свойство языка)

Femistoklov Aug 2 2018 at 08:29

Именно так. У кроваво-энтерпрайзных языков есть свои преимущества. Не представляю, как тонну легаси говнокода на плохо типизированном языке можно сопровождать, проще наверно застрелиться. А в Java и C# такое — сплошь и рядом.

Neikist Aug 2 2018 at 09:12

1С) С трудом, но можно.

nikitasius Aug 2 2018 at 12:50

Не надо кидаться в Java и равнть к другим. Легаси код понятие растяжимое: ему 1 год, 3 или 10 лет?
Тем более не забываем об анализаторах, которые умеют подсказывать (если уж не сам писал проект), где, что и как поменялось и что более не юзается в выбранной версии языка для проекта.
Далее, если речь идет о чистой Java (конечно с внешними либами, но без совсем уж жирных, которые именуют себя фреймворками), то там все просто и понятно, под свою задачу, есессно.

-1

evgenyk Aug 1 2018 at 14:06

Я давно работаю на питоне и с «проблемами невысокой производительности» пока не сталкивался.
Но, например, если бы мне нужно было бы обсчитать массив чисел, и производительности бы не хватало, сегодня я попробовал бы связку Python+Numpy+Ctypes и поробовал бы написать работу с массивом чисел на Си и дергать ее из питона.
Ну или Cython, но не факт, что получиться написать быстрее, чем на Python+C. Я имею в виду скорость разработки.

artskep Aug 1 2018 at 19:24

Насколько я понимаю, описанная в статье проблема имеет влияние только когда есть много потоков, конкурирующих за процессор.
Во многих реальных задачах потоки ждут i/o операции большую часть времени, так что это может быть незаметно. На 100%cpu нечасто приходится работать. А в devops или нехитрой оптимизации (где питон часто используется и, на мой взгляд, особенно хорош) вообще ни о чем

evgenyk Aug 1 2018 at 19:32

Можно вместо потоков использовать процессы. И тогда GIL неактуален. Но, питон и сам по себе не очень шустрый. Но в 90 процентов случаев скорости вполне хватает.

artskep Aug 1 2018 at 20:47

Ну да — в этом сама суть.
Питон "человеческий" язык со своей областью применения.
Натягивание совы на глобус, чтобы быть "лучшим" языком… возможно, а оно надо?
Хайп вокруг питона последнее время меня смущает: никто не говорит, что скрипты на bash для автоматизации чего-то сложнее ls|grep|wc выглядят, как порождение марсиан, но, как только в питоне изменился синтакс print или ввели новые операторы — все дружно обсуждают кризис языка

AlexPancho Aug 1 2018 at 15:54

Как вы решаете проблемы невысокой производительности Python?

Учу Crystal

mr_bag Aug 1 2018 at 16:50

Nim?

UFO just landed and posted this here

freecoder_xx Aug 2 2018 at 13:35

Rust тоже выглядит неплохо )

UFO just landed and posted this here

Neikist Aug 1 2018 at 16:46

А что за изменения? А то подумываю перейти на него.

UFO just landed and posted this here

AhJong Aug 1 2018 at 19:19

Так Гвидо был прав с := и те, кто не понимал, зачем предлагается такая конструкция просто его задолбали.

elixirkmc Aug 1 2018 at 18:00

Наверное, имеется в виду что-то из последнего самого скандального PEP 572.

Sly_tom_cat Aug 1 2018 at 18:49

:= и «самоснятие короны» — в новостях все было и было бы трудно пропустить если вы интересуетесь Python-ом.

Neikist Aug 1 2018 at 20:26

Обе видел, но я лично не вижу ничего плохого ни в том ни в том, боялся увидеть в ответ что то вроде изменения лицензионной политики, уход в конкретную прикладную область самого языка (веб, анализ данных, т.п.), раскол на несколько разных веток и подобное. А тут всего лишь небольшие изменения синтаксиса и уход важной фигуры немного в сторону.

Zanak Aug 1 2018 at 19:35

С уходом Гвидо, для широкой публики возникло определенное недопонимание, как будут приниматься решения о развитии языка. Не факт, что и раньше много людей знало, как это происходило, но была легенда, что Гвидо ван Россум — это тот человек, за которым остается последнее слово, и он не допустит необоснованных нововедений.
Пример деградации проекта, из за непродуманных действий — это ситуация с perl. Сколько лет уже пилят 6 версию, но стандартом она так и не стала. Сам язык есть, но это все еще 5 версия, которая осталась в своей нише, но это совсем не то, что было во времена рассвета.

Stas911 Aug 1 2018 at 21:52

А сколько лет параллельно живут 2 и 3 версии Питона?

Zanak Aug 2 2018 at 05:45

Как утверждает википедия, версия питона 3.0 вышла 3 декабря 2008 года. Учитывая, что объем изменений в третьей ветке довольно велик, в прод python3 ушел где — то с версии 3.3, т. е, года 4 спустя.

mr_bag Aug 1 2018 at 16:52

С нетерпением жду возможность использовать обязательное указание типа и умение cpython использовать эту информацию для ускорения.

kalininmr Aug 2 2018 at 11:38

Cython и RPython вроде именно такие

chupasaurus Aug 2 2018 at 15:35

в геймдеве, например, только для скриптинга…

Маленькая инди-игра EVE Online всё ещё на Stackless Python в клиенте и серверах, производительность затыкалась вставками C/C++.

UFO just landed and posted this here

mapron Aug 1 2018 at 18:31

Причиной невысокой производительности Python является его динамическая природа и универсальность.

Что-то статья как-то резко оборвалась. В начале рассматривалось сравнение с Javascript — там же почти все тоже самое, нет? Неужели при обращении к переменной ее тип не проверяется, в чем принципиальная разница?

inv2004 Aug 1 2018 at 19:23

Не могу сказать по составляющей, но у меня был одинаковый код на python и nodejs (описал комментом ниже). nodejs была заметно быстрее питона, но, к сожалению, у меня она не прижилась, так как питоновские биндинги типа numpy естественно выиграли у нативных JS-решений, не говоря уж о ML.

AndreyHenneberg Aug 7 2018 at 20:54

Код на NodeJS работает быстрее из-за того, что JS-движок V8 как раз с JIT-компилятором. При этом, насколько я помню попадавшуюся информацию, он сразу весь код компилирует в машинный. Не так круто, как Си или Си++, скорее, как JIT-компилятор JVM, но зато всё сразу.

Информация из разряда «когда-то мимо пробегало», потому что JS не зашёл: пишу на Python и C/C++. Если ошибаюсь, буду рад узнать более точные сведения.

inv2004 Aug 1 2018 at 19:20

Расскажу свой случай:

Написал некий подбор параметров для вычисления. сначала сделал это на Rust, заняло довольно много времени, так как это был первый подход к расту, без каких-то особенных оптимизаций получилось вполне примлемо: ~4млн данных подбирало 7 параметров (где-то 12млн комбинаций) на домашнем i5-7500 около 5 часов.

Потом захотелось добавить ML, естественным выбором для этого был питон. ML подсчитал всё что надо, но я подумал, что питон такой модный и молодёжный, что почему бы не попробовать его применить глубже.

сначала с pandas — скорость была такая, что он и 1k данным считал больше минуты — это ни в какие ворота. Переписал всё исключтельно на numpy — скорость стала вполне приличной.
Но всё не верторизируешь, и одним numpy сыт не будешь — добавил перебор параметров как было раньше — и с каждым лишним if программа проседала на порядки, в итоге ETA подсчёта того что я описал в первом обзаце, показал что оно будет считаться несколько месяцев, что очень резко охладило желание использовать питон где-то за пределами ML.

fireSparrow Aug 1 2018 at 22:08

сначала с pandas — скорость была такая, что он и 1k данным считал больше минуты — это ни в какие ворота. Переписал всё исключтельно на numpy — скорость стала вполне приличной.

Но ведь у pandas под капотом как раз numpy крутится, не может у них быть какого-то значимого различия в скорости. Возможно, вы в первом случае просто что-то сделали не так.

inv2004 Aug 1 2018 at 22:18

там код довольно простой: вначале было переписано 1 в 1 и прирост был сразу. потом ещё уже на numpy оптимизировал.

Arseny_Info Aug 2 2018 at 00:47

pandas довольно медленный (особенно если его неправильно готовить, например, итерировать по строкам). Даже в простых случаях накладные расходы сильно тормозят:

In [38]: arr = np.random.rand(1000, 10000)

In [39]: df = pd.DataFrame(arr)

In [40]: %timeit arr.mean(axis=1)
4.62 ms ± 114 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [41]: %timeit df.apply(np.mean, axis=1)
109 ms ± 1.43 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [42]: np.all(arr.mean(axis=1) == df.apply(np.mean, axis=1))
Out[42]: True

inv2004 Aug 7 2018 at 21:04

не итерировал. была одна группировка. аналогичное на сыром numpy работало значительно быстрее.

Slasher111 Aug 1 2018 at 19:21

Удивительно, что в статье не упомянули numba. На мой взгляд, это самый простой, но при этом очень мощный способ увеличения производительности при минимальных изменениях в исходном коде.

Akafe Aug 1 2018 at 19:21

Все это уже давно известно, ничего нового, никакого углубления в суть. Вот если бы автор, например, взял пример какой-нибудь функции на python и проанализировал ее байт-код, замерил бы скорость его компиляции и интерпретации и по регистрам проанализировал получившийся в итоге нативный код, сравнив его с аналогичным результатом на c# или c++, тогда я б поклонился. Была бы видна незаурядная работа, а так просто перечень общеизвестных истин. Кстати, что cpython делает с байт-кодом в pyc файлах? Он его просто интерпретирует, не компилируя в нативный, или каждый раз перекомпилирует? — из статьи так это и не ясно

AndreyHenneberg Aug 7 2018 at 21:01

Кстати, что cpython делает с байт-кодом в pyc файлах? Он его просто интерпретирует, не компилируя в нативный, или каждый раз перекомпилирует?

Именно интерпретирует. Перекомпиляцию производит, если изменяется исходный код. Как определяет, я не в курсе, просто не было интересно. По сути, сохранение этих файлов несколько ускоряет запуск программы.

saaivs Aug 1 2018 at 20:27

Oracle не так давно достаточно интересно подошла к рантайму для различных языков программирования, включая Python, и предварительные результаты для динамических языков выглядят вполне неплохо youtu.be/mMmOntDWSgw?t=678. С учетом того, что GraalVM позволяет генерировать в том числе и нативный код, то в теории увеличивается не только общая производительность, но и время старта программ.

sshikov Aug 1 2018 at 22:02

Ну, пока это не питон, а скорее эксперимент. Они сами это честно пишут.

alexeygrigorev Aug 1 2018 at 21:14

Стоит добавить про numba — в некоторых случаях очень хорошо ускоряет код

alec_kalinin Aug 1 2018 at 22:59

Ключевые слова: процессы, asyncio, numpy, cupy, numba, cython решают все проблемы с производительностью.

lorc Aug 1 2018 at 23:08

Питон — это не числодробилка. 99% времени программа на Питоне чего-нибудь ждет: ответа от БД, чтения данных с диска, прихода пакета по сети, пользовательского ввода.

Если мне нужна числодробилка, я напишу программу на С (может даже с OpenCL). Если мне нужна программа, которая вычитывает из последовательного порта данные, пакует их в XML и пуляет на удаленный сервер по HTTPS с авторизацией по сертификатам — я напишу ее на Python. Потому что так проще, удобнее и быстрее.

AndreyHenneberg Aug 7 2018 at 21:07

Потому что Python это язык для управления обвесом и высокоуровневой логики. А числодробилку запихивают в тот самый обвес. Например, в NumPy. И не пытаются пробивать лбом стену.

korizza_spb Aug 2 2018 at 07:29

ну так есть же форки процессов в питоне, и ими активно пользуются для распараллеливания выполнения задач.

Elrond16 Aug 2 2018 at 10:35

Как вы решаете проблемы невысокой производительности Python?

Поскольку Python все более и более популярен в научной среде, эта проблема решается использованием библиотек с высокой производительностью. Для многих вычислительных задач и обработки данных хватает производительности numpy, scipy, numba, pandas. Для чего-то более хитрого можно написать основную часть на C/C++/Cython, а Python использовать как высокоуровневую обертку. Еще есть Dask, который для определенных задач обещает довольно простой параллелизм, масштабируемый до суперкомпьютеров, но я им пока не пробовал пользоваться.

Javian Aug 2 2018 at 15:57

+ расширения SciPy и ScientificPython

nafikovr Aug 2 2018 at 10:41

скорость выполнения может и не очень, но скорость разработки сервисных утилит просто решает.
PS: PyQt отлично помогает избавиться от проблем производительности в GUI.

lega Aug 2 2018 at 11:03

и используемые потоки будут интенсивно использовать подсистему ввода-вывода (например, если они будут работать с сетью или с диском), тогда можно будет наблюдать последствия того, как GIL управляет потоками. Вот как это выглядит в случае использования двух потоков, интенсивно нагружающих процессов.

«Смешались люди-кони», как раз IO работа параллелится замечательно, а вот для CPU нагрузки* потоки не помогут.
Но это опять же зависит от задачи, если вы будете делать задачу сжатия данных (архиватор), то решение по скорости будет сопоставимо с С/С++.
Питон надо рассматривать как «мастер»-язык (код который управляет другим кодом), поэтому хорошо знать не просто питон а связку Python-C++ или Python-Cython, тогда вопросы скорости отпадут.

0serg Aug 2 2018 at 12:56

Питон в целом плохо подходит для высокопроизводительных задач. Это не его ниша. На нем удобно всякие инструменты создавать да прототипы.
Но если все же надо его то numpy (при правильном применении) или какая-нибудь другая domain-specific библиотека дает прекрасную однопоточную производительность сочетая скорость C с удобством Python.
Чисто питоновские решения следует запускать на PyPy — это дает ускорение на порядок а то и на два.

saipr Aug 7 2018 at 12:43

А я все же рекомендую использовать старый добрый и надежный tcl.

sairus777 Dec 30 2019 at 16:11

Уважаемые читатели! Как вы решаете проблемы невысокой производительности Python?

Переходом на Julia.

MRomaV Nov 8 2020 at 02:15

.NET CIL (это то же самое, что .NET Common-Language-Runtime, CLR)

CIL далеко не то же самое что и CLR!!!

CrazyElf May 17 2023 at 12:21

Да, в Python приходится думать что, как и почему. Но вариантов ускорить работу кода — море.

Самый хороший способ — векторизация. Если есть возможность работать не с отдельными числами, а с массивами, а ещё лучше с матрицами, то надо так и делать — передавать массивы/матрицы и работать с ними прямо целиком. Тогда и Numpy, да и Pandas тоже, вполне себе летают.
Если векторизировать нельзя и нужно обрабатывать отдельные числа внутри длинных циклов, то можно попробовать Numba, она с такими случаями хорошо справляется.
Если есть предположение, что при обработке могут повторяться одинаковые данные, с которыми производятся "тяжёлые" вычисления, то хорошо работает кэширующий декоратор @functools.lru_cache
Если простаивают ядра процессора, то можно использовать в каких-то случаях Dask (хотя у меня с ним всё время глюки вылазили, может просто я его не умею готовить), а в каких-то простейший Pool по парадигме map -> reduce. При грамотном подходе (достаточном размере порций и равномерности разбиения данных) это даст реальное ускорение, близкое к числу ядер процессора. Главное, не вылезать за память при этом. Как показывает практика, крэша при этом не будет (что меня удивило), но активная работа со свопом гасит весь эффект от ускорения.