saluev May 10 2019 at 19:24

Должны ли строки в Python быть итерируемы?

3 min

Python*Programming*Designing and refactoring*

+17

Comments 21

resetme May 10 2019 at 19:43

Принцип единственной ответственности решает эту проблему и вряд ли стоит тащить код подобный как в статье в продакшн.

saluev May 10 2019 at 19:52

Код только для примера, разумеется.

iroln May 11 2019 at 01:52

Вот вполне себе production код, чтобы сделать "плоским" irregular list произвольной вложенности:

def flatten(l):
    for el in l:
        if isinstance(el, Iterable):
            for sub in flatten(el):
                yield sub
        else:
            yield el

И он не работает со строками если не добавить условие проверки на строку:

if isinstance(el, Iterable) and not isinstance(el, (str, bytes)):
    ...

Так работает.

un_def May 11 2019 at 13:49

произвольной вложенности

Это не так. Попробуйте сделать со своим кодом следующее (в CPython):

nested = reduce(lambda acc, _: [acc], range(sys.getrecursionlimit()), 0)
tuple(flatten(nested))

Получите RuntimeError: maximum recursion depth.

Если действительно нужно обрабатывать коллекции произвольной вложенности, можно использовать нерекурсивный подход (использовать свой стек).

А ещё в Python 3 можно использовать yield from:

def flatten(l):
    for el in l:
        if isinstance(el, Iterable):
            yield from flatten(el)
        else:
            yield el

iroln May 11 2019 at 14:13

Очевидно, что любая рекурсивная функция когда-то упрётся в recursion limit. Произвольная вложенность, конечно, в разумных пределах.

Про yield from понятно, но у меня подобный код используется в AsyncGenerator, где нет поддержки yield from.

h1pp0 May 11 2019 at 16:11

Это не только неочевидно, но ещё и неверно.
Например алгоритм Евклида для поиска наибольшего общего делителя хорошо работает и в рекурсивном виде для обычных чисел. При этом именно такая реализация является самой наивной, лёгкой для восприятия.

iroln May 11 2019 at 16:47

Да, я неверно написал. Конечно, не любая, а которая достигает терминального состояния глубже чем заданный предел рекурсии. Но утверждать, что рекурсивная функция некорректна только из-за того, что она может достичь какого-то заданного предела глубины рекурсии, не перейдя в терминальную ветвь, тоже неверно.

h1pp0 May 11 2019 at 18:06

Возможно, это будет уже придиркой, но вы писали не просто про корректный, а про production код, а к нему более жёсткие требования. Вряд ли функция, которая ломается от массива с ~тысячей элементов может им удовлетворять.

Cykooz May 10 2019 at 22:14

В питоне просто нет отдельного типа данных для хранения одного символа (юникодный аналог char из C). Поэтому даже один символ — это строка. И хоть __iter__ и итерируется по «символам», но возвращает он всётаки строки.
Совсем другое дело с типом bytes, для его элементов в питоне есть специальный тип — byte. И для него всё как бы нормально — итератор возвращает «числа», а не bytes с длиной в один байт.

ZyXI May 10 2019 at 22:51

Вообще‐то, итератор по bytes возвращает int. Может, где‐то внутри и есть тип byte, но пока что я вижу, что type(next(iter(bytes(b'abc')))) is int, а обращение к byte вызывает NameError. А в Python2 вообще bytes is str.

Cykooz May 10 2019 at 23:39

Да, с byte это я нагнал конечно, не проверил.

Magikan May 10 2019 at 23:44

ну это Вы конечно дали гари. видимо впервые столкнулись с некоторыми странностями в питоне и «пригорело»)) Вас ждёт множество удивительных открытий

saluev May 11 2019 at 00:20

Упс, не угадали.

Magikan May 11 2019 at 00:32

тогда я не понимаю чему Вы так удивляетесь в поведени строк. Да это странно, но так было как минимум с версии 2.2 (как было раньше не знаю). И как бы печально это не звучало, но всегда приходится писать отдельный «if» для строк в подобных универсальных методах для рекурсивных обходов. Да прочая добрая половина стандартных типов требуют повышенного внимания в рекурсивных алгоритмах

saluev May 11 2019 at 00:52

Если в апи есть проблема, её надо обсуждать и находить пути решения. Главным образом этой статьёй я хотел узнать, один я ли вижу проблему или она действительно есть.

Magikan May 11 2019 at 01:07

сложно не согласиться. проблемы надо выводить на чистую воду. Однако давай рассудим логически: за 12 лет в апи строк в этом направлении изменений не было (если моя память не спит с другим). были ли вопросы подобные Вашему — конечно да и не одна сотня, а то и не одна тысяча. Я лично не встречал в рассылках упоминаний, что тут планируется что-то менять, сообщество это просто приняло и не бунтует (возможно зря, кто знает). И чтобы добраться до истины существует только один правильный путь — спросить автора))

funny_falcon May 10 2019 at 23:48

В ruby 1.8.х у строки был метод each (практически аналог __iter__ в руби) https://ruby-doc.org/core-1.8.7/String.html#method-i-each, который итерировался по "линиям" (и был алиасом к each_line). Это лучше, чем по символам, но всё равно мешал.
В 1.9.1 его выкинули. Оставили each_line, each_byte и each_char.

iroln May 11 2019 at 01:46

Что можно сделать?

В подобном коде нам остаётся только добавлять условие для проверки строк:

if isinstance(foo, Iterable) and not isinstance(foo, (str, bytes)):
    ...

Ulys-ses Dec 20 2021 at 14:50

Реальный случай: клиент в JSON вместо списка строк передал строку. И код работал, итерируясь по символам строки.

saluev Dec 20 2021 at 15:08

Справедливости ради, конкретно в вашей ситуации проблема в отсутствии строгой валидации схемы, а не в питоне.

Ulys-ses Dec 20 2021 at 15:50

Не совсем. Это решение может состоять в строгой валидации. А проблема именно в типизации Питона.

Show the best of all time