leron Nov 8 2011 at 21:22

Поиск в строке. Реализация в CPython

4 min

8.1K

Python*

+49

Comments 10

aNDREIQA Nov 8 2011 at 22:53

а чему будут равны O(n) и o(n)?
Спасибо за статью.

-5

leron Nov 8 2011 at 23:10

— sublinear search behaviour in good cases (O(n/m))
— no worse than the current algorithm in worst case (O(nm))

отсюда — effbot.org/zone/stringlib.htm

UFO just landed and posted this here

Dark_MX Nov 9 2011 at 04:59

Немного визуализации....

а вот за это, отдельное спасибо. Сразу понял как работает.

mrjj Nov 9 2011 at 05:11

Отличная статья.

el777 Nov 9 2011 at 12:47

Как насчет utf8 и многбайтных символов?

leron Nov 9 2011 at 13:22

Я не нашел других реализаций поиска специально для неоднобайтовых кодировок, так что могу предположить что они сравниваются побайтово.

cblp Nov 9 2011 at 13:58

Слова «STRINGLIB_BLOOM_WIDTH может принимать значения 32, 64, 128» как бы намекают нам, что речь идёт о UCS-4/8/16. UTF можно предварительно преобразовать в UCS, это всего лишь добавит O(n).

valzevul Nov 9 2011 at 14:54

Визуализация отличная. Спасибо.

GabrielViolet Feb 13 2012 at 18:00

а почему бы не использовать difflib?
Пример велосипеда по поиску общей подстроки для двух строк

def get_subline(str_first, srt_second):
    s = difflib.SequenceMatcher(None, str_first, srt_second)
    match = s.find_longest_match(0, len(str_first), 0, len(srt_second))
    return str_first[match[0]:match[0]+match[2]].strip()
</python>

Show the best of all time