0dmin 7 сен 2013 в 23:28

Разбор регулярных выражений

1 мин

100K

Веб-разработка*Регулярные выражения*

+89

Комментарии 53

J_o_k_e_R 8 сен 2013 в 00:07

стиль регулярных выражений: PHP

Мне кажется, что стоит уточнить как минимум как на самом сайте: PHP -> PHP (PCRE), так как, например, лично я первым делом подумал про регэкспы из перла и sed'а.

0dmin 8 сен 2013 в 03:29

Ну PCRE — это же Perl Compatible Regular Expression. Я perl не знаю, но подозреваю что синтаскис совместим =)

bolk 8 сен 2013 в 09:35

Совместим но не на 100%. И всё-таки PCRE — это не PHP, это PCRE. В PHP вообще три синтаксиса регулярных выражений: нерекомендуемый сейчас POSIX (ereg), Oniguruma (mb_ereg) и PCRE (preg).

vsespb 8 сен 2013 в 22:32

Регэкспы в Perl реализованы не с помощью PCRE

VolCh 10 сен 2013 в 02:22

Удивительно :)

bolk 8 сен 2013 в 09:31

«Из Перла и Седа»? Они там разные.

vadimzz 8 сен 2013 в 00:17

Логотип явно спёрли :)

-7

AraneusAdoro 8 сен 2013 в 00:31

Это самодеятельность автора статьи :) На самом сайте такого нет.

+13

vadimzz 8 сен 2013 в 00:56

Я никого не обвинял конкретно :) Просто констатировал факт

naum 8 сен 2013 в 01:17

Мне кажется, что логотип FedEx'а и стеб автора различит 99.9% жителей Хабры.

+34

MrEsp 8 сен 2013 в 12:14

Это так, но заминусовали то зря человека :)

Dimcore 9 сен 2013 в 15:18

Ну капитанов тут не очень-то и любят

VolCh 10 сен 2013 в 02:23

Для меня откровением было. Как-то никакого чувства узнавания не возникло.

m4rr 8 сен 2013 в 13:59

На самом сайте, кстати, логотип гораздо симпатичней.

Funcraft 10 сен 2013 в 14:50

У меня, кстати, цветовая схема сассоциировалась (да простит меня Русский язык) с JetBrains PhpStrom'ом (:

Quiz 8 сен 2013 в 05:38

Спасибо, кэп.

AraneusAdoro 8 сен 2013 в 00:30

Было бы совсем здорово, если бы этот сервис выдавал примеры строк, подходящих под регэксп.
А вообще, Regexper, имхо, нагляднее. Даже на примере с КДПВ (/h[a4@](([c<]((k)|(\|<)))|((k)|(\|<))|(x))\s+((d)|([t\+]h))[3ea4@]\s+p[l1][a4@]n[3e][t\+]/i — для ленивых)

maksqwe 8 сен 2013 в 00:33

Было бы совсем здорово, если бы этот сервис выдавал примеры строк, подходящих под регэксп.

Ох как не хватает когда начинаешь разбираться в чужом регэкспе. И приходится заново писать свой, а в итоге через часок мучений получался такой же, было такое. Увидев новость сразу понадеялся на эту фичу, но не тут то было :(

asm0dey 8 сен 2013 в 09:38

Есть вот такая штука:
bitbucket.org/leapfrogdevelopment/rstr/
У неё есть метод xeger(), которая умеет то, что вам надо. Насколько хорошо работает — не проверял. Думаю, что вокруг неё навернуть тривиальный web-интерфейс тоже не проблема.

hellman 8 сен 2013 в 12:47

Поиск строки подходящей под регэксп — NP-полная задача. Конечно, для большого подмножества регэкспов это сделать несложно и этого подмножества хватит за уши для регэкспов, попадающихся на практике.

AraneusAdoro 8 сен 2013 в 12:50

А ведь Regexper (или Debuggex?) раньше такое умел. Безо всяких lookaround'ов (про это подмножество речь?) строку вообще поблочно можно построить, поправьте, если вру.

hellman 8 сен 2013 в 12:52

Да, lookaround'ы и бэкреференсы, насколько я знаю

z0rg 8 сен 2013 в 13:40

К линку www добавьте, иначе облом. Спасибо за сервис. А так чтобы наоборот, составлять графы в выражение?

AraneusAdoro 8 сен 2013 в 16:23

Есть такая интересная штука, как вербальные выражения: /^(http)(s)?(\:\/\/)(www\.)?([^\ ]*)$/ становится

var tester = VerEx()
            .startOfLine()
            .then( "http" )
            .maybe( "s" )
            .then( "://" )
            .maybe( "www." )
            .anythingBut( " " )
            .endOfLine();

Достаточно читаемо.

z0rg 8 сен 2013 в 17:29

Я имел ввиду именно визуальный редактор, а не вербальный.

НЛО прилетело и опубликовало эту надпись здесь

asm0dey 8 сен 2013 в 15:07

habrahabr.ru/post/192920/?reply_to=6701148#comment_6700856

С момента комментария успел чуть поэкспериментировать, вроде работает прилично, даже на регулярке для проверке емэйлов. Генерит правда такой ад, что страшно делается от осознания того, каким может быть адрес :-)

Funcraft 10 сен 2013 в 14:55

Regexper неплох (:

asm0dey 8 сен 2013 в 08:50

Да, разбор знменитого регэкспа для валидации email впечатляет:
regex101.com/r/lP7vL3

shadowjack 8 сен 2013 в 11:45

Да и просто раскрашенный регексп круто выглядит. Подумываю распечатать на цветном принтере и повесить над рабочим местом :-)

НЛО прилетело и опубликовало эту надпись здесь

mukizu 8 сен 2013 в 14:01

разбор в www.debuggex.com/ впечатляет куда сильнее… www.debuggex.com/r/Db8mjii2FkMI2Qtv/0

НЛО прилетело и опубликовало эту надпись здесь

simbajoe 8 сен 2013 в 18:45

Теперь намного понятнее!

jMas 8 сен 2013 в 09:09

Похож на www.rubular.com с дополнительными фичами. Спасибо!

grundic 8 сен 2013 в 10:07

Недавно обнаружил www.debuggex.com/ — по-моему, самый лучший сервис. Представляет в визуальном виде регулярку и очень помогает в их написании.

monolithed 8 сен 2013 в 11:43

Шикарно!

НЛО прилетело и опубликовало эту надпись здесь

kyberorg 8 сен 2013 в 12:32

Классная вещь, которая заодно позволяет вспомнить дискретку с её конечными автоматами.

monolithed 8 сен 2013 в 11:45

В IDEA испоьзую Regex Tester:

НЛО прилетело и опубликовало эту надпись здесь

GeraSera 8 сен 2013 в 12:25

Еще есть www.pcre.ru/eval/

-1

zaartix 8 сен 2013 в 12:43

В общую копилку: gskinner.com/RegExr/

falc 8 сен 2013 в 15:27

Туда же regexpal.com/

НЛО прилетело и опубликовало эту надпись здесь

eZzZz 8 сен 2013 в 16:12

Мне весьма понравился этот тестер: rubular.com/

meettya 8 сен 2013 в 17:38

Вот лучше бы Фридла почитали, чтобы вместо ужаса типа
(www\.[A-z\d\.\+\-]+) было что-то типа /(w{3}\.[-a-z\d+.]+)/i

-1

macik_spb 8 сен 2013 в 21:09

А что быстрее работать будет «www» или w{3}? Что-то логика мне подсказывает, что второй вариант будет сопоставим по скорости только если библиотеку писали пряморукие люди.

meettya 9 сен 2013 в 02:03

Что-то мне подсказывает, что криворукие люди не напишут в продакшен машину регулярных выражений.

А что быстрее будет работать — честно говоря пофик, микрооптимизации меня никогда не интересовали.

macik_spb 9 сен 2013 в 04:45

Подумал. Второй вариант всегда будет чуть медленнее (опять же при допущении пряморуких), т.к. будет некоторый оверхед на разбор скобок и поиск выражения в них.

Это не камень в ваш огород, просто в данном, конкретном примере w{3} выглядит как раз, как некая микрооптимизация. Причем в данном случая я не могу понять ее смысл.

Source 10 сен 2013 в 01:58

Скорее это выглядит как выпендрёж, т.к. во-первых «www» слегка читабельнее, чем w{3}, а во-вторых содержит меньше символов и даже набирается быстрее xD
А вот в том, что [A-z\d\.\+\-] — это ужас, meettya полностью прав, особенно «A-z» доставляет… хотя… вдруг это хитрая оптимизация чтобы захватить символы между Z и a :-)

macik_spb 8 сен 2013 в 21:30

Отличный сервис.
Чего не хватает:
— помощи по флагам, как например в указанном ранее www.debuggex.com/
— дебаггера как в RegexBuddy, что очень помогает отлаживать выражения, а главное оптимизировать по скорости (правда такого я онлайн пока не видел).

timukas 9 сен 2013 в 12:43

На regex101.com/ правило (поиск внутри кавычек):
(?>(?<!\\)(?>"(?>\\.|[^\\"]+)+"|""|(?>'(?>\\.|[^\\']+)+')|''|(?>`(?>\\.|[^\\`]+)+`)|``))
вылавливает только первое совпадение.

rubular.com/ и gskinner.com/RegExr/ находят все кавычковые блоки.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Разбор регулярных выражений

Комментарии 53

Публикации

Истории