Wott Oct 21 2009 at 19:23

Квантификаторы в регулярных выражениях

8 min

74K

Regular expressions*

Tutorial

+105

Comments 40

Kakysha Oct 21 2009 at 19:41

О неужели, наконец-то я окончательно в них разберусь, спасибо большое, в закладки.

Wott Oct 21 2009 at 21:33

«Окончательно разобраться», в контексте регулярок, это — фантастика :)

+17

evilbloodydemon Oct 21 2009 at 21:43

джеффри фридл с книгой «регулярные выражения» для этого предназначен

pietrovich Oct 22 2009 at 01:52

вот только тираж был маловат. поэтому большинству она достанется в электронном виде ;)
была еще книжечка Бена Форта, попроще, но тоже может неплохо подсобить начинающим. тираж так же был плачевно мал…

SamDark Oct 22 2009 at 03:17

Нормальные там тиражи. Полёживает себе в книжных… никому не нужна.

-1

Andrey_Rogovsky Oct 21 2009 at 19:43

Можно ли одной строкой регекспов выбрать из стандартного лога вебсервера IP, которые запрашивают только один URL и больше никаких? У меня не получается, делаю в два прохода.

Wott Oct 21 2009 at 20:47

не уверен, но подумаю.

opeg Oct 21 2009 at 20:51

если nix то эфективнее сделать конвеером
grep «my.cool.site.com/forum/advertisement/..... » access | egrep -o "^[0-9\.]{8,16}"

opeg Oct 21 2009 at 21:26

небольшая поправка
тк ip бывают 1.1.1.1 = 7символов и 254.168.222.215 = 15 символов, то регулярка будте немного другой
grep «my.cool.site.com/forum/advertisement/.....» access | egrep -o "^[0-9\.]{7,15}"

Wott Oct 21 2009 at 21:24

Можно сделать негативным просмотром вперед и назад, но будет нещадно тормозить.
Лучше брать список адресов и выкидывать повторяющиеся.

Плюс, если ловим ботов, то пара обращений в период ротации и адрес проскочит, а если фильтрануть по времени, то можно случайно зацепить нормального юзера.

pietrovich Oct 22 2009 at 01:55

это я вно задача не для регулярок. точнее теоретически можно решить ими, но лучше не пробовать.
лучше за один проход по всему логу выберите уникальные IP + счетчик обращений к уникальным урлам, потом выкинте всех у кого урлов было больше одного. это потребует гораздо меньше мощностей чем танцевать с вокург ОГРОМНОГО лога с регулярками.

Error_403_Forbidden Oct 21 2009 at 20:00

Почитай в учебнике русского языка про ТСЯ/ТЬСЯ в глаголах

-15

Kalobok Oct 21 2009 at 20:34

Не только. Хорошо бы повнимательнее относиться к собственным текстам. Опечаток огромное количество, с мягкими знаками совсем беда:

"… пЕрсер каждый раз, видя варианты, ставитЬ так называемые..."
"… то парсер ее разложитЬ на два символа..."
"… можно в правой частЬ описать..."

Wott Oct 21 2009 at 20:55

Спасибо, то что нашел — исправил.
Глаз на текст мылится быстро :)

Kalobok Oct 21 2009 at 21:26

Да не за что. Спасибо вам за статью — хорошая.

UFO just landed and posted this here

Busla Oct 21 2009 at 21:04

это — хабрачитатель ;)

Wott Oct 21 2009 at 21:16

Это очень похоже на меня, когда в очередной раз врубаешся в то, почему рекэксп работает так как работает :)

UFO just landed and posted this here

ARSolog Oct 21 2009 at 21:16

Про жадность и производительность интересно.
вмемориз)

kikaha Oct 21 2009 at 21:56

Wott, спасибо! Ты первый, кому удалось донести хоть немного понимания как работают регулярки в мою башку!
С нетерпением жду продолжения!

Wott Oct 21 2009 at 22:11

Ага и тебе привет!

Воспринимай регулярки как короткую запись условий в цикле. Я может быть еще в эту сторону копну, если руки дойдут в исходниках покопаться.

Продолжения будут, но как время появится, — эта статья где-то 3 полных дня.

skazkin Oct 21 2009 at 22:42

А чем делались замеры?

Wott Oct 21 2009 at 22:58

На скриншотах — FF 3.5 c JS

labels = [ /id="run_test"/, /id="\w+"/, /id=".*test"/, /id=".*.*test"/, /id="[^t]*test"/, /id=".{4}test"/, /id=".*?test"/, /id=".*u.*test"/ ] ... for (var j in labels) { timeStart=new Date(); for(i=0;i<100000;i++) { str.search(labels[j]); } timeEnd=new Date(); save_score(j,timeEnd.valueOf()-timeStart.valueOf()); } * This source code was highlighted with Source Code Highlighter.

pietrovich Oct 22 2009 at 01:57

а мне больше нравится Expresso, но он для .NET-овских регулярок и с Javascriptэовскими имеет очень мало общего.
в нем и профайлер есть, поэтому тестировать можно прямо во время написания :")

Wott Oct 22 2009 at 02:08

JS имеет PCRE и четко прописан в стандарте.
Профайлер конечно хорошо, но без понятия что там наворотили в .NET.
Я в эклипсе пользуюсь плагином для Java.

pietrovich Oct 22 2009 at 04:23

в .NET все то же самое, но плюшек побольше. в принципе последние веяния в PCRE подтягивают кое-какие моменты до уровня .NETовской реализации, но к сожалению не все :(

Wott Oct 22 2009 at 07:42

Я бы сказал наоборот :) кроме именованных ссылок и классов символов остальное просто сплошное нарушение общепринятых стандартов.

YES Oct 22 2009 at 02:00

Извеняюсь за оффтоп.
Кто-нибудь знает как написать рег. выражение которое находит все кавычки " кроме экранированных \".
/[^\\]?"/ тут по барабану на экранирование,
/[^\\]{1}"/ почти работает, но если 1й символ кавычка то ее не найдет :(

Wott Oct 22 2009 at 02:19

как-то неловко задача поставлена.

вместо того что написано можно использовать негативный просмотр назад /(?<!\\)"/, но сразу скажу что для \\" оно не сработает, хотя экранирован слэш. Что бы корректно отработать любое количество слэшей перед кавычками нужно просматривать вправо, что приводит нас к тому что условия задачи надо поменять.

YES Oct 23 2009 at 03:41

вот такое решение придумал, оказывается все просто /([^\\\]{1}|^)\"/. спасибо за помощь.

meettya Oct 22 2009 at 02:41

Автор, есть к Вам пара вопросов :)
1. [^\"] — это Вы от какой неоднозначности пытаетесь уйти? Точнее — с ЧЕМ совпадет это конструкция?
2. Вам штакетник /(https?:\/\/|ftp:\/\/(\w+(:.+?)?@)?)([-a-z0-9]+\.)+[a-z]{2,4}/ мозг не выворачивает?
Берете и m#((https?|ftp)://)?(\w+(:[^@]+)?@)?([-a-z0-9]+\.)+[a-z]{2,4}# его. Ну и правите мелкие промахи в плане.

Wott Oct 22 2009 at 02:56

1. Я вроде подробно описал.
Неоднозначность возникает если парсер не найдет простой кавычки и будет возвращаться обратно. Например в этом случае: "\" — строка не закрыта, выражение не должно на ней срабатывать.
Инструкция [^\"] совпадает со всем кроме \ и ". Кавычки экранированные покроются \. в выборе, также как и любые слеши, а неэкранированные — конец просмотра. Я не экранировал символы, что очевидно по абзацу.

2. Нет не выворачивает. И вообще при этом обычно скобки как (?: ) идут и так далее. Таковы уж регулярки.
К сожалению я все реже и реже пишу в перле, а другие языки таких конструкций не понимают. Иногда приходиться работать с двойным штакетником, поскольку в строке слеши приходиться экранировать дважды. А в некоторых нотациях все метасимволы идут со слешами и ничё! :)

Да пароль так лучше выглядит.

meettya Oct 22 2009 at 03:13

2. Ну, есть обычно варианты забодать синтаксис как-нибудь витиевато.

1. /"(\\.|[^\\"])*"/ — хоть убейте понять не могу, какую строку мы парсим. Давайте с примером — правильным и неправильным.

Wott Oct 22 2009 at 07:46

«текст\»еще\«текст\n новая строка \\ после слеша» — покрывает
«незаконченная строка \» — не покрывает

Wott Oct 22 2009 at 07:47

сорри, так лучше:

"текст\"еще\"текст\n новая строка \\ после слеша" - покрывает
"незаконченная строка \" - не покрывает

bitman Oct 22 2009 at 06:35

Про тонкости multiline жду с нетерпением.

hardtop Oct 22 2009 at 09:06

Спасибо за разъяснения. В качестве пожеланий — можно приводить чуть больше примеров из жизни, чтобы получился небольшой cook book? Хотя, возможно, это тема для отдельного поста.

Wott Oct 22 2009 at 09:15

Специфика регулярных выражений в том что они пишутся для конкретных случаев, поэтому собирать регулярки в некий Cook book чревато ошибочным применением. Для популярных применений типа полного URL или e-mail есть в сети корректные варианты, но они все равно нуждаются в коррекции для используемого диалекта.

UFO just landed and posted this here

Show the best of all time