Lattyf Jan 17 2011 at 18:15

Тонкости регулярных выражений. Часть 1: метасимволы внутри и вне символьных классов

5 min

16K

Regular expressions*

+56

Comments 69

Coderr Jan 17 2011 at 18:32

некоторые бояться их как огня
Это про меня :)

Регулярок ужасно боюсь, а часто нужны… Спасибо большое, жду следующей части!

Palehin Jan 17 2011 at 19:16

Есть хорошая книга «Дж. Фридл — Регулярные Выражения».
Поверьте, они не кусаются)

Lattyf Jan 17 2011 at 22:21

Причем перевод тоже очень хорош.

tyhon Jan 17 2011 at 23:49

Прочитал когда-то эту книгу, после прочтения стало все на свои места.
Всем рекомендую)

YaakovTooth Apr 3 2011 at 21:22

Яростно подтверждаю. Ссался и боялся до уссачки. Яндекс выдал первым мануалом — Фридла. Сейчас я не знаю как я жил без регулярок — работа в шелле, скрипты, веб-скрипты — всё с регулярками.

Даже работа в блокноте и та — только с регулярками.

NRinat Dec 20 2020 at 23:57

Одна из тех книг, которые каждый культурный айтишник обязан прочитать )
Книга великолепна, перевод великолепен!

BlackStream Jan 17 2011 at 21:33

Если с ними поработать на каком нибудь практическом примере, то они совсем и не такие страшные окажуться, а через некоторое время возникнет вопрос: «Как же я раньше без них обходился???».

pro100tak Jan 17 2011 at 22:02

парсер чужих страниц с совершенно разной семантикой и различными данными, которые нужно получить. HTML структурирован и идеально подходит не просто для тренировки в регулярных выражениях, но и поиска закономерностей и опорных точек для выделения нужного результирующего литерала

-1

seriyPS Jan 17 2011 at 22:04

XPath для этого подходит гораздо лучше

pro100tak Jan 17 2011 at 22:07

мой пример — парсинг заранее заданных 100 страниц с выдёргиванием не только «нужных» ссылок, но и текста в них (а если не текст, но картинка — скачать её к себе) — всё это в условиях незакрытых тегов и т.д. XPath первым рассматривался, но не взлетело. Зато какой простор для упражнений с регулярками, ммм!

BlackStream Jan 17 2011 at 22:40

простор для творчества это хорошо и полезно, но не закрытые теги — это ЗЛО с которым нужно бороться!

kost Jan 18 2011 at 12:47

Вебмастера, не закрывающие теги, совсем не думают о тех, кто ворует их контент.

UFO just landed and posted this here

Razoomnick Jan 17 2011 at 22:44

Для .NET для этой цели есть HtmlAgilityPack. Субъективно — намного удобнее, чем регулярки. Хотя регулярные выражения я люблю.

ivaliy Jan 17 2011 at 23:42

Как-то так

stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454

pro100tak Jan 18 2011 at 02:15

Это был сферический пример в вакууме для освоения. Проект сдан и я могу вздохнуть :)

-1

Lattyf Jan 17 2011 at 18:38

А в них нет ничего страшного :)
Если дойдут руки, то хочу поверхностно описать как устроены эти самые регэкспы внутри. Очень важно для понимания регэкспов в целом.

UFO just landed and posted this here

PavelSandovin Jan 17 2011 at 18:53

У Вас неплохо получается, тема интересная, ждем еще статей! По ходу чтения возникло несколько мелких замечаний, но я бы предпочел отправить их в личную почту (если Вам это интересно), а не озвучивать здесь.

Lattyf Jan 17 2011 at 22:11

Да, конечно интересно, отправляйте.

Zorkus Jan 17 2011 at 19:05

Кстати, среди языков, поддерживающих регулярки на уровне синтаксиса, есть и Groovy. Примеры:

def source = 'this is some string just string plain string'



// во-первых, есть спец. форма записи строки, в которой не требуется квотирование

word = /\w+/ 



// оператор ~ позволяет прекомпилировать объект паттерна (так же поддерживает подстановку подстрок)

wholePattern = ~/($word $word)*/ 



// это проверка (оператором ==~) что вся строка содержит только слова, разделенные пробелами.

assert source ==~ wholePattern 



// А это матчинг, операторв =~ создает объект матчера. Проверяем, что данному паттерну сооттствует три подстроки

def finder = (source =~ "st..ng*")

assert finder.getCount() == 3

TEHEK Jan 18 2011 at 01:43

За такими языками даже из бразуера выходить не надо :) JavaScript

-1

user Jan 17 2011 at 19:16

First you have a problem, and then you think: «I know, I'll use regular expressions». Now you've got two problems.

источника уже не вспомню, извините.

+12

Dim0FF Jan 17 2011 at 19:36

Jamie Zawinski

Lattyf Jan 17 2011 at 22:12

Вот именно поэтому я написал эту статью :)

SmartBye Jan 17 2011 at 19:52

Фридл вроде делит их на детерменированные и недетерменированные. Первые используются в программировании и поддерживают сохранение состояний, но за счет этого более медленные, а вторые быстрые, но только для поиска.

Lattyf Jan 17 2011 at 22:12

Да, я хочу об этом написать в следующих статьях подробно.

UFO just landed and posted this here

Lattyf Jan 17 2011 at 22:13

Конечно, я это и имел в виду, глупо парсить регэкспами TCP пакеты.

collapse Jan 17 2011 at 20:24

При работе с кириллицей используйте [А-Яа-яЁё] — а то на этом часто спотыкаются

VitaZheltyakov Jan 17 2011 at 20:56

Почему то у меня в PHP [А-Яа-яЁё] не работает — использую [\x7F-\xFF], а буква «ё» — остаётся для меня загадкой.

shushu Jan 18 2011 at 11:35

Всё зависит от кодировки кода и «испытуемого» текста

collapse Jan 18 2011 at 12:31

В общем совет новичкам — надо быть осторожней с кириллицей

Lattyf Jan 17 2011 at 22:23

У меня в Notepad++ для выражения [A-Я] не совпадает буква «Р». Вот такие вот фокусы.

YaakovTooth Apr 3 2011 at 21:24

Какие плагины для регулярок юзаешь?

Lattyf Apr 4 2011 at 08:18

Встроенный :)

collapse Jan 17 2011 at 22:32

Дамc, а у меня бука Х не работает :) Чудеса :)

remal Jan 18 2011 at 22:20

При работе с кириллицой используйте юникод и модификатор \p. Не надо изобретать всякую фигню!

YaakovTooth Apr 3 2011 at 21:24

Да, всё просто — //ui.

mihmig Jan 17 2011 at 20:39

боян, но в тему:
если вы программист и решили решить проблему с помощью регулярных выражений — то теперь у вас ДВЕ проблемы!

HDg Jan 17 2011 at 23:46

а если не программист — то нет проблем :)

bolk Jan 17 2011 at 20:51

[\.\{\^]

Лишне так писать или нет, зависит исключительно от движка регулярных выражений.

Например, в движке Oniguruma выражение [a-w&&[^c-g]z] несёт вполне определённый смысл: диапазон c-g исключается из a-w. Так что символ «&» нужно экранировать. Таких расширений синтаксиса много.

В Perl6 регулярки вообще ни на что не похожи.

Wildy Jan 17 2011 at 21:19

во! надо будет написать про регекспы в Perl6. только сначала справиться с собственным разрывом шаблона по этому поводу

Lattyf Jan 17 2011 at 22:14

Да, вы правы, поэтому я и начал с диалектов. Каждый раз надо смотреть как то сделано в конкретном языке или утилите.

seriyPS Jan 17 2011 at 21:47

Кстати! Вот мне приходилось сталкиваться с задачей нахождения НЕсовпадения части шаблона. Щас какой — нить синтетический пример придумаю…

Есть строки «Мама мыла раму» «Мама мыла папу» «Мама мыла мыло» «Мама мыла маму» и т.п. Они попадают под выражение "^Мама мыла (\w+)$"
А теперь мне понадобилось заматчить все строки, в которых мама моет все что угодно кроме рамы. Как? (Вариант с «заматчить „^Мама мыла раму$“ и выкинуть, а остальное пропустить» мне поему-то не подошел, не помню почему.)

Terion Jan 17 2011 at 22:08

Мама мыла [^раму]
?

seriyPS Jan 17 2011 at 22:24

Вроде это выделит «Мама мыла „+1 какой то любой символ, кроме р, а, м, у?
В таком варианте “^Мама мыла [^раму]+$» выделит «Мама мыла „+ что угодно, где нет символов р, а, м, у

Terion Jan 17 2011 at 22:38

вот держите

Мама мыла (?! раму)
если что

Lattyf Jan 17 2011 at 22:48

Забыли заматчить «не раму». Negative lookahead совпадает (правильно, конечно, «не совпадает», то так можно мозг сломать) с позицией, а не подвыражением, соответственно захватится только «Мама мыла » в строке «Мама мыла Ваню».

seriyPS Jan 17 2011 at 22:49

Работает, спасибо!
PS: по ссылке нужно убрать и снова поставить галку на «g» чтобы заработало как ожидается.

Lattyf Jan 17 2011 at 22:19

Можно использовать поисковые конструкции чтобы исключить совпадение рамы.

Что-то типа ^Мама мыла (\w+)(?<! раму)$. Вторая часть (?! раму) говорит что в этой позиции подвыражение не должно совпадать назад (то что уже захватили в \w+). Но опять же надо понимать, что текст должен совпадать с НЕ рамой. В данном случае это не критично, потому что с \w идет квантификатор +, который требует хотя бы одной этой самой \w. Если бы стояла *, то были бы отличия в поведении.

Lattyf Jan 17 2011 at 22:25

Парсер наставил пробелов, но общий смысл должен быть понятен.

seriyPS Jan 17 2011 at 22:29

Спасибо, то что надо!
А поисковые конструкции совместимы с какими движками регулярных выражений? Меня интересуют Python, JS, PHP хотябы

Lattyf Jan 17 2011 at 22:45

Гуглите в сторону «negative lookahead» (как в примере Terion), либо «negative lookbehind» (как в моем) для своего языка. Обычно синтаксис этой части совпадает.

Mithgol Jan 18 2011 at 01:38

В джаваскрипте нет обратного поиска (lookbehind), а прямой есть.

В PHP есть всё.

Питона не знаю.

voidus Jan 17 2011 at 21:52

tsya.ru

-1

Monkeyman Jan 18 2011 at 00:44

Всегда жутко завидовал тем, кто понимает регулярки. Я когда вижу эту кашу из символов, мой мозг отказывается работать и тактично уходит в сторону заката.

Mithgol Jan 18 2011 at 01:39

Читайте Фридля, просвещайтеся.

Monkeyman Jan 18 2011 at 01:48

У меня нет цели изучить регулярки — я просто ужасаюсь им :-)

-1

0xE0 Jan 18 2011 at 00:51

Как раз сегодня открыл Фридла, поэтому большая часть вещей показалась очевидной, хотя дошел только до 42 страницы. Но поясните пожалуйста, что такое «квотирование». Гуглил — не нашёл, или в книге это понятие дальше рассматривается?

Mithgol Jan 18 2011 at 01:43

По-видимому, Lattyf переводит словом «квотировать» англоязычный термин «escape», означающий в данном случае «предпринять усилия для устранения служебного смысла некоторого символа».

Например, символ точки («.») в регулярных выражениях имеет служебный смысл («найти на этом месте любой символ»). Поэтому, чтобы искать точку в буквальном смысле («найти на этом месте точку, только точку и ничего, кроме точки»), в регулярном выражении перед точкою надо поставить обратную косую черту («\.»).

TEHEK Jan 18 2011 at 01:50

Еще иногда «escaping» переводят как «экранирование».

TEHEK Jan 18 2011 at 01:47

Ну здесь автор имеет ввиду написание "\" перед метасимволом, чтобы метасимвол читался как обычный символ.

".jpg$" => ".jpg", «ajpg», «0jpg»
"\.jpg$" => ".jpg"

Lattyf Jan 18 2011 at 07:46

Выше уже пояснили, но хочу лобавить, что как раз один из тех терминов, для которого все переводы для непосвященного не очевидны.
Когда я первый раз увидел перевод «экранировать» тоже не смог сразу найти.