arelive Mar 7 2019 at 21:26

Искусство парсинга или DOM своими руками

14 min

15K

C++*XML*Algorithms*HTML*

Tutorial

Comments 17

ultrinfaern Mar 7 2019 at 21:54

Я не эксперт в написании парсеров, но я впервые вижу что в описании грамматики есть пробелы. Из-за этого она кажется переусложнена. Насколько я помню, лексический анализатор должен бить входной поток на лексемы проглатывая пробелы. И потом в дальнейшем обработка идёт только лексем.
Далее я не слишком вдумчиво читал, но удивило что, например, для одного и того-же символа делается попытка с помощью битовых полей закодировать его как разные токены, чего в теории парсеров я не встречал.

arelive Mar 7 2019 at 21:55

Пробелы в HTML проглатывать нельзя, ведь есть тег <pre>.

sshikov Mar 7 2019 at 22:02

И много чего еще.

sshikov Mar 7 2019 at 22:01

В мое время ходил анекдот: «Чего только не сделают, чтобы не ходить на овощную базу».

— Берется antlr
— берется C++ target
— генерится код
— профит.

И незачем смотреть на такие дремучие по большей части инструменты как flex, bison, yacc. А вот тут число перечисленных инструментов примерно на глаз около 100. Даже если отобрать только те, которые поддерживают C++, вполне можно было и не велосипедить.

evocatus Mar 8 2019 at 00:43

Я тоже недавно сделал парсер для одного простого DSL по работе и в итоге выбрал
github.com/lark-parser/lark (Python)

Также есть замечательная библиотека
github.com/Engelberg/instaparse (Clojure)

token Mar 7 2019 at 22:53

То же самое вместо разбора руками можно сделать используя регулярку. Станет в разы проще.

-12

ultrinfaern Mar 7 2019 at 22:58

На StackOverflow ответ специально для тех, кто парсит xml\html регулярками:
ссылка

+10

UFO just landed and posted this here

vilgeforce Mar 8 2019 at 09:57

Если у вас была проблема и вы решили ее регуляркой — теперь у вас две проблемы

token Mar 8 2019 at 10:15

Мне искренне жаль всех тех, кто тупо даже не понял что я имел ввиду под токенизацией при помощи регалярки. Бездари :)

-6

vilgeforce Mar 8 2019 at 10:28

Я принципиально у себя стараюсь не использовать регулярки, мне простительно :-)

dmxvlx Mar 8 2019 at 10:58

Прекрасная работа, но без исходников это выглядит как «я пиарюсь», не более.

Битовая идентификация токенов — интересный подход.

Сам сейчас читаю доки по boost::spirit, для DSL, так как нет свободного времени для «написать с нуля и разобраться во всём самому» :)

arelive Mar 8 2019 at 18:35

На самом деле, код сыроват, поэтому сразу не залил исходники. Если интересно, вот они.

dmxvlx Mar 8 2019 at 19:32

Нормальный такой код…

Поместите ссылку на проект в конце статьи.

PS: я пользовал lexertk, но в силу объективных причин смотрю в сторону spirit, так как при работе с последним не нужно плясать с бубном вокруг выражений типа function(value1, function2(value8, function3()))

alex_fort Mar 8 2019 at 11:23

Зачем вы это засунули в хаб DIY? Следуете худшим образцам местных пиарщиков?

maxangry Mar 8 2019 at 16:12

Прекрасная фраза по ссылке выше:
Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp.

funca Mar 10 2019 at 15:53

Парсить мы будем HTML, как простой и всем знакомый язык.

Тема интересная, но почему бы не сделать оговорку, что парсить вы собирались лишь простое подмножество HTML, которое удобно парсить вот таким вот парсером?) В парсинге всамделешнего HTML слишком много нюансов w3c.github.io/html/syntax.html#parsing-html-documents.

Show the best of all time