Комментарии 38
Валидатор бы еще от гугла хороший, эх.
0
Забавно что выложили на github, а не на code.google.com :)
+47
Может быть, этим парсером, наконец, заменят тот впечатляющий HTML-парсер, который имеет место в PHP сейчас.
+3
НЛО прилетело и опубликовало эту надпись здесь
Возможно, мы говорим о разных вещах. Я говорю, в частности, о методе DOMDocument::loadHTML(). Что и как вы предлагаете в этом случае выбирать?
0
НЛО прилетело и опубликовало эту надпись здесь
Да, DOMDocument в части разбора и сохранения HTML-кода — кривая и по сути непригодная для сколь-нибудь серьёзного использования надстройка над libXML.
Tidy (даже абстрагируясь от того, что он редко бывает по умолчанию доступен на большинстве хостингов) для разбора HTML-кода не предназначен.
html5lib — чисто скриптовое решение, о недостатках скриптовых решений (главным образом что касается быстродействия) всем нам хорошо известно.
Достоинство Gumbo в том, что он написан на C (в отличие от Java, на котором написан канонический HTML5-парсер validator.nu, используемый в Firefox путём автоматического преобразования в C++) и потенциально может быть легко интегрирован в PHP (написанный на том же C) вместо существующего HTML-парсера.
Tidy (даже абстрагируясь от того, что он редко бывает по умолчанию доступен на большинстве хостингов) для разбора HTML-кода не предназначен.
html5lib — чисто скриптовое решение, о недостатках скриптовых решений (главным образом что касается быстродействия) всем нам хорошо известно.
Достоинство Gumbo в том, что он написан на C (в отличие от Java, на котором написан канонический HTML5-парсер validator.nu, используемый в Firefox путём автоматического преобразования в C++) и потенциально может быть легко интегрирован в PHP (написанный на том же C) вместо существующего HTML-парсера.
+2
НЛО прилетело и опубликовало эту надпись здесь
Для очистки я нашел для себя прекрасный ezyang/htmlpurifier
А чтобы что-то выдрать из кода есть phpQuery.
А чтобы что-то выдрать из кода есть phpQuery.
0
НЛО прилетело и опубликовало эту надпись здесь
В конце концов, имея такой инструмент, можно написать свое расширение и помочь миру!
+1
Странно, что не на Golang.
+10
Это отлично, тем более что есть байндинги на Питон.
Я вот только не понял — библиотека вроде только html5 парсит. А как быть с более древними HTML 4.01 and XHTML? То-есть получается что применение библиотеки пока узко специализированное.
Я вот только не понял — библиотека вроде только html5 парсит. А как быть с более древними HTML 4.01 and XHTML? То-есть получается что применение библиотеки пока узко специализированное.
+1
Грядет новая волна поделий начинающих «какеров».
Ждем высокоскоростные чекеры, кликеры, спаммеры и т.п. :)
Ждем высокоскоростные чекеры, кликеры, спаммеры и т.п. :)
-4
его писали на Си не для того, чтобы повысить скорость исполнения кода в десятки раз.Простите мое невежество, а для чего тогда? Кроссплатформенность?
+1
Никто не хочет его добавить к бенчмарку habrahabr.ru/post/163979/?
+1
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Google выпустила парсер HTML5 на чистом Си