Pull to refresh

Comments 38

Валидатор бы еще от гугла хороший, эх.
UFO just landed and posted this here
Забавно что выложили на github, а не на code.google.com :)
Да, это первое, что бросилось в глаза.
Видимо в скором времени они закроют и этот сервис. :)
И закроют его :-)
UFO just landed and posted this here
Да, мысль материальна как электрохимические взаимодействия в мозге. Мистифицировать здесь нечего.
Она еще материальна в том смысле, что один высказал, типа пошутил, второй задумался, а третий родил очередной закон типа «закрыть все интернеты страны, ибо это вредно».
UFO just landed and posted this here
Может быть, этим парсером, наконец, заменят тот впечатляющий HTML-парсер, который имеет место в PHP сейчас.
UFO just landed and posted this here
Возможно, мы говорим о разных вещах. Я говорю, в частности, о методе DOMDocument::loadHTML(). Что и как вы предлагаете в этом случае выбирать?
UFO just landed and posted this here
Да, DOMDocument в части разбора и сохранения HTML-кода — кривая и по сути непригодная для сколь-нибудь серьёзного использования надстройка над libXML.

Tidy (даже абстрагируясь от того, что он редко бывает по умолчанию доступен на большинстве хостингов) для разбора HTML-кода не предназначен.

html5lib — чисто скриптовое решение, о недостатках скриптовых решений (главным образом что касается быстродействия) всем нам хорошо известно.

Достоинство Gumbo в том, что он написан на C (в отличие от Java, на котором написан канонический HTML5-парсер validator.nu, используемый в Firefox путём автоматического преобразования в C++) и потенциально может быть легко интегрирован в PHP (написанный на том же C) вместо существующего HTML-парсера.
UFO just landed and posted this here
Для очистки я нашел для себя прекрасный ezyang/htmlpurifier
А чтобы что-то выдрать из кода есть phpQuery.
UFO just landed and posted this here
С этим XPath вообще странная ситуация. Как ни посмотришь резюме веб-девелоперов, так у каждого второго значится «XSLT» в списке скиллов. А как пойдёт речь о выборке элемента из HTML документа, так про XPath вспоминают в последнюю очередь.
UFO just landed and posted this here
Если прогнать через tidy, то получается вполне корректный XML документ.
UFO just landed and posted this here
А в чем собственно проблема то?

Даже в браузере в FireBug можно XPath запускать типа $x("/html/body/title")
UFO just landed and posted this here
В конце концов, имея такой инструмент, можно написать свое расширение и помочь миру!
Думаю, это лишь из соображений большей кроссплатформенности C, чем Go…
Это отлично, тем более что есть байндинги на Питон.
Я вот только не понял — библиотека вроде только html5 парсит. А как быть с более древними HTML 4.01 and XHTML? То-есть получается что применение библиотеки пока узко специализированное.
Грядет новая волна поделий начинающих «какеров».
Ждем высокоскоростные чекеры, кликеры, спаммеры и т.п. :)
UFO just landed and posted this here
его писали на Си не для того, чтобы повысить скорость исполнения кода в десятки раз.
Простите мое невежество, а для чего тогда? Кроссплатформенность?
В оригинале немного иначе написано: скорость большая благодаря Си, но это не главное…

Execution speed. Gumbo gains some of this by virtue of being written in C, but it is not an important consideration for the intended use-case, and was not a major design factor.
Из этого все равно непонятно, зачем он написан именно на C.
Что бы можно было собрать его под любое устройство.
Sign up to leave a comment.

Articles

Change theme settings