Как стать автором
Обновить

Комментарии 38

Валидатор бы еще от гугла хороший, эх.
НЛО прилетело и опубликовало эту надпись здесь
Забавно что выложили на github, а не на code.google.com :)
Да, это первое, что бросилось в глаза.
Видимо в скором времени они закроют и этот сервис. :)
Или купят github
И закроют его :-)
НЛО прилетело и опубликовало эту надпись здесь
Да, мысль материальна как электрохимические взаимодействия в мозге. Мистифицировать здесь нечего.
Она еще материальна в том смысле, что один высказал, типа пошутил, второй задумался, а третий родил очередной закон типа «закрыть все интернеты страны, ибо это вредно».
НЛО прилетело и опубликовало эту надпись здесь
А вы были правы… ;)
Может быть, этим парсером, наконец, заменят тот впечатляющий HTML-парсер, который имеет место в PHP сейчас.
НЛО прилетело и опубликовало эту надпись здесь
Возможно, мы говорим о разных вещах. Я говорю, в частности, о методе DOMDocument::loadHTML(). Что и как вы предлагаете в этом случае выбирать?
НЛО прилетело и опубликовало эту надпись здесь
Да, DOMDocument в части разбора и сохранения HTML-кода — кривая и по сути непригодная для сколь-нибудь серьёзного использования надстройка над libXML.

Tidy (даже абстрагируясь от того, что он редко бывает по умолчанию доступен на большинстве хостингов) для разбора HTML-кода не предназначен.

html5lib — чисто скриптовое решение, о недостатках скриптовых решений (главным образом что касается быстродействия) всем нам хорошо известно.

Достоинство Gumbo в том, что он написан на C (в отличие от Java, на котором написан канонический HTML5-парсер validator.nu, используемый в Firefox путём автоматического преобразования в C++) и потенциально может быть легко интегрирован в PHP (написанный на том же C) вместо существующего HTML-парсера.
НЛО прилетело и опубликовало эту надпись здесь
Для очистки я нашел для себя прекрасный ezyang/htmlpurifier
А чтобы что-то выдрать из кода есть phpQuery.
НЛО прилетело и опубликовало эту надпись здесь
С этим XPath вообще странная ситуация. Как ни посмотришь резюме веб-девелоперов, так у каждого второго значится «XSLT» в списке скиллов. А как пойдёт речь о выборке элемента из HTML документа, так про XPath вспоминают в последнюю очередь.
НЛО прилетело и опубликовало эту надпись здесь
Если прогнать через tidy, то получается вполне корректный XML документ.
НЛО прилетело и опубликовало эту надпись здесь
А в чем собственно проблема то?

Даже в браузере в FireBug можно XPath запускать типа $x("/html/body/title")
НЛО прилетело и опубликовало эту надпись здесь
В конце концов, имея такой инструмент, можно написать свое расширение и помочь миру!
Странно, что не на Golang.
Думаю, это лишь из соображений большей кроссплатформенности C, чем Go…
Это отлично, тем более что есть байндинги на Питон.
Я вот только не понял — библиотека вроде только html5 парсит. А как быть с более древними HTML 4.01 and XHTML? То-есть получается что применение библиотеки пока узко специализированное.
Спасибо
Грядет новая волна поделий начинающих «какеров».
Ждем высокоскоростные чекеры, кликеры, спаммеры и т.п. :)
НЛО прилетело и опубликовало эту надпись здесь
его писали на Си не для того, чтобы повысить скорость исполнения кода в десятки раз.
Простите мое невежество, а для чего тогда? Кроссплатформенность?
В оригинале немного иначе написано: скорость большая благодаря Си, но это не главное…

Execution speed. Gumbo gains some of this by virtue of being written in C, but it is not an important consideration for the intended use-case, and was not a major design factor.
Из этого все равно непонятно, зачем он написан именно на C.
Что бы можно было собрать его под любое устройство.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации