sleeping-owl 23 окт 2014 в 14:43

Как использовать API сайта, у которого нет API?

4 мин

80K

Веб-разработка*PHP*

+95

Комментарии 40

iGusev 23 окт 2014 в 15:08

У хабра есть свой удобный API c оберткой на php

-43

itruf 23 окт 2014 в 15:11

Речь не о создании API хабра, а о библиотеке.

+13

lesha_firs 23 окт 2014 в 15:16

не в ту ветку написал! habrahabr.ru/post/241335/#comment_8085921

sleeping-owl 23 окт 2014 в 15:19

В данном случае хабр — всего лишь пример. Я использовал его как всем вам известный ресурс. В большинстве случаев библиотеку я использую для доступа к данным на маленьких локальных сайтах, которые были бы плохим примером.

+13

iGusev 26 окт 2014 в 23:48

Понял, был не прав.

lesha_firs 23 окт 2014 в 15:15

ну хабр. тут для примера, и насколько я помню то у хабра. закрытое API и ключ выдается по запросу.

У «Хабрахабра» есть непубличный API, доступ к которому предоставляется только по запросу через форму обратной связи.

В обращении расскажите о себе и подробно опишите, для каких целей вы собираетесь использовать API.

Извиняюсь промахнулся, это ответ на habrahabr.ru/post/241335/#comment_8085891

НЛО прилетело и опубликовало эту надпись здесь

sleeping-owl 23 окт 2014 в 15:23

Для выбора элемента из dom-дерева используется «symfony/dom-crawler» и трансляцией css-селектора в xpath и выборкой элементов занимается эта библиотека. Моя же библиотека с dom-документом ни одной строкой кода не связана, основной целью имеет объединение этих селекторов в структуру, которую нужно получить на выходе.

НЛО прилетело и опубликовало эту надпись здесь

sleeping-owl 23 окт 2014 в 15:43

Тут используется еще один уровень абстракции над dom-документом, который при этом не запрещает вам получить DomNode объект. Но для меня использование стандартных объектов для парсинга html выливается в десятки строк кода и сложную поддержку. Dom-crawler же позиционирует себя как некий аналог jQuery на php и намного проще позволяет модифицировать документ, а также получить полный html обратно. Я не пропагандирую, что это единственно верное решение, оно превносит ограничения в работу, но для большинства задач, с которыми я сталкивался, серьезно упрощает жизнь.

vitaly_KF 23 окт 2014 в 15:44

Например — готовую структуру для складывания данных в БД.

KEKSOV 23 окт 2014 в 15:30

На всякий случай, вдруг кому-то пригодится, была статья на Хабре о сравнении скорости парсеров. И мои две копейки PHP+tidy+SimpleXML, в чем принципиальное отличие решения, предлагаемого автором, от этой связки не совсем понятно.

-6

RUgaleFF 23 окт 2014 в 15:30

Отличная библиотека, буду пользоваться

P.S.: Спасибо за Guzzle, не знал, использовал раньше свой велосипед

ErgoZru 23 окт 2014 в 18:36

согласен. Особенно нормальная работа с куками. Курл так и не смог заставить нормально работать с сохранёнными сессиями, а тут сходу через GuzzleHttp\Cookie\CookieJar.

cry_san 23 окт 2014 в 15:34

По мне, так лучше jsoup пока лучше ничего нет

usualdesigner 23 окт 2014 в 16:02

В свое время активно пользовался phpquery.

kellas 23 окт 2014 в 16:13

Отличная библиотека.
Комментаторы выше видимо не сталкивались с написанием сложным парсеров для 10 и более ресурсов, с условиями различными настройками зависящими от того что указал пользователь.

Если кто-то ещё не въехал поясню — это не аналог и не замена xpath phpquery или каким-нибудь другим средствам работы с dom, автор да, добавил слой абстракции над парсерами для возможности чуть ли не динамической генерации api по работе с различными сайтами на основе каких-нибудь настроек из БД. Мне в нескольких проектах это очень поможет, сам хотел что-то подобное написать но на грамотную реализацию мозгов не хватило.

НЛО прилетело и опубликовало эту надпись здесь

dvapelnik 23 окт 2014 в 16:26

по сути просто обертка над селекторами, которые используются в PHP Simple HTML DOM Parser, который довольно удобен
а что скажете о производительноти по сравнению с другими библиотеками?

kellas 23 окт 2014 в 16:29

habrahabr.ru/post/241335/#comment_8086091 — нет никаких других библитотек для сравнения.

dvapelnik 23 окт 2014 в 16:47

к сожалению (или к счастью), я не вижу особой проблемы самостоятельно завернуть некий парсер в удобную для проекта обертку. вспоминается ситуация с «нужно создать еще один универсальный стандарт»
я писал парсеры на php, node.js видел другие парсеры — все упиралось либо в использование библиотеки либо в написание регулярного выражения или xpath
я не утверждаю, что библиотека не имеет права на существование, а говорю о том, что мы пишем те же селекторы (query, xpath, regexp), но в другом месте
я сужу сугубо по статье

sleeping-owl 23 окт 2014 в 16:37

Запросы к апи в большинстве случаев не стоит делать в основном потоке, а выполнять в фоне и кэшировать. Поэтому для меня производительность не так важна, как удобство использования. А производительность у symfony/dom-crawler не хуже других php-парсеров, посколько все они основаны на трансляции css-селектора в xpath и в конечном итоге используют одни и те же методы.

marapper 23 окт 2014 в 20:02

Еще б допилить немного исполнение в более удобный и расширяемый вид

Выделить getBaseUrl, чтобы не трогать протектед переменную, для построения фильтров вынести фабричный метод вместо статика, each сделать менее декларативным — дать возможность засунуть не только массив правил, но и коллбэк (в который передается каждая нода) — аналогично я бы все расширил коллбэками для постобработки того же text(). Т.е. надо манипулировать ситуациями, когда вложенность json и исходного html может совпадать, а когда нет (например, дату не запихнули в .post, а положили рядом дивом).

Пр опостобработку еще вот что — существует много постоянно необходимых обработок (вроде убрать лишние пробелы внутри, вырезать теги, сделав br2nl) и прочее, что было бы хорошо иметь в ООП-стиле, а лучше и расширять собственными правилами.

Плюс конструкция exist -> then -> else не особо нравится (и не хватает аналога для условного выражения).

Плюс не заметил обработки хттп-ошибок — т.к. порой надо парсить и по 404 считать данные по странице отсутствующими.

sleeping-owl 23 окт 2014 в 20:50

Теперь я и сам вижу недостаток в расширяемости, буду развивать проект и постараюсь учесть комментарии. Коллбэки были в первоначальном варианте, но показались мне слишком громоздкими в описании и метод начинал превращаться в нечитаемую кашу. Попробую поискать достойное решение, чтобы и функционал не страдал, и удобство в использовании и поддержке тоже. Хттп-ошибки возвращают результат всегда одного вида (в документации есть пример) с урлом и статусом ошибки.

RUgaleFF 24 окт 2014 в 14:33

Посмотрите как это реализовано в Yii (в 2.0 не видел, в Yii 1 точно есть). Функция CController::evaluateExpression

Позволяет передавать в качестве параметра строку с PHP кодом или замыкание

mibori 23 окт 2014 в 20:09

а бывает, чтобы получить нужный контент со страницы, надо там с нее определенный js выполнить
А если не хочешь, то надо js парсить… Ну это, наверное, особо грустный случай.

НЛО прилетело и опубликовало эту надпись здесь

acy 23 окт 2014 в 20:51

м? www.kimonolabs.com/

KEKSOV 23 окт 2014 в 21:53

Скорее developer.yahoo.com/yql/

Access Data Across the Web
Select, filter, sort and join data across web services. You can even insert, update and delete from YQL.

Easily Scrape HTML
Scrape HTML from the web and turn it into data to reuse. Create an API where one doesn’t exist.

и все это из любого языка и платформы

mrsombre 24 окт 2014 в 13:13

У них ограничение на кол-во запрсов

PavloPoliakov 23 окт 2014 в 23:24

Недавно делал доклад по теме «Парсинг на PHP», где рассматриваю 5 разных способов достать информацию с сайта.

Вот видео: www.youtube.com/watch?v=KZnrb6U2uw8
Вот слайды: www.slideshare.net/pavelpolyakov58/think-php-10-parsing-with-php
Вот код: github.com/PavelPolyakov/parsing-with-php

Надеюсь кому-то понадобится :)

НЛО прилетело и опубликовало эту надпись здесь

rsivakov 24 окт 2014 в 14:48

вывести rest через sql-injection

-1

ZonD80 25 окт 2014 в 02:13

querypath.org/

istem 28 окт 2014 в 14:29

Спасибо. Просто спасибо.
Кстати, есть ли поддержка регулярных выражений в селекторах?

-1

sleeping-owl 29 окт 2014 в 13:15

Не совсем понимаю что для вас означают регулярные выражения в селекторах. Насколько мне известно в стандарте такого нет.

istem 30 окт 2014 в 09:10

Имел ввиду некоторую пост обработку значений, из того, что было выбрано по селектору. Извините, поторопился и не дочитал статью про фильтры. То что нужно.