dsd_corp 29 мая 2013 в 21:08

Сохранение данных Google Reader. PHP версия

5 мин

8.2K

PHP*Google API*

-1

Комментарии 9

1337 29 мая 2013 в 22:49

все ваши подписки, включая историю — абсолютно все доступные посты.

Вытащит всё с того момента, как кто-то впервые добавил сайт в Google Reader? А если сайт крупный, не замучается ли он стаскивать такой объём? :)

Только «Отмеченные» звёздочкой можно вытащить?

dsd_corp 29 мая 2013 в 22:55

Чесно — не знаю. Я не проверял, отдает Гугл только с того момента, как текущий пользователь начал читать, или же с момента, как кто-то добавил этот сайт вообще впервые.
Есть намек в виде той же ленты Хабра — она тащится, начиная с поста с номером 195 в url, что как бы намекает, что ваш вариант рабочий, т.к. я на Хабре появился точно сильно позже, и соответственно добавил в читалку еще позже.

Выключаете параметр $GLOBALS['fetch_regular_feeds']=false, и вам вытащит только спецфиды: 'starred', 'notes', 'shared', 'shared-followers'. starred- это и есть со звездочкой. Остальные обычно немногочисленны.
Можете так же в коде найти строку $chlst=array('starred', 'notes', 'shared', 'shared-followers'); и оставить в массиве только 'starred' — и вытащит только его( при выключенном $GLOBALS['fetch_regular_feeds'] )
Вот как-то так.
Ну сам список фидов вытащит по-любому, но это мелочь, удалите за ненадобностью )

dsd_corp 29 мая 2013 в 23:10

Кстати, а вам «отмеченные» нужны именно в XML формате? Тогда да, скрипт поможет.
В json он тоже поможет вытащить, но в json эти спецфиды и сам Гугль отдает в их официальном экспорте данных ( www.google.com/takeout/ ): там отдается сам список фидов в OPML-формате(название, RSS-URL и WEB-URL), и еще json-файлы как раз с этими «спецфидами».

NoN 30 мая 2013 в 15:21

Только отмеченные гугл сам отдаёт через takeout, на выходе файл starred.json.

foxmuldercp 30 мая 2013 в 11:46

А вот интересно, долго ли будет прикрутить к этому скрипту возможность оформления статей в pdf, чтобы уже красиво было.

Кстати, ~~в идеале~~ с тегами в свойствах файла для поиска как?

dsd_corp 30 мая 2013 в 11:51

Он не парсит сами статьи. Он тупо выкачивает все, что отдает Гугл, и не конвертируя(не трогая кодировки и структуру с аттрибутами), укладывает на винт. Собственно для того и писался.
Что потом делать с этими данными, решать конечному пользователю.
Можно их распарсить и сделать pdf, как вы хотите, можно перекачать еще куда-либо…
Данный скрипт специально писался делать только то, что он делает и не более того — слить данные с Гугла, не затормаживаясь в это время их обработкой — топорный бекап.
То есть это средство, которое нужно запустить либо непосредственно перед первым июля один раз, либо для надежности запускать «чем ближе к первому июля, тем чаще», после каждой успешной сессии удаляя данные предыдущего запуска. В принципе особо часто и не нужно наверное…
Ну или типа того.

С тегами соответственно никак — все, что вам нужно, нужно делать с данными уже после.
Он поможет вам вытащить данные в последний момент, и когда ГуглоРидер окончательно закроется, уже не спеша их обрабатывать, никуда не торопясь.

dsd_corp 30 мая 2013 в 12:04

Кстати, спасибо за идею. Я так или иначе планирую в дальнейшем эти данные обрабатывать. В основном для себя, но если в процессе появится что-то полезное, это полезное так же вывалю сюда на Хабр, не взирая на минусы от «неврубившихся», как это происходит с этой статьей )) Я почему-то верю, что если оно поможет хотя бы паре человек — работа была проделана не зря )))
Так вот, возможно ваша идея будет реализована. Как минимум с относительно небольшими затратами я могу реализовать конвертацию статей из фидов в библиотеку формата FB2(с проставлением авторов, ссылок на оригиналы и т.п.), возможно даже с автоподкачкой данных с оригинальных статей, т.к. некоторые подписки содержат в себе только анонсы до «ката», а не полные тексты статей. Ну а там и до PDF уже недалеко — либо помучиться и добавить опцию конвертации в PDF, либо найти пакетный конвертер FB2-to-PDF.

P.S. кстати, если вдруг вздумаете этого дождаться, то когда будете выкачивать данные этим скриптом, лучше делайте это без консолидации( параметр $GLOBALS['try_consolidate'] поставить в false ). Ибо обрабатывать данные небольшими пачками менее затратно по ресурсам, чем к примеру всасывать в себя фид Хабра, который целиком занимает более 50Мб в XML.

foxmuldercp 30 мая 2013 в 12:14

Да не, спасибо, мне хватило из архиватора гугля скачать список подписок, все интересные статьи лежат на винте в Print2PDF.
Но сама идея конвертации этого архива в fb2/pdf позитивна.
Единственное что меня смущает — многие стаьи в хабре том же доступны только до ката и уже давно в черновиках, как Вы собираетесь эту проблему решать?

dsd_corp 30 мая 2013 в 12:23

К сожалению, видимо, никак. Если есть идеи, делитесь. У меня их нет. В кеш гуглояндекса за ними лазить напряжно и как-то некомильфо.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Сохранение данных Google Reader. PHP версия

Комментарии 9

Публикации

Истории