niksite Oct 21 2008 at 19:15

FeedEx: расширяем фиды в один клик

1 min

2.1K

Website development*

+19

Comments 49

sp3ctr00m Oct 21 2008 at 20:35

Молодец! :)

Joka Oct 21 2008 at 22:05

сбоит на движке dle — пробовал на сайте _fledur.org.ua/rss.xml
надо бы подправить имхо
а вообще хороший скрипт

Donat Oct 21 2008 at 22:46

Забей свой _fledur.org.ua/rss.xml в feeds.feedburner.com/ а уже его в feedex.net/. Но вот картинки не кажет…

UFO just landed and posted this here

toxicmt Oct 22 2008 at 00:17

Где-то пол года назад делал что то подобное для своих саттелитов. Алгоритм использовался достаточно простой и вместе с тем эффективный. В двух словах:
1. Чистим документ от всего лишнего, комментарии, скрипты, атрибуты, вообщем все кроме абзацев, tr (либо td) и дивов.
2. Дальше разбиваем все это дело в массив используя разделитель либо див либо td (или tr). (В этом месте автоматизации добиться не удалось, поэтому для каждой ленты я указывал какая это верстка)
3. Подсчитывалось количество русских букв в каждом элементе. В каком элементе массива букв оказалось больше тот и победил )).
А дальше мы его прогоняем через tidy и вуаля, наш контент готов.

toxicmt Oct 22 2008 at 00:18

Хотя здесь возможно и другой алгоритм.

niksite Oct 22 2008 at 12:47

Определенно здесь другой ;o) Но первая его версия была похожа на описанный, да.

ACID_Jesus Oct 22 2008 at 13:30

Ну, вкратце озвучьте хоть на чём основывается — интересно ведь 8-)

niksite Oct 27 2008 at 15:34

На самом деле тут последовательно используются три не связанных друг с другом алгоритма. Два из которых довольно очевидны, а третий создан по мотивам похожего по назначению перлового модуля.

ACID_Jesus Oct 27 2008 at 16:09

Эм, а название модуля не подскажите, чтобы глянуть хоть для примера?

chegor Oct 21 2008 at 22:52

пошёл тестить

alkk Oct 21 2008 at 22:56

А почему бы не использовать стабильно работающий Yahoo Pipes?

1qwerty Oct 21 2008 at 23:51

Кривят эти трубы зачастую. Да и этот сервис тоже через раз работает :(

niksite Oct 22 2008 at 12:27

Они уже умеют восстанавливать полные ленты по обрезкам? А как?

alkk Oct 22 2008 at 16:43

Вот неплохой пример: www.daybarr.com/blog/2007/12/11/yahoo-pipes-tutorial-an-example-using-the-fetch-page-module-to-make-a-web-scraper

Там на примере обдирания форума в rss, с фидами еще проще.

niksite Oct 22 2008 at 17:32

Правильно ли я понял, что алгоритм действий таков: для каждого движка сайта надо создать свой алгоритм извлечения информации, свой Yahoo! Pipe, после чего для каждого нового сайта перебирать пайпы, пока не попадётся подходящий, либо создать новый.

Да, это будет стабильно, ибо предполагает ручную работу для каждого сайта. Но вы действительно полагаете, что это проще заявленных в посте даппера с 43feeds (тоже предполагающих ручную работу)? Не говоря уж про мой сервис с единственным полем ввода.

alkk Oct 22 2008 at 19:01

Любую такую систему надо подпиливать, чтоб получить хороший результат. Если устраивают фиды с косяками — то можно и тут всё сделать на автомате.

Я попоробовал, скормил вашей системе первый попавшийся блог (www.maxss.info/feeds/posts/default):
1) она завалилась на RSS-е, смогла обработать только Atom. RSS — с фидбурнера.
2) поломались картинки.
3) криво вырезаются теги. Пример — «Чайна Мьевилл „Вокзал потерянных снов“» вот тут: feedex.net/feed/www.maxss.info/feeds/posts/default

Вот пример для этого блога на яху пайпс: pipes.yahoo.com/pipes/pipe.info?_id=8ff752442f0d1b9991e2b6a8bb4f9dbe
Времени ушло — минут 10, максимум. Картинки есть, режется всё чисто. Что еще надо?

Мало того, sub pipe, который выкачивает записи, он подходит к практически любому вордпресс-бейзд блогу. Добавить новый блог — нажать clone, edit и указать новый url. Feed discovery кстати тоже работает.

niksite Oct 22 2008 at 19:31

> Любую такую систему надо подпиливать, чтоб получить хороший результат. Если устраивают фиды с
> косяками — то можно и тут всё сделать на автомате.

Так и я о том же. Нужна абсолютная точность — только ручная работа. Допустимы небольшие огрехи — можно доверить дело автомату.

> 1) она завалилась на RSS-е, смогла обработать только Atom. RSS — с фидбурнера.

По адресу www.maxss.info/feeds/posts/default?alt=rss мне отдали следующее:
[19:14 /home/nik]$ dog www.maxss.info/feeds/posts/default\?alt\=rss
HTTP/1.0 404 Not Found
…
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" «www.w3.org/TR/html4/strict.dtd»>
…

Это не очень похоже на валидный RSS.

> 2) поломались картинки.

Ага. Оформленные подобным образом картинки с точки зрения моего скрипта подозрительно напоминают элементы интерфейса.

> 3) криво вырезаются теги. Пример — «Чайна Мьевилл „Вокзал потерянных снов“» вот тут: feedex.net/feed/www.maxss.info/feeds/posts/default

Ага, так как не пользуюсь подкастами, то на оных свою систему до сих пор не тестировал.

> Времени ушло — минут 10, максимум. Картинки есть, режется всё чисто. Что еще надо?

Согласен, а в даппере каком это было бы не менее просто, но ещё и визуально.

> Мало того, sub pipe, который выкачивает записи, он подходит к практически любому вордпресс-бейзд
> блогу.

Это вряд ли. Я занимался анализом типичного HTML кода у разных движков. С WP используется несколько сильно различных по коду тем.

В принципе, вы меня навели на мысль о том, как можно улучшить качество извлечения данных. Спасибо.

alkk Oct 22 2008 at 21:42

По пункту 3 — там редирект.

C:\Photo\2008 — Greece>wget «www.maxss.info/feeds/posts/default?alt=rss»
--20:40:40-- www.maxss.info/feeds/posts/default?alt=rss
=> `default@alt=rss'
Resolving www.maxss.info... 66.249.91.121
Connecting to www.maxss.info|66.249.91.121|:80… connected.
HTTP request sent, awaiting response… 302 Moved Temporarily
Location: feeds.feedburner.com/maxss/rOBX [following]
--20:40:40-- feeds.feedburner.com/maxss/rOBX
=> `rOBX'
Resolving feeds.feedburner.com… 66.150.96.119
Connecting to feeds.feedburner.com|66.150.96.119|:80… connected.
HTTP request sent, awaiting response… 200 OK
…

niksite Oct 22 2008 at 19:46

> Что еще надо?

А ответ на вопрос почему я таки сам пользуюсь своим сервисом а не дапперами или яхами — всё тот же. Лениво писать (пусть и по 10 минут на каждый) экстракторы под каждый фид. Плюс обновлять оные в случае смены дизайна сайта-донора.
А главное — на тех фидах, которые нужны мне, мой сервис работает практически без замечаний ;o)

По части же точного (ручного) указания сервису, какой блок данных следует извлекать, у меня есть следующая идейка. Я набросал сайтик pagemon.net (в настоящее время работает только под Firefox и, полагаю, Opera), где подобный выбор осуществляется визуальным образом (а не поиском в html-коде уникальной последовательности символов). Думаю, со временем можно будет прикрутить тамошнюю блоко-выбиралку к feedex`у, благодаря чему появится (опциональная!) возможность легко и просто объяснить сервису где он не прав.

xsash Oct 21 2008 at 23:16

не совсем корректно определяет, футеры сайтов добавляет, порой целые колонки, а вообще респект, буду следить за развитием

niksite Oct 22 2008 at 17:34

Немного поправил алгоритм обработки свеже-добавленных фидов. Теперь должен определять футеры немного лучше.

MTonly Oct 22 2008 at 00:49

Интересно, что сказали бы по поводу названия сервиса в FedEx. ;-)

niksite Oct 22 2008 at 12:29

Мне тоже любопытно. Впрочем мой домен вполне неплохо замотивирован, да и является .net`ом (ибо сетевой сервис), а не .com (как их сайт).

UFO just landed and posted this here

niksite Oct 22 2008 at 17:40

Движков и темизаций слишком много. Затачиваться специально на каждый мне показалось лениво. Поэтому покамест используется именно, что общий алгоритм. Который может извлекать как посты с блога на друпале, так и, скажем, комиксы с www.phdcomics.com ;o)

Cooluck Oct 22 2008 at 01:42

Сейчас использую Google Reader с greasemohkey-дополнением Preview — мне удобно.

А вот Ведомости (http://www.vedomosti.ru/) забрать не удалось. Пробовал также через Yahoo Pipes совместить хотя 3 ленты в одну —не вышло из-за нестандартной кодировки (win-1251 Яху понимать отказался)

niksite Oct 22 2008 at 12:30

Ага, я тоже пользовался preview до того, как сделал этот сервис.

aaa111 Oct 22 2008 at 09:57

Спасибо.
Было бы очень хорошо, если бы для сложившихся сайтов (ЖЖ, например) скрипт знал местоположение потока, т. е. например smths.livejournal.com автоматом превращалось в smths.livejournal.com/data/rss

niksite Oct 22 2008 at 12:46

Можно сделать автодетект лент на сайтах. Я подумаю, может такую функциональность и добавлю.

UFO just landed and posted this here

SergeyPonomarenko Feb 8 2009 at 15:29

Спасибо, вот только с картинками беда. Например вот здесь:
www.film.ru/export/articles.rss.asp

niksite Feb 27 2009 at 11:25

Я посмотрю, что можно с ними сделать.

darkk Feb 27 2009 at 07:41

Полезная игрушка. А вот у меня два вопроса:
1) в случае, если по ссылке контента нет — останется ли тизер в фиде?
2) можно исходники посмотреть?

niksite Feb 27 2009 at 11:27

> Полезная игрушка.

Я знаю. У меня около 10% всех фидов в гугл-ридере через этот сервис качаются.

> А вот у меня два вопроса:
> 1) в случае, если по ссылке контента нет — останется ли тизер в фиде?

Да, если контента по ссылке меньше некоторого количества символов, а в тизере больше — в фид включается именно тизер.

> 2) можно исходники посмотреть?

Нет :o)

darkk Feb 27 2009 at 11:41

2) из соображений «жадности» или для усложнения борьбы с сервисом тем, кто фиды полные отдавать не хочет? :-)

niksite Feb 27 2009 at 11:50

Ага (скажем, с lleo мы три итерации броня-снаряд уже прошли), плюс ещё несколько причин.

darkk Feb 27 2009 at 12:01

Гм… как минимум используя firefox+mozrepl можно сделать принципиально непобедимый снаряд с сумасшедшим оверхэдом, думаю, запуск такого снаряда можно будет сравнить с ядерной атакой :-D

niksite Feb 27 2009 at 12:21

> Гм… как минимум используя firefox+mozrepl можно сделать принципиально непобедимый снаряд с
> сумасшедшим оверхэдом, думаю, запуск такого снаряда можно будет сравнить с ядерной атакой :-D

Почти непобедимый, да. Но тяжелый и не очень удобный в обращении. Я успешно использовал подобный метод против сайтов, практикующих Javascript шифрование текстов. Думал даже сделать javascript-enabled-proxy (http-proxy, которая выдаёт страницы с уже отработавшими onLoad и им подобным javascript`ами), но поленился.

И против подобного, разумеется, тоже можно бункер построить. Как, впрочем, и разработать ещё более хитрый снаряд.

darkk Feb 27 2009 at 12:25

Я, если честно, очень плохо себе представляю, как без активного взаимодействия с пользователем построить бункер супротив такого снаряда. А просить вводить капчу для того, чтоб прочитать текст — форменный фашизм.

niksite Feb 27 2009 at 12:42

> Я, если честно, очень плохо себе представляю, как без активного взаимодействия с пользователем
> построить бункер супротив такого снаряда.

Ну, lleo, скажем, использует клоакинг супротив IP-адреса моего (и ещё многих) сервера. Это, конечно, легко обходится.
Можно придумать ещё много характеризующих признаков, по которых и баннить. Да, тогда легко могут пострадать невиновные люди (скажем, я теперь не могу использовать этот свой сервер в качестве прокси при просмотре дневника lleo, получилась забавная ситуация — я могу его читать в гугл-ридере, но не могу читать его на его же собственном сайте).

> А просить вводить капчу для того, чтоб прочитать текст — форменный фашизм.

Да, разумеется. Но это бы сработало на некоторое время.

darkk Feb 27 2009 at 12:02

P.S. английское соглашение о конфиденциальности на русскоязычном сайте — это, по-моему, ужасно.

niksite Feb 27 2009 at 12:23

Это не русскоязычный сайт. Он мультиязычный. Не будь вы русским, сайт бы разговаривал с вами на английском. Я посчитал, что никому кроме англоговорящих всяческие соглашения тосы и тому подобные бумажки в принципе не интересны.

GeeZeR Mar 1 2009 at 09:52

А нет ли у разработчика мысли, что было бы неплохо вести каталог обработанных лент?

niksite Mar 1 2009 at 10:14

А зачем?

GeeZeR Mar 1 2009 at 17:17

Я бы даже уточнил — успешно обработанных лент. С результатом, удовлетворившего пользователя.
Тех лент, в которых отсутствуют лишнее и ненужное, не относящееся к новости.
Таким образом, проще было бы забирать полные и качественные фиды.

niksite Mar 1 2009 at 18:20

Очень странный use case. Вы правда думаете, что пользователи, получив ленту будут ещё где-то отмечать степень своей удовлетворенности?

GeeZeR Mar 1 2009 at 18:31

Признаться, я бы отметил.
Я уже второй раз пользовался этим сервисом. И во второй раз, скопом переводя все свои подписки, выявил, что половину лучше оставить такими, как и раздает их «официальный» источник. Так, например, неоднозначно были обработаны rss Коммерсанта, Автокадабры, Главбуха… да и Хабрхабр, увы, не идеален. Допускаю, что в этом может быть и вина ридера (в основном я в последнее время читаю rss на коммуникаторе под WM).

niksite Mar 1 2009 at 18:59

> Признаться, я бы отметил.

тогда не лучше ли воспользоваться любым из упонянутых на сайте средств обратной связи и сообщить мне о каждой конкретной проблеме? Возможно, я как-нибудь в очередной раз перепишу алгоритм извлечения, учтя выявленные недостатки текущего.

По «списку удачных фидов» я всё ещё не понял. Вы бы свои подписки действительно бы стали искать в подобном списке, вместо того что бы просто ввести адрес в форму и посмотреть, что получится? А что стали бы делать с теми фидами, которые в списке не нашли (скажу по секрету, редкий фид у меня запрашивается более, чем одним пользователем)?

Show the best of all time