Pull to refresh

Comments 42

> Получение основного контента веб-страниц программно

Зачем там слово «программно»?
т.е. до этого всё делалось только аппаратно, а вы предложили программную реализацию?

> необходимо, чтобы все разработчики придерживались единых правил разметки веб-страниц

Собственно, дальше можно не читать. Это уже нереально.
>> Зачем там слово «программно»?
Оно необходимо.

>> Собственно, дальше можно не читать. Это уже нереально.
А вы почитайте, что перед этим написано: «Использование этого метода в данный момент сталкивается с такими проблемами...»
UFO just landed and posted this here
наверное, лучше было бы употребить «автоматизированно»
Ожидаем новый виток гонки вооружений между SEO-мастерами и инструментами анализа веб-страниц?
Дорвейщики снисходительно улыбаются читая этот пост.
> В данный момент есть проблемы с некоторыми сайтами, например, с хабром.

Удивительно. Вот уж кого сложно обвинить в некошерной (несемантической) верстке. Весь контент лежит в div class=«content» и любые алгоритмы автоматического извлечения данных (будь то tidy read что встраивается расширением к хрому, или feedex.net коий работает расширителем урезанных rss-лент до полнотекстового вида) прекрасно с ним справляются.
Неужели нельзя было картинки на нормальный хост залить?
блин, используйте habrastorage.org для хостинга картинок. всегда.
там без флеша грузить нельзя, потому — не работает
Можно посмотреть на алгоритмы в Сафари, там есть функциональность Reader. И все делается автоматом
картинки под хабраэффектом?
Блин, ну как грязи же нормальных картиночных хостингов! Что все изъебнуться-то норовят?!
Перезалил изображения. Прошу извинить — не ожидал такой нагрузки.
System Requirements

1. OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
2. .NET Framework 3.5
А я думаю че эт на 7 ке х64 не работает :(
+1, тоже не работает.
Прям абыдно(
Он ниже пишет, что оно и не должно работать. «этой функциональности на сайте еще нет». Этот пост — просто SEO-реклама блога (ссылки с главной хабра любит яндекс), не более того.
Для этой заметки тоже нужен извлекатель контента, не читабельно.
Описание использованных алгоритмов: нет (есть ссылка на redability — чего б было её не проанализировать да не развёрнуто описать? алгоритм у них весьма простой используется)
Реклама собственной разработки в после: есть (при этом, я описание данной программы уже где-то видел довольно давно, судя по статье — ничего с тех пор не изменилось)
Полезность разработки для пользователей: нет (разработка не способна даже с хабром справиться, с коим легко справляются все доступные альтернативы; разработка эта на нечеловеческом .NET под устаревшие операционки, тогда как альтернативы мне встречались и на php и на perl и на python и на javascript, то есть заведомо кросс-платформенные)
Readability, ЕМНИП, на хабре тоже валится, когда наличествует комментарий, превышающий по объему статью.
Возможно, у разработки автора та же проблема.

А алгоритм, согласен, не мешало бы хоть чуть-чуть осветить, хотя бы в двух словах, в чем идея.
> Readability, ЕМНИП, на хабре тоже валится, когда наличествует комментарий, превышающий по объему статью.

Они, судя по коду, вполне умеют отфильтровывать комментарии и повышать вес контенту. А в хабре комментарии это содержимое блока div id=«comments», который Readability по идее сечет.
Странные люди на хабре попадаются…

Описание использованных алгоритмов — 4 статьи привел с развернутым описанием.
Readability использует простой алгоритм — отлично, я за них очень рад.
Реклама собственной разработки — да, так и есть. И что?
Описание видели и ничего не изменилось — да вы, слепой, глядишь.
Полезность не видите — см. выше.
Не может даже с хабром справиться — не хабром едины, главное, что на зарубежных сайтах отрабатывает. А немного подправим — и для любимого вами хабра заработает.
Доступные альтернативы — это какие?
Нечеловеческий .NET — да, вы, извините, просто больной на голову.
Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка? Читать внимательно надо, а не ушами хлопать.

Короче, еще один крикун детектед.
> Описание использованных алгоритмов — 4 статьи привел с развернутым описанием.

Глядя на пост, вижу 11 больших картинок и ни одного описания. Да, ещё 4 ссылки есть. По ссылкам реклама всё той же программы. По одной из сылок крайне общее описание работы программы.
Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?

> Описание видели и ничего не изменилось — да вы, слепой, глядишь.

Именно эти ваши блогопосты от 2009 года я и видел. Вы ничего к ним в текущем посте не добавили, лишь тупо проставили ссылки.

> Нечеловеческий .NET — да, вы, извините, просто больной на голову.

Не извиню. Майкроссофт головного мозга лечению поддаётся плохо, и извинению не подлежит.

> Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка

По вашим же ссылкам везде проставлено:

System Requirements
OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
.NET Framework 3.5

Слово «32-bit only» видите, зрячий вы наш?

> Короче, еще один крикун детектед.

«Слепой», «больной», «крикун»…
Вас, похоже, очень задевает объективная реакция на рекламный пост вне блога «я пиарюсь»? Привыкайте, если собираетесь и дальше продавать своё поделие.
>>Вся логика энкапсулирована в классе MainContentExtractor из разработанной библиотеки Data Extracting SDK (в данный момент этой функциональности на сайте еще нет
Читать научись, перед тем как что то писать «объективное».

>>Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?
А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?

У вас самого с мозгом проблемы.
> >>Вся логика энкапсулирована в классе MainContentExtractor из разработанной библиотеки Data Extracting
> SDK (в данный момент этой функциональности на сайте еще нет
> Читать научись, перед тем как что то писать «объективное».

Ага. То есть вы в техническом блоге datamining (не в «я пиарюсь») рекламируете свою прошлогоднюю программу (и только её, SDK нет, толкового описания работы нет, есть общие слова о том, что такое datamining, но в этом блоге половина статей с этого начиналась). Приводите ссылки на свои же блогопосты от 2009 года. При этом описываемой функциональности на вашем сайте даже и нет, как вы только что верно подметили.

> А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?

Зашел, посмотрел. Постом ранее вы ратовали за то, чтобы на хабре было больше полезных технических постов. Набрали с этого благого желания +80. А потом пошли в технический блог и выложили рекламный пост. Да вы, тьфу, SEOшник!
Не виже смысла что-то объяснять дебилу.
Мальчик, тебе в школу не пора? Что переместил топик в «я пиарюсь» — хвалю, молодец. А то ж это было нарушением правил хабра, за что мог бы и ата-та словить. Осталось разговаривать научиться, а то ругаешься как впервые дорвавшийся до интернета старшеклассник — мозгов ещё нет, зато гормоны бурлят. Не то, что-бы это кого-либо волновало, просто мне больше по нраву чистый от глупости хабр.
Мальчиком будешь своего папу называть. Хочешь «чистый от глупостей хабр» — попроси администрацию удались свой аккаунт, глядишь, действительне, чище станет.
То же пишу программку, которая высовывает контент со страницы. Не подскажешь автор, как легче всего данные, похожие на формат xml, перевести в переменные?
Ну почему-то сразу в голову приходит eXpat. Это SAX XML парсер. Немного правда мудреный.
Спасибо. Но желательно стандартными средствами C# и библиотеки .NET.
По правде сказать C# это как VisualBasic если никто не напишет, то вся надежда что Microsoft включит в .NET Faramework %текущая версия% + 1
Ну я имею ввиду какой самый простой способ, используя стандартные средства. Я то могу сделать что надо. Но это такой г*мор будет.
С приходом HTML5 проблема находжения основного контента должна исчезнуть

Эх, HTML5… Меня вот друг вчера позвал помочь. Ему в 1С приходят отчеты в HTML, сформированные каким-то Oracle Reports. Так это вынос мозга. Такое впечатление, что тот, кто делал HTML-шаблон, просто нарочно сделал его как можно более невалидным и запутанным, но при этом напоминающим HTML. Таблица в таблице и в таблицу завернуто, <TR> и <TD> не закрыты… в общем, весело.

А за статью спасибо!
Readability использую несколько недель — результатами доволен. Правда, иногда он всё-же не совсем правильно вырезает статью, может и что-то лишнее схавать. Очевидно, полностью проблема не решена пока никем :)
Так и есть. Это ai-полная задача. Но добиться 99% успеха уже неплохо и вполне достижимо.
Я вот для чтения текстов использую Ice Book Reader. Очень удобно.
Но в нем косяк сейчас, очень много нужно кликов что бы начать читать текст из браузера.
Сейчас в ветке обсуждается как сделать что бы можно было начинать читать в IBR в один клик.

www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
апайте тему, кто читает в IBR и кто бы начинать читать в нем текст из браузера можно было в один клик
разработка интересная, но нет описания алгоритма и принципов работы. поэтому ценность статьи нулевая.
>>Ряд моих предыдущих статей были посвящены исследованию этой проблемы, в частности, предлагаю ознакомиться с такими публикациями:
Нужен плагин для Firefox который бы копировал в буфер основной контент.
Далее этот контент перехватывается программой читалкой Ice Book reader
www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
Может кто встречал?
Sign up to leave a comment.

Articles