Как стать автором
Обновить

Комментарии 33

Исходя из первого абзаца:
«Проблема заключается в том, что добрая половина веб-сайтов содержит кучу ненужной информации»
получается, что вот этот сервис как раз делает эту работу
lab.arc90.com/experiments/readability/
Или я чего-то недопонял?
Вы поняли правильно. Большое спасибо за ссылку.
У меня по данному урлу не заходит, может закралась ошибка?
Интересный сервис, считает что контентом на хабре являются комментарии а не сама статья :)
У меня наоборот осталась только статья, без комментариев
По вашей ссылке, выходит, что ваш комментарий самая полезная часть данной страницы:

полезный комментарий
Спасибо очень интересная тема, сам только недавно начал копать в эту сторону. Ваш пост дал понять мне, на сколько далек я еще от «истины» =)
Очень интересно.

А как вы определяли вклад каждого фактора в общую картину? По регрессионной модели?
Да, для каждого фактора был найдет его «вес» в общей регрессионной модели.
имхо такой продукт должен существовать в виде расширения к одному из браузеров (или для всех :) )
думаю не очень удобно будет каждый раз копипастить ссылки в отдельную программу.
даешь чистый веб! :)
для FF оно, разумеется, существует ;o) tidyread называется.
да, интернет уже не тот..
раньше все эти банеры, ссылки и прочий crap был только на порно сайтах :))
По моему первичную фильтрацию контента удобнее представлять на конечном сайте. Всегда приятно пользоваться веб сервисом на котором контент можно настроить под себя, а не читать всю кучу ненужной информации. Согласен с предыдущим комментарием по поводу расширения к браузеру. :)
НЛО прилетело и опубликовало эту надпись здесь
Вы рассуждаете с точки зрения практического использования и я с Вами полностью согласен. В данный момент идея состоит в том, чтобы очистить, а как после этого мы применим ее и где — уже вопрос следующих этапов.

Если же говорить о каталогах, сайтах, где из нужной информации только ссылка для скачивания (зайцев.нет например), то этот подход работать не будет, ведь, по сути, основного контента (т.е. текста) попросту нет.
> Если же говорить о каталогах, сайтах, где из нужной информации только ссылка для скачивания
> (зайцев.нет например), то этот подход работать не будет, ведь, по сути, основного контента (т.е. текста)
> попросту нет.

Ещё комиксные сайты некоторые проблемы доставляют. Мне на них оказалось проще зафильтровать всё, что точно не является контентом, чем пытаться выделить контентный IMG.
Что Вы думаете о возможности для пользователя скрывать/отключать блоки с маловажной информацией и «мусором»? До прочтения Вашей статьи считал, что нельзя позволять юзерам такие вольности.
НЛО прилетело и опубликовало эту надпись здесь
может пропустил. А регрессия линейная или нет?
В данном примере регрессия линейная. Как следующий этап исследований — это нахождение факторов которые вообще должны учавствовать в регрессионной модели, ведь по определению все факторы должны быть независимыми, что на практике не всегда верно.
Да, SmartBrowser в качестве плагина для лисы был бы очень полезен, единственно не понимаю зачем Микрософту спонсировать разработку — не думаю что им это выгодно.

А количество плагинов для лисы, позволяющих настраивать вид страницы огромно, вот только для автоматического клинапа нашелся только один — Clean the junk — https://addons.mozilla.org/ru/firefox/addon/13193
> Clean the junk

AdBlock неплохо с этим справляется. Особенно если с ElementHidingHelper совмещен.
А вы ищете TidyRead.
НЛО прилетело и опубликовало эту надпись здесь
«An error has been occured while processing the query. Please try again.» — И ни в какую. Windows 7 7100
Было бы неплохо, если бы программа пыталась открыть url не только при клике мышкой по кнопочке, но и при нажатии клавиши Enter.
тоже проблемы:

System.IO.FileNotFoundException: Невозможно загрузить файл или сборку «Microsoft.mshtml, Version=7.0.3300.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a» или один из зависимых от них компонентов. Не удается найти указанный файл.
Имя файла: «Microsoft.mshtml, Version=7.0.3300.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a»
Необходимо, чтобы на машине была установлена библиотека Microsoft.mshtml. Она устанавливается либо с Visual Studio, а также входит в различные SDK. Подробнее www.dotnet-tips.com/2006/09/issue-with-could-not-load-file-or.html
Больше чем уверен, такую штуку можно было бы скомпилять и для Net 2.0. Просто многие еще висят на XP. Или вы использовали фичи более поздних версий фреймворка, еслс ДА, то какие — интересно как разработчику. Сам стараюсь все под 2.0 подгонять…
Конечно, можно было писать и на 2.0.

В 3.5 использую упрощенную запись свойств типа «public string SomeProp {get;set;}» — при большом количестве свойств ощущается экономия места. Ну и Linq + лямбда-выражения, без них никак… :)
ну про «без них никак» вы лукавите ))
Собственно, почему написал пост выше — на большинстве предприятий большая инертность, редко кто ставит что-то выше XP (тут и финансирование[софт, компы], переобучение и др. факторы), поэтому и задал вопрос… мне вот приходится вторым фреймворком обходиться(очень здорово, что софт без особых проблем под mono работает).
Когда привыкаешь к хорошему, трудно себя заставить делать это по другому.

Я, например, убедил начальство использовать ASP.NET 3.5 SP1 ради ASP.NET Dynamic Data для разработки корпоративного сайта. Основной аргумент — сокращение времени разработки (а, значит, экономия денег для компании). А хостинг найти для 3.5 (даже с SP1) сейчас не проблема.
Кстати, по реализации.

Чтобы не приходилось «дискретно» решать мусор это или что-то важное, можно просто использовать яркость/прозрачность контента.
Чуть приглушить «маловажную информацию» и чуть более приглушить «мусор», и чтение станет гораздо более приятным. В то же время это даст возможность все-таки добраться до информации, распознанной как «шум».
Плюс дать возможность по, к примеру, Ctrl-Shift-Mouse Scroll восстанавливать/приглушать яркость и цены такой штуке не будет! А еще если в виде плагинов :)

> Среди параметров были следующие:
> * и т.д.

Вот на список параметров с уже проставленными весами было бы очень интересно посмотреть. Я только собираюсь реализовать у себя сходную функциональность и пока не составил даже списка подходящих метрик, не говоря уже о расчёте их влияния.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории