К этим размышлениям меня подтолкнуло постоянное увеличение количества топиков в моём RSS-ридере. На Хабре тоже постоянно всплывают статьи в стиле «а вот мне не нравятся топики о ХХХ на главной, дайте возможность фильтровать». Как вариант решения предлагают фильтровать не нравящиеся слова через Regexp-ы в Yahoo Pipes.
Алгоритм Байеса успешно используется для фильтрации спама. Он простой, обучающийся и эффективный (отсекает до 95—97 % спама). Так почему бы не использовать его для фильтрации потока информации?
Предположим, что все топики в ридере — это спам. Поведение пользователя не отличается от обычного — он читает топик за топиком, отмечая про себя что понравилось, а что — не понравилось. Внесем одну дополнительную возможность в ридер — отмечать понравившиеся топики (для обучения фильтра Байеса). Тогда после некоторого периода обучения фильтр сможет отсеивать топики, которые скорее всего понравятся пользователю. И помещать их, например, в раздел «Прочитать в первую очередь».
Можно пойти дальше, и фильтровать информацию с помощью плагина к броузеру.
Может перенести топик в блог «Я безумен»?
Алгоритм Байеса успешно используется для фильтрации спама. Он простой, обучающийся и эффективный (отсекает до 95—97 % спама). Так почему бы не использовать его для фильтрации потока информации?
Предположим, что все топики в ридере — это спам. Поведение пользователя не отличается от обычного — он читает топик за топиком, отмечая про себя что понравилось, а что — не понравилось. Внесем одну дополнительную возможность в ридер — отмечать понравившиеся топики (для обучения фильтра Байеса). Тогда после некоторого периода обучения фильтр сможет отсеивать топики, которые скорее всего понравятся пользователю. И помещать их, например, в раздел «Прочитать в первую очередь».
Можно пойти дальше, и фильтровать информацию с помощью плагина к броузеру.
Может перенести топик в блог «Я безумен»?