Pull to refresh

Comments 10

Сам занимался похожим, но решил задачу по-другому: брал новостные сайты (там тексты уже размечены человеком :) ), достаточно пары тройки крупных сайтов для нескольких десятков тысяч текстов.
А о каком виде разметки идет речь? Ключевые слова являются ссылками на другие ресурсы, или же это встраиваемая в сайт разметка, которую тот же гугл предлагает в целях «правильной интерпретации информации»?
z использовал ту штуку, которая, например, на ленте называется «рубрика» (то есть каждая статья отнесена к политике, экономике, спорту и т.п.), ее можно получить как просто качая статьи из категорий, и так же она есть непосредственно в html разметке страницы статьи
Если у вас была цель сделать качественную выборку большого объема, плюс сделать это быстро и просто — вы выбрали наиболее правильный вариант)
Мне не удалось в полной мере отразить свою задумку в статье, но подход у меня был скорее исследовательский, чем направленный на извлечение практической пользы
Я хотел бы сделать нечто универсальное, дабы минимизировать участие человека в составлении выборки
Я не думаю, что эта выборка является качественной, она не репрезентативна в том плане, что по факту используется ограниченное число авторов текстов (журналисты сайтов, их сравнительно мало), из-за чего могут быть ошибки связанные с «обучился на стиль», а по поводу участия человека, так его тут нет, только запуск программы.
От вас да — только написание алгоритма и запуск программы, но ведь статьи до вас кто-то рубрицировал, те же самые журналисты в вашем случае. Я говорю о том, что мне было интересно, как поведет себя модель, обученная на смешанных и относительно непредсказуемых данных (я не знаю всех алгоритмов, которые использует гугл для оценки релевантности выдачи и ранжирования, могу догадываться о некоторых).
Хотел было написать про googlecl, но он, оказывается, всё. Зато нашёл пакет duckduckgo для одноименного поисковика (есть в репозитории Fedora). По-видимому, не первой свежести проект, но работает. Исходник здесь.

Скрытый текст
$ duckduckgo cat
WWW::DuckDuckGo HTTP request failed: 501 Protocol scheme 'https' is not supported (LWP::Protocol::https not installed) at /usr/share/perl5/vendor_perl/WWW/DuckDuckGo.pm line 116.
WWW::DuckDuckGo Can't access https://api.duckduckgo.com/ falling back to: http://api.duckduckgo.com/ at /usr/share/perl5/vendor_perl/WWW/DuckDuckGo.pm line 117.

Cat (disambiguation)

Related Topics:
 - Cat A small, typically furry, domesticated, and carnivorous mammal. They are often called house...
   https://duckduckgo.com/Cat
 - Cat ZinganoAn American mixed martial artist who competes in the UFC. On April 13, 2013, she became the first...
   https://duckduckgo.com/Cat_Zingano
 - Cat Stevens A British singer-songwriter, multi-instrumentalist, humanitarian, and education philanthropist.
   https://duckduckgo.com/Cat_Stevens
$

Могу также порекомендовать GoogleScrapper для извлечения ссылок, заголовков и сниппетов из поисковой выдачи. Хотя свой корпус новостных текстов собирал так же как и Kwent, кроулер ходил по рубрикам крупных новостных сайтов, а newspaper делал всю остальную работу.

Если можно в двух словах, что будете использовать непосредственно для классификации текстов?
Для обучения модели я выбрал два наиболее часто используемых подхода — Метод опорных векторов и Наивный Байесовский алгоритм классификации (два опять же для сравнения)
В в планах также применить нейронные сети
Only those users with full accounts are able to leave comments. Log in, please.