ser0t0nin Jul 2 2015 at 18:09

Иерархическая классификация сайтов на Python

8 min

27K

DCA (Data-Centric Alliance) corporate blogPython*Big Data*Machine learning*

+36

Comments 18

Rondo Jul 2 2015 at 18:41

Чем-то напоминает Яндекс.Атом _{_{_{а если вы зашли в комментарии узнать, что за чертёж на КДПВ — это так называемая myasorubka}}}

Spoilt333 Jul 2 2015 at 19:20

Полученные наборы токенов с метками далее случайным образом распределяются на обучающую выборку (60%), выборку для feature selection (15%) и тестовую выборку (15%), – она сохраняется в mongoDB.

А оставшиеся 10% списываете на хоз.нужды?)

ser0t0nin Jul 2 2015 at 19:21

нет, обучающая выборка, конечно, 70%

anokhinn Jul 16 2015 at 17:49

Все «братья» классификатора переобучаются вместе с изменившимся, потому что обучающая выборка для всего уровня одна и та же – тексты сайтов из ТОП-50 результатов поиска Bing, найденных по запросам из всех узлов-братьев и всех их детей.

Правильно ли я понимаю, что в случае с классификацией двух тематик (пример: есть кошка/есть собака), размер обучающей выборки составляет 70 веб страниц, а тестовой — 15?

ser0t0nin Jul 16 2015 at 20:20

Нет, каждой тематике можно сопоставить сколько угодно поисковых запросов и по каждому из них будет 50 сайтов (правда странички, найденные по разным запросам, могут совпадать), сейчас число запросов не может быть менее 5, но часто их больше. Кроме того есть так называемые «белый и черный списки» — вручную добавленные странички, которые также участвуют в обучении.

anokhinn Jul 17 2015 at 10:25

Собственно, какой в итоге типичный размер обучающей выборки?

ser0t0nin Jul 17 2015 at 11:24

Для разных уровней таксономии порядки отличаются. Для верхнего уровня обучающая выборка сейчас в районе 15 000 документов, с 1000 — 3000 положительных примеров на тематику, для нижних уровней — порядка 200 — 300 положительных примеров на 500 — 700 сайтов вообще.

anokhinn Jul 17 2015 at 11:40

А какие параметры леса? Тюните как-то?

И кстати, почему ova, у RF с мультиклассом же все в порядке?

ser0t0nin Jul 17 2015 at 12:44

Пока что я экспериментирую с различными настройками и видами деревьев. Единственного выбранного подхода на данный момент нет. Как появится — напишу.

Swarg Jul 3 2015 at 08:10

А можете пояснить суть метрики dg? Что подается в аргумент arr и вообще какая была логика выбора этой метрики?

ser0t0nin Jul 3 2015 at 12:31

Мы сделали процедуру Feature Selection на основе этой статьи: Demographic Prediction Based on User’s Browsing Behavior. Там приведена формула для случая 2 классов (пункт 4.1.2.2), но мы расширили её на произвольное число классов.

Swarg Jul 3 2015 at 08:14

Все «братья» классификатора переобучаются вместе с изменившимся, потому что обучающая выборка для всего уровня одна и та же – тексты сайтов из ТОП-50 результатов поиска Bing, найденных по запросам из всех узлов-братьев и всех их детей.

А почему для подготовки выборки выбран поисковик Bing, а не Яндекс, которые выдает более релевантные сайты на поисковые запросы?

ser0t0nin Jul 3 2015 at 11:21

У нас есть подписка на Azure, который предоставляет удобный API к Bing, а Яндекс, на сколько я знаю, возвращает результаты только в XML, что нам не очень удобно. Плюс к этому у Яндекса довольно сложная система ограничений на количество запросов и IP-адреса.

А вообще для данной задачи в большей степени важен тематический поиск — нужно находить сайты, на которых много текста заданной тематики. По этому параметру Bing в целом не уступает Яндексу, который скорее ориентирован на навигацию и пользовательские интенты.

c4simba Jul 3 2015 at 11:46

Вы можете определить исходя из посещенных страниц возраст и пол?

ser0t0nin Jul 3 2015 at 12:01

Можем с определенной вероятностью, но для этого используются другие специальные механизмы, не тематики

IgnisNoir Aug 30 2017 at 16:48

Прошу прощения за некропостинг, но не подскажите какие механизмы вы используете? Всегда интересовала эта тематика

ser0t0nin Aug 30 2017 at 19:11

Нужно махом векторизовать всю историю пользователя целиком. Самый простой вариант — классификация tf-idf по доменам, либо по токенам, выделенным из url. Вариант посложнее — скачать все страницы, очистить от html кода, векторизовать doc2vec, lda или artm, затем представить пользователя как определенную композицию таких тематик. Такие данные можно скармливать моделям посложнее, например нейросети. В первом случае можно обойтись svm.
Разумеется нужна и обучающая выборка — ее можно получить из связок идентификатора (куки) с соцсетями или дейтингами. На момент написания статьи, в нашем распоряжении было до миллиона таких связок и точность, например, гендерной модели составляла более 80%, что превышает общепринятый средний показатель для телевизора.

IgnisNoir Aug 31 2017 at 11:56

Большое спасибо! Буду кустарно делать эксперименты для себя :)