Comments 18
Полученные наборы токенов с метками далее случайным образом распределяются на обучающую выборку (60%), выборку для feature selection (15%) и тестовую выборку (15%), – она сохраняется в mongoDB.
А оставшиеся 10% списываете на хоз.нужды?)
Все «братья» классификатора переобучаются вместе с изменившимся, потому что обучающая выборка для всего уровня одна и та же – тексты сайтов из ТОП-50 результатов поиска Bing, найденных по запросам из всех узлов-братьев и всех их детей.
Правильно ли я понимаю, что в случае с классификацией двух тематик (пример: есть кошка/есть собака), размер обучающей выборки составляет 70 веб страниц, а тестовой — 15?
Все «братья» классификатора переобучаются вместе с изменившимся, потому что обучающая выборка для всего уровня одна и та же – тексты сайтов из ТОП-50 результатов поиска Bing, найденных по запросам из всех узлов-братьев и всех их детей.
А почему для подготовки выборки выбран поисковик Bing, а не Яндекс, которые выдает более релевантные сайты на поисковые запросы?
А вообще для данной задачи в большей степени важен тематический поиск — нужно находить сайты, на которых много текста заданной тематики. По этому параметру Bing в целом не уступает Яндексу, который скорее ориентирован на навигацию и пользовательские интенты.
Нужно махом векторизовать всю историю пользователя целиком. Самый простой вариант — классификация tf-idf по доменам, либо по токенам, выделенным из url. Вариант посложнее — скачать все страницы, очистить от html кода, векторизовать doc2vec, lda или artm, затем представить пользователя как определенную композицию таких тематик. Такие данные можно скармливать моделям посложнее, например нейросети. В первом случае можно обойтись svm.
Разумеется нужна и обучающая выборка — ее можно получить из связок идентификатора (куки) с соцсетями или дейтингами. На момент написания статьи, в нашем распоряжении было до миллиона таких связок и точность, например, гендерной модели составляла более 80%, что превышает общепринятый средний показатель для телевизора.
Иерархическая классификация сайтов на Python