Pull to refresh

Comments 18

Чем-то напоминает Яндекс.Атом а если вы зашли в комментарии узнать, что за чертёж на КДПВ — это так называемая myasorubka
Полученные наборы токенов с метками далее случайным образом распределяются на обучающую выборку (60%), выборку для feature selection (15%) и тестовую выборку (15%), – она сохраняется в mongoDB.

А оставшиеся 10% списываете на хоз.нужды?)
Все «братья» классификатора переобучаются вместе с изменившимся, потому что обучающая выборка для всего уровня одна и та же – тексты сайтов из ТОП-50 результатов поиска Bing, найденных по запросам из всех узлов-братьев и всех их детей.


Правильно ли я понимаю, что в случае с классификацией двух тематик (пример: есть кошка/есть собака), размер обучающей выборки составляет 70 веб страниц, а тестовой — 15?
Нет, каждой тематике можно сопоставить сколько угодно поисковых запросов и по каждому из них будет 50 сайтов (правда странички, найденные по разным запросам, могут совпадать), сейчас число запросов не может быть менее 5, но часто их больше. Кроме того есть так называемые «белый и черный списки» — вручную добавленные странички, которые также участвуют в обучении.
Собственно, какой в итоге типичный размер обучающей выборки?
Для разных уровней таксономии порядки отличаются. Для верхнего уровня обучающая выборка сейчас в районе 15 000 документов, с 1000 — 3000 положительных примеров на тематику, для нижних уровней — порядка 200 — 300 положительных примеров на 500 — 700 сайтов вообще.
А какие параметры леса? Тюните как-то?

И кстати, почему ova, у RF с мультиклассом же все в порядке?
Пока что я экспериментирую с различными настройками и видами деревьев. Единственного выбранного подхода на данный момент нет. Как появится — напишу.
А можете пояснить суть метрики dg? Что подается в аргумент arr и вообще какая была логика выбора этой метрики?
Все «братья» классификатора переобучаются вместе с изменившимся, потому что обучающая выборка для всего уровня одна и та же – тексты сайтов из ТОП-50 результатов поиска Bing, найденных по запросам из всех узлов-братьев и всех их детей.


А почему для подготовки выборки выбран поисковик Bing, а не Яндекс, которые выдает более релевантные сайты на поисковые запросы?
У нас есть подписка на Azure, который предоставляет удобный API к Bing, а Яндекс, на сколько я знаю, возвращает результаты только в XML, что нам не очень удобно. Плюс к этому у Яндекса довольно сложная система ограничений на количество запросов и IP-адреса.

А вообще для данной задачи в большей степени важен тематический поиск — нужно находить сайты, на которых много текста заданной тематики. По этому параметру Bing в целом не уступает Яндексу, который скорее ориентирован на навигацию и пользовательские интенты.
Вы можете определить исходя из посещенных страниц возраст и пол?
Можем с определенной вероятностью, но для этого используются другие специальные механизмы, не тематики
Прошу прощения за некропостинг, но не подскажите какие механизмы вы используете? Всегда интересовала эта тематика

Нужно махом векторизовать всю историю пользователя целиком. Самый простой вариант — классификация tf-idf по доменам, либо по токенам, выделенным из url. Вариант посложнее — скачать все страницы, очистить от html кода, векторизовать doc2vec, lda или artm, затем представить пользователя как определенную композицию таких тематик. Такие данные можно скармливать моделям посложнее, например нейросети. В первом случае можно обойтись svm.
Разумеется нужна и обучающая выборка — ее можно получить из связок идентификатора (куки) с соцсетями или дейтингами. На момент написания статьи, в нашем распоряжении было до миллиона таких связок и точность, например, гендерной модели составляла более 80%, что превышает общепринятый средний показатель для телевизора.

Большое спасибо! Буду кустарно делать эксперименты для себя :)
Only those users with full accounts are able to leave comments. Log in, please.

Information

Founded
Location
Россия
Website
datacentric.ru
Employees
51–100 employees
Registered