Pull to refresh
28
0
Send message

Спасибо за прямоту!

Ни я, ни мои коллеги, которые помогали со статьей, не придали значения терминологической разнице между обзором и описанием, которую вы указываете. В будущем мы будем иметь ее в виду. Мы действительно стараемся быть классными во всем. Если захотите нам помочь (в том числе с разбором статей), у нас есть классные вакансии (например https://team.vk.company/vacancy/9721/, https://team.vk.company/vacancy/8787/).

Пока не могу ответить — это зависит от нескольких факторов.
Было интересно наблюдать как вы заняли почти на всех треках первое место.

Это не я, скорее всего вы имеете в виду Ивана Брагина.
Я сам не пробовал добавлять user_id как категориальную фичу

я сделал для топ-100к user_id собственные эмбединги, а все остальные были на одном oov-значении. При этом в моем случае добавление последовательности постов дало намного больше прирост качества, чем собственно user_id.
выше 0.64 не смог подняться

0.64 в топ-15 по этой задаче, следовательно вы прошли квалификацию на очную часть. Возможно, там увидимся.

Да, это целевая переменная (y в уравнении). Я добавил ее на диаграммы, чтобы на них были представлены все компоненты, которые есть в уравнении.

А какие параметры леса? Тюните как-то?

И кстати, почему ova, у RF с мультиклассом же все в порядке?
Собственно, какой в итоге типичный размер обучающей выборки?
Все «братья» классификатора переобучаются вместе с изменившимся, потому что обучающая выборка для всего уровня одна и та же – тексты сайтов из ТОП-50 результатов поиска Bing, найденных по запросам из всех узлов-братьев и всех их детей.


Правильно ли я понимаю, что в случае с классификацией двух тематик (пример: есть кошка/есть собака), размер обучающей выборки составляет 70 веб страниц, а тестовой — 15?
Пока практики выкладывания студенческих проектов не было. Сами решения, разумеется, принадлежат студентам, и мы не можем выложить их без спроса. Я думаю над тем, чтобы выложить свое решение проекта этого семестра, но, естественно, не раньше, чем семестр закончится :)
Да, каждый семестр мы придумываем семестровый проект: за прошедшие три семестра студенты решали задачи, связанные с анализом данных ФБ, классификацией игроков онлайн игр и анализом твитов.
Александр, приглашаю Вас выступить на нашем митапе по Data Science (http://www.meetup.com/Moscow-Data-Science/). Судя по Вашему профилю LinkedIn, нашим слушателям будет интересно в Вами пообщаться. Следующая встреча состоится в конце мая.
Как я писал, в статье для краткости не упомянуты все типы фич. На самом деле те, что Вы предложили, используются.
1. Вы не используете в качестве факторов типичное время сессий (вечер, рабочее время, обед) и типичную длительность сессий? Ведь это даёт хорошее разделение пользователей по возрасту и типу занятости.

Используем, в этой статье не довелось упомянуть про все типы используемых фич.

2. Вы не пробовали использовать методы понижения размерности, например, Word2Vec? Я полагаю, что Word2Vec хорошо справится с вашей сильно разреженной матрицей слов.

Методы понижения размерности используем (LSA, LDA и вариации), но до Word2Vec пока не добрались. Спасибо за совет, попробуем.
Где-то уже определёно что пользователь == A21CE, причём IP отдельно записывается на той картинке. Или в данном случае это user-id записанный в куки?

Да, этот идентификатор пишется в куки
А пользователей в режиме Инкогнито обсчитываете? Через прокси/ВПН?

Отсеиваются из-за того, что не проходят через фильтр «живых».
По поводу определения ботов — это целая большая подзадача. Используется смесь полуручного отбора на основании посещения «плохих» сайтов, анализа паттернов посещения по частоте и распределений посещений внутри дня. Также кое-какие наработки из области Фурье-анализа. Научные статьи, лежащие в основе, гуглятся.

Склеивание посещений с разных устройств происходит на основании «глобальных» идентификаторов (например, хэша почты). Но разумеется бывают и пользователи, которых нельзя сопоставить — тогда они рассматриваются как разные.
Все совпадения случайны. При написании статьи ни один программист не пострадал.
На самом деле я постарался схематично пробежаться по всему подходу, посвятив пару параграфов каждому из этапов (сбор данных, конструирование признаков, выбор признаков, моделирование, валидация). В этом смысле моделирование получило не меньше внимания, чем остальные части. Если всем все понравится и мне разрешат, то я как-нибудь поподробнее напишу про моделирование.

Пока что на этот пост можно смотреть не как на инструкцию по рисованию совы, а как на демонстрацию конечного результата с небольшим пояснением: «вот какая у нас есть сова, белая и летает».

Что касается мат.части, книга Бишопа чудо как хороша.

Information

Rating
Does not participate
Works in
Registered
Activity