Ни я, ни мои коллеги, которые помогали со статьей, не придали значения терминологической разнице между обзором и описанием, которую вы указываете. В будущем мы будем иметь ее в виду. Мы действительно стараемся быть классными во всем. Если захотите нам помочь (в том числе с разбором статей), у нас есть классные вакансии (например https://team.vk.company/vacancy/9721/, https://team.vk.company/vacancy/8787/).
Было интересно наблюдать как вы заняли почти на всех треках первое место.
Это не я, скорее всего вы имеете в виду Ивана Брагина.
Я сам не пробовал добавлять user_id как категориальную фичу
я сделал для топ-100к user_id собственные эмбединги, а все остальные были на одном oov-значении. При этом в моем случае добавление последовательности постов дало намного больше прирост качества, чем собственно user_id.
выше 0.64 не смог подняться
0.64 в топ-15 по этой задаче, следовательно вы прошли квалификацию на очную часть. Возможно, там увидимся.
Все «братья» классификатора переобучаются вместе с изменившимся, потому что обучающая выборка для всего уровня одна и та же – тексты сайтов из ТОП-50 результатов поиска Bing, найденных по запросам из всех узлов-братьев и всех их детей.
Правильно ли я понимаю, что в случае с классификацией двух тематик (пример: есть кошка/есть собака), размер обучающей выборки составляет 70 веб страниц, а тестовой — 15?
Пока практики выкладывания студенческих проектов не было. Сами решения, разумеется, принадлежат студентам, и мы не можем выложить их без спроса. Я думаю над тем, чтобы выложить свое решение проекта этого семестра, но, естественно, не раньше, чем семестр закончится :)
Да, каждый семестр мы придумываем семестровый проект: за прошедшие три семестра студенты решали задачи, связанные с анализом данных ФБ, классификацией игроков онлайн игр и анализом твитов.
Александр, приглашаю Вас выступить на нашем митапе по Data Science (http://www.meetup.com/Moscow-Data-Science/). Судя по Вашему профилю LinkedIn, нашим слушателям будет интересно в Вами пообщаться. Следующая встреча состоится в конце мая.
1. Вы не используете в качестве факторов типичное время сессий (вечер, рабочее время, обед) и типичную длительность сессий? Ведь это даёт хорошее разделение пользователей по возрасту и типу занятости.
Используем, в этой статье не довелось упомянуть про все типы используемых фич.
2. Вы не пробовали использовать методы понижения размерности, например, Word2Vec? Я полагаю, что Word2Vec хорошо справится с вашей сильно разреженной матрицей слов.
Методы понижения размерности используем (LSA, LDA и вариации), но до Word2Vec пока не добрались. Спасибо за совет, попробуем.
По поводу определения ботов — это целая большая подзадача. Используется смесь полуручного отбора на основании посещения «плохих» сайтов, анализа паттернов посещения по частоте и распределений посещений внутри дня. Также кое-какие наработки из области Фурье-анализа. Научные статьи, лежащие в основе, гуглятся.
Склеивание посещений с разных устройств происходит на основании «глобальных» идентификаторов (например, хэша почты). Но разумеется бывают и пользователи, которых нельзя сопоставить — тогда они рассматриваются как разные.
На самом деле я постарался схематично пробежаться по всему подходу, посвятив пару параграфов каждому из этапов (сбор данных, конструирование признаков, выбор признаков, моделирование, валидация). В этом смысле моделирование получило не меньше внимания, чем остальные части. Если всем все понравится и мне разрешат, то я как-нибудь поподробнее напишу про моделирование.
Пока что на этот пост можно смотреть не как на инструкцию по рисованию совы, а как на демонстрацию конечного результата с небольшим пояснением: «вот какая у нас есть сова, белая и летает».
Что касается мат.части, книга Бишопа чудо как хороша.
Спасибо за прямоту!
Ни я, ни мои коллеги, которые помогали со статьей, не придали значения терминологической разнице между обзором и описанием, которую вы указываете. В будущем мы будем иметь ее в виду. Мы действительно стараемся быть классными во всем. Если захотите нам помочь (в том числе с разбором статей), у нас есть классные вакансии (например https://team.vk.company/vacancy/9721/, https://team.vk.company/vacancy/8787/).
Это не я, скорее всего вы имеете в виду Ивана Брагина.
я сделал для топ-100к user_id собственные эмбединги, а все остальные были на одном oov-значении. При этом в моем случае добавление последовательности постов дало намного больше прирост качества, чем собственно user_id.
0.64 в топ-15 по этой задаче, следовательно вы прошли квалификацию на очную часть. Возможно, там увидимся.
Да, это целевая переменная (y в уравнении). Я добавил ее на диаграммы, чтобы на них были представлены все компоненты, которые есть в уравнении.
И кстати, почему ova, у RF с мультиклассом же все в порядке?
Правильно ли я понимаю, что в случае с классификацией двух тематик (пример: есть кошка/есть собака), размер обучающей выборки составляет 70 веб страниц, а тестовой — 15?
Используем, в этой статье не довелось упомянуть про все типы используемых фич.
Методы понижения размерности используем (LSA, LDA и вариации), но до Word2Vec пока не добрались. Спасибо за совет, попробуем.
Да, этот идентификатор пишется в куки
Отсеиваются из-за того, что не проходят через фильтр «живых».
Склеивание посещений с разных устройств происходит на основании «глобальных» идентификаторов (например, хэша почты). Но разумеется бывают и пользователи, которых нельзя сопоставить — тогда они рассматриваются как разные.
Пока что на этот пост можно смотреть не как на инструкцию по рисованию совы, а как на демонстрацию конечного результата с небольшим пояснением: «вот какая у нас есть сова, белая и летает».
Что касается мат.части, книга Бишопа чудо как хороша.