Comments / Profile of anokhinn / Habr

How to become an author

User

Profile Publications 8Comments 17Bookmarks

Избранные статьи о рекомендательных системах с конференции KDD 2022

anokhinn Dec 21 2022 at 12:06

Спасибо за прямоту!

Ни я, ни мои коллеги, которые помогали со статьей, не придали значения терминологической разнице между обзором и описанием, которую вы указываете. В будущем мы будем иметь ее в виду. Мы действительно стараемся быть классными во всем. Если захотите нам помочь (в том числе с разбором статей), у нас есть классные вакансии (например https://team.vk.company/vacancy/9721/, https://team.vk.company/vacancy/8787/).

+1

SNA Hackathon 2019: усложняем архитектуру — упрощаем признаки

anokhinn Mar 28 2019 at 10:45

Пока не могу ответить — это зависит от нескольких факторов.

0

SNA Hackathon 2019: усложняем архитектуру — упрощаем признаки

anokhinn Mar 26 2019 at 21:16

Было интересно наблюдать как вы заняли почти на всех треках первое место.

Это не я, скорее всего вы имеете в виду Ивана Брагина.

Я сам не пробовал добавлять user_id как категориальную фичу

я сделал для топ-100к user_id собственные эмбединги, а все остальные были на одном oov-значении. При этом в моем случае добавление последовательности постов дало намного больше прирост качества, чем собственно user_id.

выше 0.64 не смог подняться

0.64 в топ-15 по этой задаче, следовательно вы прошли квалификацию на очную часть. Возможно, там увидимся.

0

SNA Hackathon 2019: усложняем архитектуру — упрощаем признаки

anokhinn Mar 26 2019 at 18:41

Да, это целевая переменная (y в уравнении). Я добавил ее на диаграммы, чтобы на них были представлены все компоненты, которые есть в уравнении.

0

Иерархическая классификация сайтов на Python

anokhinn Jul 17 2015 at 11:40

А какие параметры леса? Тюните как-то?

И кстати, почему ova, у RF с мультиклассом же все в порядке?

0

Иерархическая классификация сайтов на Python

anokhinn Jul 17 2015 at 10:25

Собственно, какой в итоге типичный размер обучающей выборки?

0

Иерархическая классификация сайтов на Python

anokhinn Jul 16 2015 at 17:49

Все «братья» классификатора переобучаются вместе с изменившимся, потому что обучающая выборка для всего уровня одна и та же – тексты сайтов из ТОП-50 результатов поиска Bing, найденных по запросам из всех узлов-братьев и всех их детей.

Правильно ли я понимаю, что в случае с классификацией двух тематик (пример: есть кошка/есть собака), размер обучающей выборки составляет 70 веб страниц, а тестовой — 15?

0

Лекции Техносферы. 1 семестр. Алгоритмы интеллектуальной обработки больших объемов данных

anokhinn Apr 13 2015 at 11:42

Отписал в личку

0

Лекции Техносферы. 1 семестр. Алгоритмы интеллектуальной обработки больших объемов данных

anokhinn Apr 13 2015 at 11:26

Пока практики выкладывания студенческих проектов не было. Сами решения, разумеется, принадлежат студентам, и мы не можем выложить их без спроса. Я думаю над тем, чтобы выложить свое решение проекта этого семестра, но, естественно, не раньше, чем семестр закончится :)

0

Лекции Техносферы. 1 семестр. Алгоритмы интеллектуальной обработки больших объемов данных

anokhinn Apr 13 2015 at 11:17

Да, каждый семестр мы придумываем семестровый проект: за прошедшие три семестра студенты решали задачи, связанные с анализом данных ФБ, классификацией игроков онлайн игр и анализом твитов.

0

Ваш персональный курс по Big Data

anokhinn Mar 18 2015 at 14:37

Александр, приглашаю Вас выступить на нашем митапе по Data Science (http://www.meetup.com/Moscow-Data-Science/). Судя по Вашему профилю LinkedIn, нашим слушателям будет интересно в Вами пообщаться. Следующая встреча состоится в конце мая.

0

Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru

anokhinn Dec 5 2014 at 12:57

Как я писал, в статье для краткости не упомянуты все типы фич. На самом деле те, что Вы предложили, используются.

0

Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru

anokhinn Dec 4 2014 at 13:24

1. Вы не используете в качестве факторов типичное время сессий (вечер, рабочее время, обед) и типичную длительность сессий? Ведь это даёт хорошее разделение пользователей по возрасту и типу занятости.

Используем, в этой статье не довелось упомянуть про все типы используемых фич.

2. Вы не пробовали использовать методы понижения размерности, например, Word2Vec? Я полагаю, что Word2Vec хорошо справится с вашей сильно разреженной матрицей слов.

Методы понижения размерности используем (LSA, LDA и вариации), но до Word2Vec пока не добрались. Спасибо за совет, попробуем.

0

Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru

anokhinn Dec 4 2014 at 13:19

Где-то уже определёно что пользователь == A21CE, причём IP отдельно записывается на той картинке. Или в данном случае это user-id записанный в куки?

Да, этот идентификатор пишется в куки

А пользователей в режиме Инкогнито обсчитываете? Через прокси/ВПН?

Отсеиваются из-за того, что не проходят через фильтр «живых».

0

Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru

anokhinn Dec 4 2014 at 12:33

По поводу определения ботов — это целая большая подзадача. Используется смесь полуручного отбора на основании посещения «плохих» сайтов, анализа паттернов посещения по частоте и распределений посещений внутри дня. Также кое-какие наработки из области Фурье-анализа. Научные статьи, лежащие в основе, гуглятся.

Склеивание посещений с разных устройств происходит на основании «глобальных» идентификаторов (например, хэша почты). Но разумеется бывают и пользователи, которых нельзя сопоставить — тогда они рассматриваются как разные.

0

Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru

anokhinn Dec 3 2014 at 19:07

Все совпадения случайны. При написании статьи ни один программист не пострадал.

0

Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru

anokhinn Dec 3 2014 at 19:05

На самом деле я постарался схематично пробежаться по всему подходу, посвятив пару параграфов каждому из этапов (сбор данных, конструирование признаков, выбор признаков, моделирование, валидация). В этом смысле моделирование получило не меньше внимания, чем остальные части. Если всем все понравится и мне разрешат, то я как-нибудь поподробнее напишу про моделирование.

Пока что на этот пост можно смотреть не как на инструкцию по рисованию совы, а как на демонстрацию конечного результата с небольшим пояснением: «вот какая у нас есть сова, белая и летает».

Что касается мат.части, книга Бишопа чудо как хороша.

+2