Как стать автором
Обновить

Комментарии 12

Вы бы с помощью Bigdata с мошенничеством бы поборолись, потому как похоже идет в основном через Ваши виртуальные карты. Выуживаю из мошенников в ВК, когда те прикидываются продавцами в разных группах и просят внести предоплату на Ваши вирт.карты, хотя говорят что Альфовские…
Не понял, при чем тут рекомендации?
Это сегментирование аудитории и кластерный анализ.
Для хороших рекомендаций в первую очередь важно понимать свою аудиторию. И первым шагом к построении рекомендательной системы или бонусных программ может быть как раз сегментация клиентской базы — у нас именно такой подход отлично сработал для карточных продуктов.
Замечание не в том, что это никак не соотносится, а в том, что есть отдельный тип задач, связанный именно с рекомендательными системами. И ваша статья больше про сегментацию и предварительный анализ данных, чем про рекомендации.

То есть я не говорю, то статья плохая. Скорее название вводит в заблуждение.
Здравое замечание, в следующий раз продумаю заголовок лучше)
К вопросу сегментации — как вам мысль про интерпретируемые тематические кластеры?
Мне кажется, про это мало кейсов в узких датасаенс сообществах, да и статей тоже, как и в целом про unsupervised кластеризацию.

Возможно, в будущем еще немного расскажу про другие, не ML подходы, которые удачно работают для анализа клиентов (графовые, марковские цепи), если это будет интересно.
При «ручном» анализе вполне себе неплохой подход. Помогает сгенерировать гипотезы. Но это не обязательно тематическое моделирование, может быть другой способ кластеризации.
При автоматизации выплывают не столь приятные минусы — со временем может меняться набор кластеров + параметры подбирать сложно.

Статей немного, но не то, чтобы их совсем не было. Просто этот подход несколько нестабильный, т.к. в итоге он сильно зависит от последующей интерпретации пользователем.
Со стабильностью на удивление оказалось неплохо — уже полтора года пользуемся этой моделью, и дополнительного тюнинга практически не требуется. Возможно тут помогает тот факт, что у нас уже стабильная аудитория и кардинальные изменения не часто случаются.
По поводу последующей интерпретации — долго размышляли, как это сделать и минимизировать в итоге пришли к хранению не только самих меток, но и матрицы «топик — слово — » вероятность" — это позволяет отбирать тематики простым селектом.

Но да — я согласна, что здесь одна из главных фишек — генерация гипотез.

Про графы и марковкие цепи очень интересно.
Что именно определяете цепями будущее состояние или скрытые?

Да уж, столкнулся я с вашей «персонализацией» и «поиском аномалий».

У меня Qiwi заблокировал кошелек с 1200. Ничего криминального они предъявить не смогли, просто у их СБ «есть подозрения».
Ни финансирования ИГИЛ, ни финансирования Навального у меня не было, лишь покупки на Али. Qiwi тупо блокировал меня за частую смену IP адресов (я пользуюсь Opera VPN и Opera Turbo).
У меня был абсолютно легальный анонимный базовый статус без верификации и это меня устраивало. А теперь qiwi незаконно ТРЕБУЮТ сделать полную верификацию и предоставить:
– Договор с сотовым оператором
– Фото с паспортом в руках
– Экономическое обоснование операций
Иначе через месяц они начнут списывать 0,5% в день от МОИХ 1200.
Ну конечно, так же сложно понять, что Киви это БАНК, который действует по строгим указаниям БАНКА РОССИИ, которые придумывают это в своих мраморных чертогах.
Это как в школе когда-то, то. Васька рядом с тобой курил, а от мамы получаешь ты — за подозрения.

Лидия писала про крутое, рабочее решение. А все вот эти претензии «бедняг» в комментах необоснованны. Вас предупреждали: как на сайте, так и в правилах, на которые вы согласились при регистрации.

Пусть клиент — это документ, а мсс код — это токен. Тогда вы можете использовать unsupervised подход который заложен в word2vec. Обучить mcc2vec эмбеддинги и ранжировать документы по cosine distance, просто суммаризацией токенов как среднаа mcc2vec в документе или же тфидф взешено. Попробуйте.

Да, тоже хороший вариант, спасибо! Похожую тему делали по обращением от клиентов, группировки получались очень юзабельные.
И пожалуй, было бы интересно сравнить два результата — в чем будет разница в смысловом плане и в плане простоты реализации.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий