Как стать автором
Обновить

Квантование эмбеддингов: что это, зачем оно нужно и как его правильно готовить

Время на прочтение8 мин
Количество просмотров11K
Всего голосов 38: ↑37 и ↓1+36
Комментарии6

Комментарии 6

Слишком много внимания пользовательским предпочтениям, если они так прекрасно сжимаются для своего описания. Главная беда яндекс-дзена не в рекомендательной системе, а в неважном качестве контента. По всей видимости яндекс-программы формирующие карточки (эмбеддинги) для контента имеют посредственные алгоритмы. Отсюда и повальная рекомендация к просмотру по кликабельному заголовку статьи.

По мне, для системы случайного захвата внимания (каковой и является яндекс-дзен), лучше вместо сверхсложного ранжирования использовать практику печатных журналов прошлого века. Несколько линий (рубрик), информационная направленность которых определяется редакционной политикой, плюс кластеризиция аудитории. Для каждого кластера редакционная политика определяет объёмные пропорции, какие рубрики и в каком количестве подсунуть пользователю. Ведь, реализовано что-то похожее в музыкальных стримах и, вполне, успешно работает. Там вместо рубрик — жанры.

И самое главное. Именно, редакторы, пусть даже из я.толоки, (а не «читатели-рекомендаторы») определяют качество материала и пригодность его для размещения в рубриках.
Слишком много внимания пользовательским предпочтениям, если они так прекрасно сжимаются для своего описания.

Сейчас мы храним для каждого пользователя порядка 50 эмбеддингов. Длина эмбеддинга обычно около 100 чисел. После квантования мы стали хранить 5 КБ на пользователя вместо 20 КБ (тут именно эмбеддинги, не считаю историю пользователя, подписки, блокировки, и т д). Это всё ещё довольно много информации. Влияние пользовательских эмбеддингов на ключевые показатели Дзена весьма существенно.

По всей видимости яндекс-программы формирующие карточки (эмбеддинги) для контента имеют посредственные алгоритмы.

Вот примеры алгоритмов, которые мы используем в качестве основы построения контентных эмбеддингов.
arxiv.org/abs/1810.04805
arxiv.org/abs/1301.3781
arxiv.org/abs/1802.05365
Таких алгоритмов на данный момент используем порядка 10. Экспериментировали с множеством различных алгоритмов. Выбрали те, что показывали лучший результат с точки зрения пользовательского опыта.

лучше вместо сверхсложного ранжирования использовать практику печатных журналов прошлого века

В Дзене есть тематики. Например, про программирование zen.yandex.ru/t/программирование. Пользователи, которые чётко знают, что им интересно, могут читать статьи по тематикам или подписываться / блокировать сразу такие тематики целиком. Однако, есть и пользователи, которые просто хотят открыть Дзен, как условный телевизор, и рассчитывать на то, что он сам правильно определил их интересы. То есть, сейчас пользователь может сам выбрать, насколько активно он хочет взаимодействовать с Дзеном.

Именно, редакторы, пусть даже из я.толоки, (а не «читатели-рекомендаторы») определяют качество материала и пригодность его для размещения в рубриках.

Тут я полностью с вами согласен. Практика показывает, что машины сами по себе плохо справляются с такой работой. Поэтому помимо алгоритмов и помошников из Я.Толоки в Дзене определением качества материала занимаются несколько групп асессоров и модераторов.
Цитата: «ключевые показатели Дзена». Ёлы палы, как же я мог забыть! Тут, впору, цитировать Путина: “Эти платформы прежде всего бизнес”. Конечно же, вся задача «Ленты рекомендаций» вовсе не в том, чтобы подсказать пользователю что-то нужное и полезное. KPI дзена — всё-равно агрегат от показанной рекламы.

Есть подозрение, что яндекс пытается построить облегчённую универсальную нейронную сеть, которая на входе получает пользовательские эмбеддинги, а на выходе срез кликабельных заголовков (выраженных через контентные эмбеддинги).

По сути, это попытка моделировать внутри яндекса процесс визуального выбора тексто-графических заголовков конкретным пользователем. Что-ж, задача интересная, успехов.

Жаль, что для этой системы качество контента имеет второстепенное значение.
Познавательная статья. Спасибо.
Кстати, для не профильных ресурсов можно статью сократить примерно так
— Под видом заботы о пользователях в персонализированном предоставлении контента, мы создали систему которая при значительном снижении затрат способна формировать более точные и подробные профайлы пользователей для более эффективной рекламы. :)))
Всё верно! Подробные профайлы на входе — список кликабельных заголовков на выходе.
Спасибо большое за материал. Даже чайник (вроде меня) немного разобрался
Зарегистрируйтесь на Хабре, чтобы оставить комментарий