basalov_yurij 25 окт 2020 в 13:55

Как построить полнотекстовый поиск с помощью нейронных сетей

8 мин

12K

Поисковые технологии*Алгоритмы*Машинное обучение*

Из песочницы

+15

Комментарии 7

PashaPodolsky 25 окт 2020 в 14:45

Концептуально интересно. Из-за такого выбора функции расстояния у вас теперь немного связаны руки и приходится использовать vantage-point tree. Если использовать эмбеддинги в качестве промежуточного шага, то вся задача превращается в уже вдоль и поперек изъезженное поле. Например, все полученные вектора швыряются в faiss и с умопомрачительной скоростью (миллисекунды для миллионов документов) для данного вектора находятся соседи. Или вообще можно влезть в DSSM, если так хочется йоба-саенса и материала для новой статьи)

Почему выбран подход с именно такой попарной функцией расстояния на исходных объектах?

basalov_yurij 25 окт 2020 в 15:49

Проблема embedding в том, что при его использовании сложно контролировать расстояние между объектами. В моей задаче уже есть исходные требования, что какие-то объекты близки, а какие-то далеки. Я не встречал алгоритмов, которые строят embedding по заданной матрице расстояний. Не факт, что такое вообще возможно во всех случаях (ссылка). Безусловно, это интересный вопрос, заслуживающий отдельного исследования.

PashaPodolsky 25 окт 2020 в 16:05

Проблема embedding в том, что при его использовании сложно контролировать расстояние между объектами.

Это очень похоже на DSSM. Подход строит такие эмбеддинги документов, у которых косинусное расстояние между указанными парами будет минимально.

В изначальной форумулировке DSSM используется для FTS и минимизирует расстояние между query и релевантными документами. Но вроде бы ваш датасет просто привести в такую форму. Берете в качестве query любой документ, а в качестве релевантных ему используете близкие к нему объекты. Получатся эмбеддинги, которые ваши исходные требования по близости будут учитывать.

QtRoS 26 окт 2020 в 13:21

Спасибо за наводку на Faiss.

devopg 25 окт 2020 в 16:03

почему не начать статью с того зачем это делать если есть эластиксеарч?

basalov_yurij 25 окт 2020 в 16:10

В самом начале статьи

Но когда мы попытались организовать поиск и сопоставление очень коротких документов (наименований товаров), то столкнулись с рядом проблем.

xmoonlight 25 окт 2020 в 19:48

У Вас верное направление. Но могу подсказать, как сделать по «весам» более точно:
1. Идентификаторам (номера,ID-шники, названия, и т.д.) ставьте всегда наивысший «вес» до начала поиска.
2. Находите и маркируйте «весами» фрагменты «цепочки» по значимости конкретики (пример): «ручка из красного дерева»:3, «ручка из дерева»:2, «деревянная ручка»:1, «ручка»:0
3. Смотрите на порядок следования объектов «цепочки»: идентичный: 0, реверсный: -1.
4. Смотрите на частоту фрагментов «цепочек»: выше — меньше «вес», ниже — больше «вес».

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Как построить полнотекстовый поиск с помощью нейронных сетей

Комментарии 7

Публикации

Истории