Pull to refresh

Comments 5

UFO just landed and posted this here
Одна из оптимизаций — для каждого слова хранить список заранее отсортированных по релевантности документов. И при поиске по нескольким словам брать, к примеру, только 1000 лучших результатов для каждого из множеств.
UFO just landed and posted this here
Нужно индексировать не просто слова, а их устойчивые сочетания, при этом с учётом синонимов, поскольку в разных комбинациях синонимы могут сильно отличаться (например, «крутая тачка» может быть заменено «дорогой автомобиль», а «двухколёсная тачка» — нет).
Ранжирование (и релевантность) существенно различается в зависимости от расстояние между словами, их нахождения в одном предложении, в соседних предложениях, и т.д.
Это если кратко.
Если не очень кратко, то вот здесь просто кладезь для жаждущих: research.yandex.ru/lib/researches/?theme=web-mining-and-search
Очень интересно почитать старые документы, например вот этот: download.yandex.ru/company/iworld-3.pdf
Спасибо Вам за перевод! Было очень интересно и познавательно!
Sign up to leave a comment.

Articles