Comments 6
С исходным кодом Tantivy/Lucene я работал, а со Sphinx'овым — нет. Поэтому такой перекос в статье. Кроме того, Sphinx последних версий есть только в виде бинарников, shodan унес его разработку в Авито. И что там за интересные идеи теперь можно только дизассемблером узнать.
Если нужна парочка интересных идей кроме уже реализованных в Lucene, то их есть у меня. Для изучения схем компрессии посмотрите документацию проекта PISA. Там же можно подглядеть дальнейшее развитие алгоритма BMW.
Если интересно, статья про активно разрабатываемый форк Sphinx'а тут https://habr.com/ru/post/541126
Есть еще прекрасный технический блог от людей кто построил свой независимый поисковый движок — https://0x65.dev/ — правда с предсказуемым результатом (потратили несколько сотен миллионов долларов, был очень странный маркетинг, поиск работал, но отставал сильно)
Устройство поисковых систем: базовый поиск и инвертированный индекс