Комментарии 5
у нас любят минусовать за идеи,
самого ни раз заминусовали :)
тема интересная и актуальная
а как продвигается реализация?
что уже сделано?
самого ни раз заминусовали :)
тема интересная и актуальная
а как продвигается реализация?
что уже сделано?
0
Есть рабочие варианты по построению инверсных индексов. Они опробованы и работают по достаточно большим объемам данных. По данным результатам можно судить о преимуществах и недостатках выбранных моделей. В общем есть практическое представление, как такое хозяйство работает и каких пакостей от него можно ждать :)
+1
я так понял — это индекс одного сайта.
а каким образом осуществляется индексация? обход по базе или по страницам?
как хранится индекс, какие средства использованы для хранения?
как извлекается информация из идекса? Это реализовано отдельным демоном?
я бы сделал fcgi приложение и поставил бы его за энджиниксом (апачем)
на мой взгляд индекс лучше хранить в памяти и дублировать на файловой системе или ином хранилище. Вопрос что делать — если индекс очень большой? Наверно дешевле докупить память ;).
key/value хранилище? А как используем составной индекс? например поиск по фразе «sumsung s-320»
а каким образом осуществляется индексация? обход по базе или по страницам?
как хранится индекс, какие средства использованы для хранения?
как извлекается информация из идекса? Это реализовано отдельным демоном?
я бы сделал fcgi приложение и поставил бы его за энджиниксом (апачем)
на мой взгляд индекс лучше хранить в памяти и дублировать на файловой системе или ином хранилище. Вопрос что делать — если индекс очень большой? Наверно дешевле докупить память ;).
key/value хранилище? А как используем составной индекс? например поиск по фразе «sumsung s-320»
0
По хранению и частично обработке написал отдельный топик:
http://bit.habrahabr.ru/blog/91828/
Вопрос получения данных — дело вкуса. На мой взгляд — должны присутствовать все варианты. Точнее, должен быть универсальный шлюз, принимающий данные в заданном формате (xml или что-то другое, главное достаточно простое для разбора и понятное для чтения человеком). А уж откуда берут данные программы, закладывающие их в этот шлюз — какая разница?
Составной индекс — результат склейки двух и более моно-индексов. По-моему проще данного велосипеда изобрести сложно. В качестве эксперимента я пробовал делать моноиндексы по двум и трем словам — объемы растут немерянно.
http://bit.habrahabr.ru/blog/91828/
Вопрос получения данных — дело вкуса. На мой взгляд — должны присутствовать все варианты. Точнее, должен быть универсальный шлюз, принимающий данные в заданном формате (xml или что-то другое, главное достаточно простое для разбора и понятное для чтения человеком). А уж откуда берут данные программы, закладывающие их в этот шлюз — какая разница?
Составной индекс — результат склейки двух и более моно-индексов. По-моему проще данного велосипеда изобрести сложно. В качестве эксперимента я пробовал делать моноиндексы по двум и трем словам — объемы растут немерянно.
0
Зарегистрируйтесь на Хабре , чтобы оставить комментарий
Пишу поисковик (virtual project). Ч.1.2. Внутренности кирпича