Pull to refresh

Comments 5

у нас любят минусовать за идеи,
самого ни раз заминусовали :)
тема интересная и актуальная

а как продвигается реализация?
что уже сделано?
Есть рабочие варианты по построению инверсных индексов. Они опробованы и работают по достаточно большим объемам данных. По данным результатам можно судить о преимуществах и недостатках выбранных моделей. В общем есть практическое представление, как такое хозяйство работает и каких пакостей от него можно ждать :)
я так понял — это индекс одного сайта.
а каким образом осуществляется индексация? обход по базе или по страницам?

как хранится индекс, какие средства использованы для хранения?
как извлекается информация из идекса? Это реализовано отдельным демоном?
я бы сделал fcgi приложение и поставил бы его за энджиниксом (апачем)
на мой взгляд индекс лучше хранить в памяти и дублировать на файловой системе или ином хранилище. Вопрос что делать — если индекс очень большой? Наверно дешевле докупить память ;).
key/value хранилище? А как используем составной индекс? например поиск по фразе «sumsung s-320»
По хранению и частично обработке написал отдельный топик:
http://bit.habrahabr.ru/blog/91828/
Вопрос получения данных — дело вкуса. На мой взгляд — должны присутствовать все варианты. Точнее, должен быть универсальный шлюз, принимающий данные в заданном формате (xml или что-то другое, главное достаточно простое для разбора и понятное для чтения человеком). А уж откуда берут данные программы, закладывающие их в этот шлюз — какая разница?

Составной индекс — результат склейки двух и более моно-индексов. По-моему проще данного велосипеда изобрести сложно. В качестве эксперимента я пробовал делать моноиндексы по двум и трем словам — объемы растут немерянно.
все очень интересно, смотрю работа проделана не малая.
пошел читать топик по ссылке :)
Only those users with full accounts are able to leave comments. Log in, please.