bit Mar 31 2010 at 22:30

Пишу поисковик (virtual project). Ч.1.2. Внутренности кирпича

2 min

445

Lumber room

-2

Comments 5

akalend Apr 22 2010 at 23:52

у нас любят минусовать за идеи,
самого ни раз заминусовали :)
тема интересная и актуальная

а как продвигается реализация?
что уже сделано?

bit Apr 23 2010 at 00:45

Есть рабочие варианты по построению инверсных индексов. Они опробованы и работают по достаточно большим объемам данных. По данным результатам можно судить о преимуществах и недостатках выбранных моделей. В общем есть практическое представление, как такое хозяйство работает и каких пакостей от него можно ждать :)

akalend Apr 23 2010 at 03:13

я так понял — это индекс одного сайта.
а каким образом осуществляется индексация? обход по базе или по страницам?

как хранится индекс, какие средства использованы для хранения?
как извлекается информация из идекса? Это реализовано отдельным демоном?
я бы сделал fcgi приложение и поставил бы его за энджиниксом (апачем)
на мой взгляд индекс лучше хранить в памяти и дублировать на файловой системе или ином хранилище. Вопрос что делать — если индекс очень большой? Наверно дешевле докупить память ;).
key/value хранилище? А как используем составной индекс? например поиск по фразе «sumsung s-320»

bit Apr 23 2010 at 16:19

По хранению и частично обработке написал отдельный топик:
http://bit.habrahabr.ru/blog/91828/
Вопрос получения данных — дело вкуса. На мой взгляд — должны присутствовать все варианты. Точнее, должен быть универсальный шлюз, принимающий данные в заданном формате (xml или что-то другое, главное достаточно простое для разбора и понятное для чтения человеком). А уж откуда берут данные программы, закладывающие их в этот шлюз — какая разница?

Составной индекс — результат склейки двух и более моно-индексов. По-моему проще данного велосипеда изобрести сложно. В качестве эксперимента я пробовал делать моноиндексы по двум и трем словам — объемы растут немерянно.

akalend Apr 25 2010 at 23:52

все очень интересно, смотрю работа проделана не малая.
пошел читать топик по ссылке :)

Show the best of all time