alexbeletsky 16 мая 2014 в 18:58

Переходим от MongoDB Full Text к ElasticSearch

6 мин

30K

Блог компании LikeastoreПоисковые технологии*NoSQL*

+25

Комментарии 22

mkuzmin 16 мая 2014 в 20:07

Неделя эластика на хабре. Недавно опубликовал перевод статьи Elasticsearch как NoSQL база данных.

Я сам делаю проект percolator.io. Подробнее можно почитать в предыдущей статье.

Если есть вопросы по эластику, управлению конфигурацией сервера — буду рад помочь.
Использую rails, reactjs, postgresql, ansible, digitalocean.

david_mz 17 мая 2014 в 00:34

Вот у меня вопрос. Как в Эластике делается русская морфология? Возможно ли без перекомпиляции плагинов добавить новое слово в морф. словарь или как-то ещё его изменить?

mkuzmin 17 мая 2014 в 07:19

Русская морфология делается с помощью плагина. Я не нашел в документации ничего про добавление словарей для этого плагина. Возможно, твою задачу можно решить другом способом. Посмотри как работает analysis. Там очень много возможностей по обработке текста.

Limfocit 17 мая 2014 в 14:38

Можно сделать мэппинг для нужного поля(анализатор из коробки без плагина):
{ «properties»: { "<имя поля>": {«type»: «string», «analyzer»:«russian»}}}

david_mz 18 мая 2014 в 19:44

Сорри, я в эластике (и в джаве) совсем нулевой, поэтому можно чуть подробнее?

Таким образом мы к полю подключаем русский анализатор, правильно? Он наверняка основывается на каком-то словаре. Словарь этот неполон (полных словарей не бывает). Предположим, у меня на сайте активно используется слово «кракозябра», которой в словаре нет, и я хочу, чтобы она правильно (со всеми словоформами) обрабатывалась Эластиком. Как это сделать? В сфинксе я правлю айспелловский словарь и переиндексирую базу. А как в Элестике?

По беглому изучению плагинов Эластика у меня сложилось впечатление, что словари в них вкомпилены намертво, и чтобы их изменить, надо всё пересобирать. Это не так (надеюсь)?

Limfocit 18 мая 2014 в 21:50

К сожалению я не профи пока в ES. Мне нужно было подключить русскую морфологию, это способ ее подключения. Насчет словарей — затрудняюсь сказать. Задача была простой — чтобы адекватный поиск был, а не так что «наука» и «науки» разные слова.

mkuzmin 18 мая 2014 в 22:07

www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-hunspell-tokenfilter.html

david_mz 19 мая 2014 в 21:37

О, большое спасибо. Именно то, что нужно.

alexbeletsky 17 мая 2014 в 10:11

спасибо большое… если не сложно, бросьте письмо на ceo@likeastore.com — с радостью пообщаюсь :)

-4

igorshubovych 17 мая 2014 в 01:50

Поправьте


java -version # с одним дефисом

gotlium 17 мая 2014 в 05:38

Все это время я присматривался к специализированным поисковым хранилищам, как ElasticSearch, Solr или Shpinx.

Почему к примеру не Sphinx? Приведите какие-то доводы и аргументы. Или же в итоге так и не дошли руки?
Давно использую Sphinx во многих проектах. Часто возникает потребность в использовании весов для определенных полей, что очень нужно и полезно.

alexbeletsky 17 мая 2014 в 10:10

Одна из причин, это вот. А так, по эластику мне понравилась документация, HTTP API и Lucene основа.

mkuzmin 17 мая 2014 в 10:39

В эластике есть куча возможностей: агрегационные функции, percolate api, много плагинов, легкое масштабирование. Насколько я помню, то сфинкс сам переодически забирает данные из базы. А в эластик нужно отсылать документы вручную, соответственно, они появляются в индексе практически сразу. Тут больше гибкости: денормализация, можно модифицировать данные на основном языке(языке проекта). Хотя и есть механизм river, о нем есть упоминание в статье.

Из плагинов полезные: морфология, определение языка.

Ответ потянет на отдельную статью. Хотя, думаю, можно найти сравнение elasticsearch, solr, sphinx, mongodb, postgresql…

Лично мне понравилась документация(я ее 2 месяца активно изучал), rest api, отличные возможности по аналитике.

Еще есть kibana — отличный помощник в аналитике. Советую посмотреть видео. Рашид в кепке великолепен)

Antti 18 мая 2014 в 12:01

Тут нечего сравнивать. Sphinx по сравнению с ElasticSearch — детская поделка, причем довольно глючная.
Перевел все свои проекты с sphinx на ElasticSearch. В одном проекте промежуточным этапом был Solr, но потом в итоге ElasticSearch.

-2

vorbiz 17 мая 2014 в 08:30

sudo apt-get install openjdk-6-jre

Вот это вы очень зря. Практика показала, то только sun-java-7 или как его там. У openjdk наблюдаются проблемы с переполнением памяти, как кучи, так и direct. GC может не справляться.

mc_dir 19 мая 2014 в 10:26

А не могли бы вы пояснить, что значит

каждый такой insert влечет за собой ре-калькуляцию полнотекстового индекса

veitmen 19 мая 2014 в 16:28

Это означает, что после вставки нового элемента, индекс меняется. Вот обновление\перестройка\рекалькуляция индекса необходима для того, что бы индекс был в актуальном состоянии.

mc_dir 19 мая 2014 в 16:42

Весь индекс, или только его часть, затрагивающая измененные данные? Просто момент принципиальные. Сфинск например, умеет индексировать только новые данные и делает это ооооочень быстро. Как с этим у ElasticSearch?

veitmen 19 мая 2014 в 17:07

А, вы в целом понимаете что такое рекалькуляция индекса, я не верно понял Ваш вопрос. :) Детали по ElasticSearch я рассказать не могу. Подождем автора.

alexbeletsky 19 мая 2014 в 17:14

Цитата, которую вы выделили, относится к MongoDB… и ее абсолютно правильно прокоменнировал veitmen

Что касается, апдейта индекса в ElasticSearch — к сожалению, глубоких технических подробностей я не знаю (пока), но по поведению вижу, что все вставки в индекс очень быстрые и таких симптомов как MongoDB, Elastic явно не испытывает.

mc_dir 19 мая 2014 в 16:42

del

hipoint 21 мая 2014 в 21:10

Для автоматического обновления индекса можно использовать стандартный river с подключенным JDBC драйвером для MongoDB. Обновление по расписанию.
Например:

curl -XPUT 'localhost:9200/_river/my_jdbc_river/_meta' -d '{
    "type": "jdbc",
    "jdbc": {
        "strategy": "simple",
        "versioning" : true,
        "autocommit" : true,
        "schedule": " * * 0/1 * * *",
    }
}'

Зарегистрируйтесь на Хабре, чтобы оставить комментарий