fortyseven Nov 7 2013 at 15:12

Hadoop, часть 2: сбор данных через Flume

10 min

24K

Selectel corporate blogBig Data*Hadoop*

Tutorial

+19

Comments 12

doom369 Nov 7 2013 at 23:07

Интересно, у нас все это сейчас делается баш скриптами (копирование логов из серверов в hdfs, где начинается обработка). Правда после прочтения я таки не уверен, что оно того стоит, слишком уж сложно выглядит.

fortyseven Nov 7 2013 at 23:43

Наверно я напугал вас обилием скриншотов и слишком подробным объяснением того как оно устроено =) На деле на поднятие Flume по инструкциям из статьи у вас уйдет не больше часа. И оно того определенно стоит!

rudenkovk Nov 7 2013 at 23:54

Поддержу мысль. Даже исходя из опыта logstash.

У меня вопрос: а не было опыта (или не пробегала ли информация), чтобы натравить на данные в hadoop elasticsearch?

akme Nov 8 2013 at 00:00

www.elasticsearch.org/overview/hadoop/ оно? у них там много на эту тему написано, например, www.elasticsearch.org/blog/elasticsearch-and-hadoop/

rudenkovk Nov 8 2013 at 10:36

почитаю, почитаю. С месяц назад, на первом заходе не понял как подступится.

yuryemeliyanov Feb 17 2015 at 20:40

Доброго времени суток.

Интересная статья, спасибо.

Хочу попробовать применить flume для решения задачи.
— Есть ряд online процессов, которые вызывают внешние web-сервис-ы и получают от них ответ;
— Ответы дальше маршрутизируются по шине;
— Факт запроса внешнего web-сервиса и ответ web-сервиса хочу сохранять в hadoop (hdfs);

Как вариант вижу одно из возможных решений асинхронно вызывать flume.

Что думаете?

И вообще эта штука стабильно работает?

Заранее спасибо за ответы.

fortyseven Feb 18 2015 at 12:56

Да, ваша схема возможна. flume и так принимает и обрабатывает все запросы асинхронно. Вы можете настроить в нем процессинг так, чтобы запрос и ответ сохранялись в HDFS рядом, или вообще соединялись в одну запись на основании какого-то ключа.

По стабильности у меня к flume претензий не было.

erthad Jun 27 2015 at 22:41

А веб-морда какая-то к логам, собираемым Flume есть, или свою написали?

fortyseven Jun 28 2015 at 09:18

Вы можете просматривать содержимое файлов лога в интерфейсе Hue, если я вас правильно понял.

erthad Jun 28 2015 at 09:45

Не совсем. Логи обычно не просматривать нужно, а делать по ним поиск, выделять в них поля, фильтровать и т.п.

Что-то типа такого: logstash.openstack.org (здесь она, похоже, read-only).

fortyseven Jun 28 2015 at 12:47

Выборки можно делать любыми средствами Hadoop: Hive, MR, Pig и т.д., все ни доступны через интерфейс Hue.

Вот хорошая статья hortonworks.com/hadoop-tutorial/how-to-refine-and-visualize-server-log-data

erthad Jun 28 2015 at 14:55

Спасибо, кажется то, что надо.