Pull to refresh

Comments 12

Интересно, у нас все это сейчас делается баш скриптами (копирование логов из серверов в hdfs, где начинается обработка). Правда после прочтения я таки не уверен, что оно того стоит, слишком уж сложно выглядит.
Наверно я напугал вас обилием скриншотов и слишком подробным объяснением того как оно устроено =) На деле на поднятие Flume по инструкциям из статьи у вас уйдет не больше часа. И оно того определенно стоит!
Поддержу мысль. Даже исходя из опыта logstash.

У меня вопрос: а не было опыта (или не пробегала ли информация), чтобы натравить на данные в hadoop elasticsearch?
почитаю, почитаю. С месяц назад, на первом заходе не понял как подступится.
Доброго времени суток.

Интересная статья, спасибо.

Хочу попробовать применить flume для решения задачи.
— Есть ряд online процессов, которые вызывают внешние web-сервис-ы и получают от них ответ;
— Ответы дальше маршрутизируются по шине;
— Факт запроса внешнего web-сервиса и ответ web-сервиса хочу сохранять в hadoop (hdfs);

Как вариант вижу одно из возможных решений асинхронно вызывать flume.

Что думаете?

И вообще эта штука стабильно работает?

Заранее спасибо за ответы.
Да, ваша схема возможна. flume и так принимает и обрабатывает все запросы асинхронно. Вы можете настроить в нем процессинг так, чтобы запрос и ответ сохранялись в HDFS рядом, или вообще соединялись в одну запись на основании какого-то ключа.

По стабильности у меня к flume претензий не было.
А веб-морда какая-то к логам, собираемым Flume есть, или свою написали?
Вы можете просматривать содержимое файлов лога в интерфейсе Hue, если я вас правильно понял.
Не совсем. Логи обычно не просматривать нужно, а делать по ним поиск, выделять в них поля, фильтровать и т.п.

Что-то типа такого: logstash.openstack.org (здесь она, похоже, read-only).
Спасибо, кажется то, что надо.
Sign up to leave a comment.