Pull to refresh
Neoflex
Создаем ИТ-платформы для цифровой трансформации

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Reading time 4 min
Views 2.3K

Тема администрирования кластера Cloudera достаточно широка и осветить ее в рамках одной статьи не представляется возможным. В этом посте остановимся на инструкциях по решению наиболее часто встречающихся задач, связанных с кластером и установленными в него сервисами, а для более глубокого погружения рекомендую обратиться к официальной документации и форуму. Там можно найти информацию практически по любому вопросу.




Запуск кластера


На домашней странице Cloudera Manager нажимаем на кнопку со стрелкой справа от имени кластера и выбираем Start:




Перезапуск кластера


Делаем аналогично предыдущему пункту и выбираем Restart.


Остановка кластера


Делаем аналогично предыдущему пункту и выбираем Stop.


Запуск ролей сервисов


На домашней странице Cloudera Manager нажимаем на кнопку Clusters и выбираем в нужном кластере сервис, роль которого надо запустить:




Переходим во вкладку Instances данного сервиса:




У ролей сервисов справа от их имени указано состояние. Остановленным ролям соответствует Stopped. В таблице отмечаем роль сервиса, которую надо запустить:




Нажимаем на кнопку Actions for Selected и выбираем Start:




Нажимаем кнопку Start для подтверждения запуска:




Перезапуск ролей сервисов


Повторяем действия из предыдущего пункта и выбираем Restart после нажатия кнопки Actions for Selected.


Остановка ролей сервисов


Делаем аналогично предыдущему пункту и выбираем Stop после нажатия кнопки Actions for Selected.


Добавление роли


На домашней странице Cloudera Manager нажимаем на кнопку Clusters и выбираем в нужном кластере сервис, для которого надо добавить роль:




Переходим во вкладку Instances данного сервиса и нажимаем Add Role Instances:




Для ролей, которые требуется добавить, выбираем хосты, на которые их надо установить:




Подтверждаем установку выбранных ролей на указанные хосты:




Удаление роли


На домашней странице Cloudera Manager нажимаем на кнопку Clusters и выбираем в нужном кластере сервис, для которого надо удалить роль:




Переходим во вкладку Instances данного сервиса:




Отмечаем роли, которые надо удалить (предварительно их остановив):




Нажимаем кнопку Actions for Selected и выбираем Delete:




Подтверждаем удаление нажатием кнопки Delete:




Добавление сервиса


Добавление сервиса уже было описано в пункте «Установка дополнительных парсэлей», поэтому подробно останавливаться на данном процессе не будем.


Удаление сервиса


На домашней странице Cloudera Manager нажимаем на кнопку Clusters и выбираем в нужном кластере сервис, который надо удалить:




Переходим во вкладку Instances данного сервиса:




Отмечаем активные роли:




Нажимаем кнопку Actions for Selected и выбираем Stop:




Подтверждаем остановку нажатием кнопки Stop:




Переходим на домашнюю страницу Cloudera Manager, нажимаем на кнопку со стрелкой справа от имени сервиса, который надо удалить, и выбираем Delete:




Подтверждаем удаление нажатием кнопки Delete:




Повторное развертывание сервисов после изменения конфигурационных файлов


После изменения конфигурационных файлов сервисов потребуется их повторно развернуть данные сервисы. В этом случае справа от соответствующего сервиса появится символ файла со стрелкой. Нажимаем на него:




В правом нижнем углу нажимаем Restart Stale Services:




Подтверждаем перезапуск, нажав Restart Now в правом нижнем углу. В случае если не требуется развернуть конфигурацию клиента, убираем галку на этой странице:




На странице перезапуска отображается статус перезапускаемых сервисов. В случае некорректных конфигураций по нажатию на стрелку справа от задачи будет доступна детализация ошибки. После завершения перезапуска нажимаем Finish:




Настройка средств мониторинга


При добавлении хостов в кластер Cloudera Manager устанавливает на них своих агентов, которые позволяют осуществлять мониторинг системных метрик этих машин. Графики всех собираемых метрик доступны на вкладке Charts Library в разделе All Hosts\Hostname. Также в Cloudera Manager встроен гибкий механизм визуализации метрик на основе SQL запросов и фильтров, позволяющий легко и быстро сформировать на домашнем экране подборку мониторов, дающих достаточно полную картину работы системы. Рассмотрим данные механизмы на примере добавления графика одной из системных метрик на домашнюю страницу.


На домашней странице Cloudera Manager нажимаем на кнопку Hosts и выбираем All Hosts:




Выбираем сервер, монитор метрики которого мы хотим добавить:




Выбираем один из графиков, нажимаем на кнопку с шестеренкой в его правом верхнем углу и выбираем Add to Dashboard (аналогичным образом можно перейти во вкладку Chart Library и выбрать необходимый график из полного каталога):




Указываем имя графика (можно оставить по умолчанию), выбираем панель, на которую мы хотим его поместить (для помещения на домашнюю страницу Cloudera Manager выбираем Home Page) и нажимаем Save Chart:




После этого выбранный график появляется на соответствующей панели:




При необходимости добавленный график можно изменить, нажав на кнопку с шестеренкой в его правом верхнем углу и выбрав Open in Chart Builder.


Заключение


После настройки мониторинга кластер Cloudera готов к эксплуатации: можно запускать задачи загрузки данных, их преобразования и подключать инструменты Data Mining. И хотя до достижения конечных целей еще остаётся долгий путь, данную точку можно считать отправной.


В результате этого проекта удалось достичь всех поставленных целей: были автоматизированы рутинные задачи работников отдела расчета факторов кредитного риска, а дата-сайентисты обзавелись «качественным» инструментарием для совместной работы. На пути к этим целям было также немало нюансов и непростых моментов, которыми я с удовольствием поделюсь с вами в следующих частях. Они будут посвящены построению непрерывной интеграции для ускорения процессов разработки, а также установке и настройке инструментов Data Mining.


В заключение хочу сказать, что работа со стеком приложений, образовавшимся вокруг Apache Hadoop не всегда проста, но очень интересна. Их технологии открывают массу возможностей и уже сформировали вокруг себя достаточно крупное сообщество, которое всегда готово прийти на помощь в трудную минуту. Немного практики и у вас все получится.


P.S. В следующей статье расскажу как эффективно организовать непрерывную интеграцию для проектов с разработкой под CDH. До скорой встречи!


Ссылки на предыдущие статьи:
Распределенное хранилище данных в концепции Data Lake: с чего начать
Распределенное хранилище данных в концепции Data Lake: установка CDH

Tags:
Hubs:
+2
Comments 0
Comments Leave a comment

Articles

Information

Website
www.neoflex.ru
Registered
Founded
Employees
1,001–5,000 employees
Location
Россия