Как стать автором
Обновить

Комментарии 11

Спасибо за освещение. Я перепроверил себя, понял что можно улучшить и решил вас дополнить со своим опытом.
К сожалению нет прав комментировать предыдущий пост. Я дополню с тем, что я делал на уровне ОС. Часть обязательна при подготовке к инсталляции, а часть ориентирована на лучшую производительность. Я ставил на Oracle Linux 7.4.
1. Проверка поддерживаемых сетевых протоколов. Отключение IPv6. Дословно из документации: IPv6 is not supported and must be disabled.
2. Проверка энтропии. Инсталляция соответствующего пакета если низкая.
3. Добавление в /etc/hosts всех серверов при отсутствии резолва со стороны DNS.
4. Отключение SELinux.
5. Отключение файервола. Сервера все во внутренней сети поэтому это проблем не вызвало, однако возможно соответствующее его конфигурирование. Дословно:
No blocking by iptables or firewalls; port 7180 must be open because it is used to access Cloudera Manager after installation. Cloudera Manager communicates using specific ports, which must be open.
6. Добавление в /etc/sysconfig/network соответствующих HOSTNAME.
7. Отключение atime (другими словами File Access Time) на маунтпоинтах данных.
8. Выставление VM swappiness=1.
9. Отключение THP(transparent hugepage).
10. Отключение сервиса tuned.
11. Установка и конфигурирование Chronyd.

Если интересно, могу сделать отдельный пост с деталями.

Также из того, что относится не к ОС, а непосредственно к сервисам Cloudera:
1. Я добавил JAVA_HOME в /etc/default/cloudera-scm-server.
2. Добавление JAVA_HOME в «CM URL-> Hosts-> Configuration->Java Home Directory»
Надо отметить что в процессе инсталляции JAVA_HOME была видна и использовалась процессами, однако автоматически конкретно в этом месте значение не проставилось. Возможно так и должно быть.
2. Для создания SCM юзера и БД (MySQL) я использовал предназначенный для этого скрипт(пример использования):
/usr/share/cmf/schema/scm_prepare_database.sh mysql -utemp -p scm scm
Приветствую!
Большое спасибо за дополнение!
Эта информация действительно более актуальна для темы, описанной в предыдущем посте. Странно, что нет прав его комментировать. Обращусь с этим вопросам в службу поддержки сайта.
Часть из того, что Вы описали, было в предыдущем посте, а часть я хотел отобразить в следующем в разделе «Решение проблем».
Будет интересно узнать о Вашем опыте. Если решите сделать отдельный пост — пришлите пожалуйста ссылку, с удовольствием ознакомлюсь :)
Большое спасибо, но я здесь не по приглашению, поэтому у меня неполноправный аккаунт:
Вы можете комментировать публикации, которые не старше 10 дней


Как соберусь — обязательно пришлю:)
Именно это мне и ответил сотрудник поддержки)
Хорошо, большое спасибо!
а кому нибудь из вас удалось переключить hive на spark2 и как-то подключить внешних клиентов? thirft клоудера похоже не любит.
и есть задачи на импалу? что-то при хорошей нагрузке выглядит что на импалу положиться нельзя.
еще интересно как на spark джобы запускаете? spark-job server, livy?
Пока я со Spark активно не сталкивался, не могу сказать.
Приветствую!
По порядку:
1. На счёт Hive и Spark2 — да, для этого потребовалось сконфигурировать Spark2 (описано тут — spark.apache.org/docs/latest/running-on-yarn.html).
2. На счёт внешних клиентов — не совсем понятна суть вопроса, уточните пожалуйста, что именно интересует.
3. Impala использовали для обработки запросов из SpagoBI — её использование дало ощутимый прирост производительности.
4. Джобы Spark запускаем по-разному — из Zeppelin (там создаётся Spark Context при запуске интерпретатора), с помощью spark-submit и из Oozie (если требуется запланировать их регулярный запуск).
на счет hive, после переключения на спарк пользователи по jdbc подключающиеся к порту 10000, они запросы тоже через спарк энжин запускают?
Спасибо, теперь вопрос стал более понятным.
В рамках проекта не стояла задача настройки работы Hive через Spark — наоборот, Spark использовал Hive для задач обработки данных, а Hive по умолчанию использует MapReduce.
Насколько я понимаю, Cloudera на данный момент не поддерживает подобную конфигурацию Hive (по информации из официального сообщества — community.cloudera.com/t5/Cloudera-Manager-Installation/Hive-on-spark2/td-p/62641).
хм… а у вас почему спарк2 использует hive/мап-редюс? спарк вроде как позиционируют как замену мап-редюса, а sql запросы по мета-таблицам hive спарк и без hive энжина может.
ну и если развернута импала которая дала «ощутимый прирост производительности», почему hive, а не импала?
Всё верно — Spark и Impala используют Hive только для получения метаданных (без использования MapReduce. Про него я написал просто чтобы подчеркнуть, что конфигурация Hive on Spark не использовалась).
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.