a-pichugin Apr 28 2017 at 12:40

Конфигурирование Spark на YARN

5 min

18K

New Professions Lab corporate blogOpen source*Data Mining*Big Data*Machine learning*

Recovery Mode

Comments 7

Ermak Apr 28 2017 at 23:06

Т.е. вы используете дистрибутив HortonWorks, а почему не другие, например Cloudera или MapR?

a-pichugin Apr 28 2017 at 23:55

На предыдущих запусках использовали Cloudera. В этот раз просто переезжали с одного кластера на другой и решили попробовать HortonWorks. Не могу сказать, что заметил сильно принципиальные различия. Интерфейс другой :) Есть Tez.

Ermak Apr 30 2017 at 00:12

С нашими запросами Tez не справился, так что его наличие для нас не повод для радости. :(

couatl Apr 29 2017 at 15:37

в cloudera есть небольшая проблема, что из коробки старый спарк (1.6.0), старый хайв (1.1.0)

Ermak Apr 30 2017 at 00:15

Это да, проблема, старый спарк не умеет обрабатывать потоки из/в защищенную (secured) Кафку :(

sshikov Apr 29 2017 at 22:16

Часто это происходит в тот момент, когда воркеры всё посчитали и отправляют результат на драйвер. Мы сделали себе этот параметр побольше. По умолчанию, он 1Гб, мы сделали — 3.

Мне казалось очевидным, что если вы ожидаете получение на драйвере скажем 10 гигабайт — то 1 ему не хватит? И трех кстати не хватит тоже. Это не проблема спарка, это фича, нет?

Ну т.е. совет какой-то, с одной стороны очевидный, а с другой — бесполезный. Вот если бы вы сказали, как оценить потребности и размеры результата?

a-pichugin Apr 29 2017 at 22:45

Да, есть некоторый workaround, на митапе он как раз обсуждался — что можно по частям передавать данные на драйвер, потому что памяти на драйвере и правда не напасешься порой.