Pull to refresh

Comments 7

Т.е. вы используете дистрибутив HortonWorks, а почему не другие, например Cloudera или MapR?
На предыдущих запусках использовали Cloudera. В этот раз просто переезжали с одного кластера на другой и решили попробовать HortonWorks. Не могу сказать, что заметил сильно принципиальные различия. Интерфейс другой :) Есть Tez.
С нашими запросами Tez не справился, так что его наличие для нас не повод для радости. :(
в cloudera есть небольшая проблема, что из коробки старый спарк (1.6.0), старый хайв (1.1.0)
Это да, проблема, старый спарк не умеет обрабатывать потоки из/в защищенную (secured) Кафку :(
Часто это происходит в тот момент, когда воркеры всё посчитали и отправляют результат на драйвер. Мы сделали себе этот параметр побольше. По умолчанию, он 1Гб, мы сделали — 3.

Мне казалось очевидным, что если вы ожидаете получение на драйвере скажем 10 гигабайт — то 1 ему не хватит? И трех кстати не хватит тоже. Это не проблема спарка, это фича, нет?


Ну т.е. совет какой-то, с одной стороны очевидный, а с другой — бесполезный. Вот если бы вы сказали, как оценить потребности и размеры результата?

Да, есть некоторый workaround, на митапе он как раз обсуждался — что можно по частям передавать данные на драйвер, потому что памяти на драйвере и правда не напасешься порой.
Sign up to leave a comment.