2ANikulin 26 сен 2013 в 20:43

HBase, загрузка больших массивов данных через bulk load

4 мин

11K

Комментарии 5

kirichenko 27 сен 2013 в 11:54

bulkload, по сути своей — перемещение HFile-ов из входной директории в хранилище HBase (+ инициализация новых файлов, + проверка на то, что не изменились границы регионов, пока эти HFile-ы создавались). Это во много раз быстрее, многочисленных Put-ов…

Единственное, надо иметь ввиду, что при загрузке данных сразу в несколько семейств колонок, происходит попытка заблокировать очередной регион на запись. В случае, если идут какие-то другие опреации (например какая-то MR-задача читает данные из HBase или идёт процесс компакшена), попытка получить write lock может затянуться.

Время, которое тратится на формирование HFile-ов из сходных CSV файлов (по сути, время MR-задачи) можно попытаться оптимизировать настройками.

2ANikulin 27 сен 2013 в 13:04

bulkload, по сути своей — перемещение HFile-ов из входной директории в хранилище HBase

Это верно.
Но файлы всёравно подготавливать надо. Мне было необходимо понять, на сколько это продуктивно работает с сырыми данными…

akuznetsov 6 окт 2013 в 20:16

У bluck load есть одна проблема, если произошел split одного из регионов, то часть данных может не загрузится. Это происходит потому, что то HFiles формируются по заранее известным регионам.

kirichenko 6 окт 2013 в 21:53

Там есть проверка на то, что границы регионов могли измениться, в т.ч. за счёт сплита.

akuznetsov 6 окт 2013 в 23:42

Возможно в новой версии появились, это было два года назад.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

HBase, загрузка больших массивов данных через bulk load

Комментарии 5

Публикации

Истории