ascrus Dec 16 2013 at 23:58

Новая версия HP Vertica: Кран № 7

10 min

5.8K

Big Data *

Comments 6

ascrus Dec 17 2013 at 00:01

В отличие от прошлой статьи на этот раз с картинками :)

IamKarlson Dec 17 2013 at 10:00

Спасибо. А бесплатная версия также 1 ТБ?

ascrus Dec 17 2013 at 17:40

Привет. Да, 1 тб community версия, можно скачать с vertica.com.

ascrus Dec 26 2013 at 12:34

Всем привет. В документацию Vertica вернули описание функции MERGE_PARTITIONS и убрали ее с deprecated. Видимо коллектив Вертики понял, что «погорячился» с функцией, которая реально нужна :)

Так что я убрал со статьи раздел «Устаревшее» про эту функцию.

Evgeniy_Balashov Jan 17 2014 at 17:54

Спасибо за интересную статью.
У меня возникла пара вопросов:
1. Как Vertica оптимизирует загрузку данных из HDFS с учетом, например, различий в размерах кластеров Vertica и Hadoop, чем определяется количество сессий загрузки?
2. Почему не возможен быстрый доступ по ключу без JDBC Key-Value API?

ascrus Mar 3 2014 at 23:34

Привет. Извините, что долго не отвечал. По вопросам:
1. Рекомендуется, чтобы кластеры были одинаковых размеров. Иначе возможна ситуация, когда загрузка данных из всех серверов Хадуп в ноды Вертики может сильно затормозить работу Вертики за счет множества сессий. Вообще при больших массовых загрузках имеет смысл самостоятельно на Хадупе разбить данные на серии мелких файлов и инициировать их загрузку с множества нод Вертики командой COPY FROM HDFS.
2. Быстрый доступ возможен в любом случае, если Key в PK, тот же SELECT WHERE PK = <ключ> моментально вернет запись из таблицы любого объема. Другое дело в JDBC реализован интерфейс, позволяющий быстро искать данные без явного выполнения запроса. На физическом уровне, уверен этот метод делает тоже самое, что SELECT с поиском по ключу.