Pull to refresh

Comments 6

В отличие от прошлой статьи на этот раз с картинками :)
Привет. Да, 1 тб community версия, можно скачать с vertica.com.
Всем привет. В документацию Vertica вернули описание функции MERGE_PARTITIONS и убрали ее с deprecated. Видимо коллектив Вертики понял, что «погорячился» с функцией, которая реально нужна :)

Так что я убрал со статьи раздел «Устаревшее» про эту функцию.
Спасибо за интересную статью.
У меня возникла пара вопросов:
1. Как Vertica оптимизирует загрузку данных из HDFS с учетом, например, различий в размерах кластеров Vertica и Hadoop, чем определяется количество сессий загрузки?
2. Почему не возможен быстрый доступ по ключу без JDBC Key-Value API?
Привет. Извините, что долго не отвечал. По вопросам:
1. Рекомендуется, чтобы кластеры были одинаковых размеров. Иначе возможна ситуация, когда загрузка данных из всех серверов Хадуп в ноды Вертики может сильно затормозить работу Вертики за счет множества сессий. Вообще при больших массовых загрузках имеет смысл самостоятельно на Хадупе разбить данные на серии мелких файлов и инициировать их загрузку с множества нод Вертики командой COPY FROM HDFS.
2. Быстрый доступ возможен в любом случае, если Key в PK, тот же SELECT WHERE PK = <ключ> моментально вернет запись из таблицы любого объема. Другое дело в JDBC реализован интерфейс, позволяющий быстро искать данные без явного выполнения запроса. На физическом уровне, уверен этот метод делает тоже самое, что SELECT с поиском по ключу.
Only those users with full accounts are able to leave comments. Log in, please.