Как стать автором
Обновить

Комментарии 8

Увидел озеро Тахо на КДПВ, подумал что Тинькофф банк открыл офис разработки в Калифорнии
Было бы очень :)
А ETL-продукт DataStage QualityStage от IBM вы рассматривали для своих нужд? Интересно мнение.
Слышал, что в некотором банке его производительность разогнали до обработки 15м записей в секунду, на мощном кластере.
Спасибо, за вопрос. Мы живем в парадигме ELT. DataStage от IBM хороший продукт, но в первую очередь он хороший ETL инструмент, т.е. когда все вычисления выполняются на ETL сервере или на кластере ETL серверов, т.е. нужно иметь дорогую инфраструктуру ETL. У нас же все данные хранятся и обрабатываются на кластере серверов БД (Greenplum), а SAS DI этим всем управляет. Плюс нам SAS DI обладает большими возможностями для собственной разработки, благодаря которой можно разработать вот такие вот трансформации, которые очень упрощают ETL|ELT разработку в целом.
Понял вас, спасибо!
Спасибо за статью, но…
GPDB уже сейчас поддерживает AVRO, PARQUET в качестве внешних таблиц в HDFS
Например:
CREATE EXTERNAL TABLE tab (column_spec) LOCATION ( 'gphdfs://location') FORMAT 'AVRO'

Разве этого не достаточно?
Совершенно верно, но мы хотели получить независимость от формата файлов в HDFS и стабильность работы (с TEXT и CSV gphdfs уже работает давно и это было нами проверено, а с AVRO и PARQUET относительно недавно). У нас местами используется/использовался ORC. По этому мы осмысленно пошли на выделение отдельного шага и сделали work (или stage) область на стороне HDFS, куда так же можем выгружать с использованием параметров, например, организовать инкремент.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий