TaniaB 30 ноя 2018 в 14:01

Миграция данных в кровавом энтерпрайзе: что анализировать, чтобы не завалить проект

14 мин

13K

Блог компании HFLabsАнализ и проектирование систем*SQL*Data Mining*Big Data*

+35

Комментарии 26

astenix 30 ноя 2018 в 19:10

Редкой прелести текст.

BigD 30 ноя 2018 в 21:43

А я люблю для анализа данных при миграции (и не только) использовать QlikView. Отклонения в данных сразу в глаза бросаются в фильтрах.

DenisTrunin 1 дек 2018 в 09:05

Да, PowerBI Desktop тоже поможет.
Статья отличная

TaniaB 1 дек 2018 в 19:24

Спасибо за совет!

TaniaB 1 дек 2018 в 19:20

Очень интересно, спасибо! Поделитесь, как вы организовываете интеграцию из БД в QlikView? Напрямую или через файлики? Вы работаете с данными из разных баз?

BigD 1 дек 2018 в 19:57

И из баз (простой селект) и напрямую из файлов. У клика отличный ETL, а локальная версия — бесплатна.

nikolayv81 4 дек 2018 в 08:17

Это если данных мало, если много — всё сложнее, также далеко не все придерживаются идеологии — название поля — ключ для связи. (У всех таблиц primary key -id, ссылка — fk_%table_name_short%_id) :)

TimsTims 1 дек 2018 в 10:39

Такое ощущение, что ребята, так лихо мигрирующие данные с ошибками и так лихо пропускающие ошибки — пропустили что-то еще действительно важное, например мой остаток по счёту, или несколько процентов проводок, потому-что у них слишком много нулей оказалось, либо назначение слишком длинное.

TaniaB 1 дек 2018 в 19:31

С финансовыми показателями не работала, поэтому не могу ничего сказать. Если у вас есть интересные примеры, то расскажите, пожалуйста. Но мне казалось, что при миграции финансовых показателей, все со всех сторон тестами покрыто заранее, чтобы дебет с кредитом точно сошелся.

НЛО прилетело и опубликовало эту надпись здесь

nikolayv81 4 дек 2018 в 08:18

Number(39) в excel — же ;)

OlgaDormidonova 1 дек 2018 в 19:16

Работает и в Excel, и в Google Docs, и в «Яндекс.Таблицах»

Яндекс.Таблицах????

TaniaB 1 дек 2018 в 19:25

Яндекс.Таблицы — это тот же Эксель только в онлайне. Находится в закромах Яндекс.Диска.

BigD 1 дек 2018 в 19:59

Excel Online от Microsoft, видимо :)

TaniaB 1 дек 2018 в 23:23

Вы правы, я ошиблась с названием. Уже поправила в статье, спасибо!

wildraid 2 дек 2018 в 11:04

Любопытно. Если можно, два вопроса:

1. Зачем динамически строить SQL в Excel, когда можно делать это ещё лучше на чистом SQL на базе системных вьюшек?

SELECT ', count(' || column_name || ') AS ' || column_name
FROM columns
WHERE ...

2. С какой целью ETL выделен в отдельную команду? Почему нельзя импортировать все данные из старой базы в отдельные схемы в новой, а затем делать трансформации и сравнения на SQL?

Получаем возможность делать прямые JOIN'ы между «было -> стало», а также экономим время на коммуникациях и неизбежных ошибках в логике ETL.

TaniaB 3 дек 2018 в 08:39

1. Специально не стала писать про системные представления и служебные таблицы, т.к. доступ к ним на уровне системы-источника обычно не дают. Если доступ есть, то это отличная альтернатива экселю! Спасибо за комментарий!

2. ETL делают или системные интеграторы со стороны заказчика, или отдельные компании, которые приходят со своими ETL-продуктами или шиной, например, Data Stage или Tibco. Т.е. в нашей БД мы видим уже конечный результат трансформаций, который происходит «где-то».
Но мы сейчас как раз в поиске своего ETL-разработчика, чтобы сэкономить время на коммуникациях и объяснениях, как вы и написали.

wildraid 3 дек 2018 в 13:52

Спасибо.

Думаю, вы и сами хорошо подходите на эту роль. Если можете так детально проверить данные, то и трансформация не должна составлять проблем.

TaniaB 3 дек 2018 в 17:22

Спасибо. Проверки, проверками — этим аналитики или QA займутся, а хорошие ETL-джобы должен кто-то писать. Вот и хотим себе ETL-разработчика, который параллелями в 32 потока не будет доводить DBA до седых волос)

wildraid 3 дек 2018 в 22:48

Мы запускаем по 800 потоков, и с волосами у DBA всё хорошо… пока ^^

AlexanderY 4 дек 2018 в 13:11

Я очень далек от кровавого энтерпрайза, спросить среди знакомых не у кого, поэтому полюбопытствую:
1. Сколько времени и итераций занимает типичная такая миграция от начала анализа и до завершения проекта? Насколько процесс бюрократизирован?
2. Как с безопасностью данных? Вам, чтобы проанализировать данные, нужно получить к ним доступ. Вам выдают копию? Или пускают на свои серваки? Или каждый запрос проверяет безопасник банка?

TaniaB 4 дек 2018 в 21:45

Спасибо за отличные вопросы! По пунктам:
1. Что считать «типичной миграцией»? В каждом проекте исторические миграции данных занимают разное время. Почему? Основные факторы, от которых зависит длительность миграции:
— характеристики железа
— сложность ETL-трансформаций и особенности БД системы-источника
— объем загружаемых данных
— полнота загружаемых данных
На одном из проектов оба этапа миграции (ETL + обработка в нашем продукте) для 100 млн клиентов, но более полмиллиарда сущностей — счета, адреса, связи, заняли 20 дней — 10 дней ETL, 10 дней нашей обработки.
Бюрократизированность сильно зависит от конкретного заказчика. Обычно все решается письмами или звонками. Иногда сталкивалась с тем, что на предоставление доступов к таблицам БД или на необходимую железку заводят заявки, срок выполнения индивидуален — от нескольких минут до нескольких дней, смотря, что попросишь. Заказчики тоже заинтересованы в результате.
2. Вы подняли животрепещущий вопрос, который мы с коллегами в чате обсуждали. Тоже все очень сильно зависит от заказчика. При старте проекта мы подписываем NDA и другие соглашения. Данные смотрим на серверах заказчиков, если обе стороны заинтересованы в том, чтобы улучшить качество данных. Про проверку каждого запроса ничего не скажу, возможно в фоновом режиме мониторинг идет. На предоставление доступа к конкретным таблицам я писала заявки с обоснованием необходимости.
Еще раз подчеркну, все очень сильно зависит от заказчика и его внутренних процессов.

habamax 4 дек 2018 в 15:49

А вариант со средствами профилирования совсем не рассматривался? Talend, Ataccama, Oracle и пр.?

TaniaB 4 дек 2018 в 21:48

Конечно можно использовать специальные средства профилирования, если они у вас есть и вы умеете ими пользоваться.
Мой посыл скорее в том, как дешево и сердито (табличными редакторами и sql) сделать аналитику и не страдать, что нет подручных программ.

habamax 5 дек 2018 в 09:24

Talend опенсорс, а Ataccama бесплатна в части профилирования. Есть разные видео, где все достаточно просто (сильно проще чем эксель и sql)…

Не, я понимаю, что в «кровавом энтерпрайзе» тебе могут урезать все права, не дать поставить софт самому, отказать в установке по запросу — тогда да, тогда и VBA будет самым лучшим языком программирования.

Но все же, я бы настаивал на использовании средств профилирования для себя лично.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий