digitalsibur Jul 30 2019 at 11:25

Озеро данных для маркетинга — от монструозных таблиц до отчётов и визуализации

7 min

4.7K

Цифровой СИБУР corporate blogData storage*Data storages*

+14

Comments 7

cross_join Jul 30 2019 at 14:23

Правильно ли я понимаю, термин «озеро данных» (data lake) понадобился для обозначения хранилища, куда информация сливается по принципу «а вдруг понадобится», в отличие от «склада данных» (data warehouse), который проектируют под конкретные нужды?

raptor Jul 31 2019 at 09:09

Datalake сейчас представляется как хранилище всех данных компании в «грязном» виде. Как они пришли в компанию, так обычно и хранятся. Никогда не знаешь, где и в каком виде они могут пригодиться.

r_gimadiev Aug 4 2019 at 13:43

По поводу однородности данных и дубликатов, сделали справочники? А подключали API спарка или пр. для получения однородного наименования импортеров и для формирования группировок по отраслям на основе ОКВЭД?
Я тоже самое сделал только на Power BI.

digitalsibur Aug 6 2019 at 15:22

В данный момент ведется подключение большого количество внешних источников для нормализации и обогащения существующих данных, а также самостоятельное формирование как новых справочников, так и формализация экспертных данных внутри компании.

digitalsibur Aug 6 2019 at 15:23

Да, на данный момент мы переносим и храним в озере все используемые в компании данные, в том числе в исходном виде. Потенциал данных ещё только начинает раскрываться, поэтому важно иметь данные в исходном виде для возможности всестороннего анализа.

cross_join Aug 6 2019 at 16:21

Несколько пугающая ситуация «сохраним, а вдруг пригодится». Био-организмы выживают на противоположном принципе «отфильтрую, чтобы не мешало». Негенерировать петабайты с рецепторов даже одного человека не проблема.

yarigpopov Aug 12 2019 at 12:13

Все хорошо в меру. Логика «нефильтрации» в том, что вы не знаете, что фильтровать. А потом ваши команды «в процессе эволюции» построят нужные им механизмы фильтрации.

По-поводу эволюции вы мне напомнили об этой статье на тему Data Lakes
«How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh»
martinfowler.com/articles/data-monolith-to-mesh.html