Pull to refresh

Comments 7

Правильно ли я понимаю, термин «озеро данных» (data lake) понадобился для обозначения хранилища, куда информация сливается по принципу «а вдруг понадобится», в отличие от «склада данных» (data warehouse), который проектируют под конкретные нужды?
Datalake сейчас представляется как хранилище всех данных компании в «грязном» виде. Как они пришли в компанию, так обычно и хранятся. Никогда не знаешь, где и в каком виде они могут пригодиться.
По поводу однородности данных и дубликатов, сделали справочники? А подключали API спарка или пр. для получения однородного наименования импортеров и для формирования группировок по отраслям на основе ОКВЭД?
Я тоже самое сделал только на Power BI.
В данный момент ведется подключение большого количество внешних источников для нормализации и обогащения существующих данных, а также самостоятельное формирование как новых справочников, так и формализация экспертных данных внутри компании.
Да, на данный момент мы переносим и храним в озере все используемые в компании данные, в том числе в исходном виде. Потенциал данных ещё только начинает раскрываться, поэтому важно иметь данные в исходном виде для возможности всестороннего анализа.
Несколько пугающая ситуация «сохраним, а вдруг пригодится». Био-организмы выживают на противоположном принципе «отфильтрую, чтобы не мешало». Негенерировать петабайты с рецепторов даже одного человека не проблема.
Все хорошо в меру. Логика «нефильтрации» в том, что вы не знаете, что фильтровать. А потом ваши команды «в процессе эволюции» построят нужные им механизмы фильтрации.

По-поводу эволюции вы мне напомнили об этой статье на тему Data Lakes
«How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh»
martinfowler.com/articles/data-monolith-to-mesh.html
Sign up to leave a comment.