RedSys Sep 28 2017 at 16:26

Аналитика в госсекторе: особенности больших систем хранения данных

7 min

7.7K

High performance*Open source*Oracle*System Analysis and Design*Data Mining*

Comments 14

Alexsandr_SE Sep 28 2017 at 17:30

В государстве постоянно что-то меняется, меняются данные, даты, контроли, формы данных и кол-во этих данных. Ни одна коммерческая организация не допустит таких постоянных изменений, а вот государство допускает. Никогда не знаешь, что придумают или изменят завтра. Аналогично сложно предлагать гос-ву проект. Вроде бы все согласовано, но потом начинается куда изменений, те кто согласовывал оказывается вообще не в курсе как оно на практике должно работать… и в финале решают, что вводить новое ПО вообще не нужно, так безопаснее.

Varim Sep 28 2017 at 18:41

Не увидел пункта «Некомпетентностью» лиц принимающих решения о нужности функций ПО.

RedSys Sep 28 2017 at 18:47

В этом что-то есть) Можно добавить.

WizardryIB Sep 29 2017 at 08:36

И зря.

SbWereWolf Sep 29 2017 at 08:25

можно подумать в коммерческих структурах нет такого момента :)

Varim Sep 29 2017 at 09:57

В коммерческих, на мой взгляд, хотя бы кому то нужен результат, да и круг заинтересованных лиц можно быстро найти и опросить.
А в гос. секторе, у меня сложилось впечатление, что реальных данных никому не надо, потому как бумажные всегда можно подкрутить под требуемую «статистику».

Yo1 Sep 29 2017 at 11:54

слышал что в госструктурах зарплаты у работяг много меньше, отсюда и уровень спецов меньше.
по системе все здорово, но нафига IBM? в гоструктурах должен быть опенсоурс, дата лейк на хадупе, который все это и дешевле и фичастее сделает

RedSys Oct 2 2017 at 11:15

Дешевле – да, но не фичастее.

Yo1 Oct 2 2017 at 15:04

думаю хадупы намного фичастее. в хадупах можно воротить всякие реалтайм стриминги, кафки, тьма сториджей под различные задачки, джобы на разных языках можно писать, в комплекте мульёны ML библитек.

RedSys Oct 2 2017 at 18:16

На наш взгляд, фичастость опенсоурсного BI и коммерческого сравнивать не имеет смысла. Опенсоурсный — это всего лишь телевизор, тогда как в коммерческом (IBM, Oracle, «Полиматика», «Прогноз», ...) — куча функционала нужного конечному пользователю: от регламентированной отчётности до удобного OLAP-анализа.

По DWH: хадуп фичастей нетизы в том смысле, что хадуп – это платформа с мульёном библиотек, стримингами, кафками и пр. Но нетиза фичастей хадупа в том смысле, что это уже готовый аплайнс для определённого класса больших аналитических хранилищ данных, не с тьмой и мульёнами библиотек, а с сотнями, но необходимых здесь и сейчас, аналитических и специальных функций. Естественно, с возможностью писать джобы на разных языках, со сториджем, обеспечивающим сжатие хранимых данных от 4x до 32х, с реальным ускорением обработки данных на порядок.

Yo1 Oct 2 2017 at 21:28

ну BI к хадупам может совсем open source и нет, но это же крошечная часть решения, не самая дорогая и к тому же сегодня уже любой BI поверх хадупа бегает. это не самая дорогая и нагруженная часть решения. IBM, Oracle, «Полиматика», «Прогноз» все работают по верх хадупов.
по нетизе, разве там кроме NZSQL и C++ на чем то можно писать то, что будет на узлах кластера запускаться? там же все языки лишь как SQL клиент выступают.

как не крути хадупы фичастее и перспективней, а в свете санкций и ориентира на импортнозамещение считай неизбежны в гоструктурах. было бы лучше если бы госсектор в эту сторону развивал компетенции, а не подсаживался глубоко на сугубо американский софт. тем более, что хадупы много выгодней по деньгам.

ALIron Sep 30 2017 at 13:10

Ведение реестров… Слежение за актуальностью такого реестра – практически идеальная задача для BI-системы

и далее

Слой подготовки данных состоит из двух уровней: SRC, где хранятся исходные данные, и Staging, на котором мы применяем алгоритмы объединения и очистки данных.

Сходите к вашим коллегам по MDM

Они поправят.
BI это только третий слой. Про витрины и далее.

RedSys Oct 2 2017 at 11:57

Да, BI – это только слой визуализации данных (в т.ч. реестров).
Витрина с реестром формируется в верхнем слое DWH.

Wild_ButcheR Oct 5 2017 at 11:52

Насчет зарплат — согласен, за гроши никто и работать нормально не будет

Show the best of all time