Pull to refresh

Comments 17

Бли-бла-бла. Где техническое мясо?
Понятно что Костину и Дергуновой показали крутые скрам-доски ребята, приехавшие в офис на гироскутерах. Но это Хабра, а не корпоративный портал Группы.
Нет там подробностей, у группы компаний ВТБ почти все, что касается данных, сидит на аутсорсе…
По теме для Хабра это только первая статья, далее будем только расширять и детализировать.
Хорошо, что есть интерес и критика.
Если говорить про технологическое мясо, сейчас построили систему на базе микросервисов (делали модули по pipeline и implementation), где pipeline процессы напрямую интегрированы с хранилищем.
По теме для Хабра это только первая статья, далее будем только расширять и детализировать.
Хорошо, что есть интерес и критика.
Если говорить про технологическое мясо, сейчас построили систему на базе микросервисов (делали модули по pipeline и implementation), где pipeline процессы напрямую интегрированы с хранилищем.

Прикладная архитектура чётко разделена на view и service слои, причём view делали на 2-м Angular. Отдельно была построена схема по интеграции с AD Банка.
Основная сложность была в том, что нужно было сделать интеграцию почти со всем банковским контуром для загрузки RAW данных для проведения нужной аналитики.

Интеграцию с источниками пришлось делать делать, обойдя все legacy грабли, так как помимо интеграции с JMS, пришлось делать интеграцию и по файлам.

В итоге загрузку данных распределили по четырём слоям: Staging, Historical (храним предыдущие версии + историю по справочникам), отдельно выделен слой по Data Quality. Для того, чтобы оперспечить подготовку витрин данных и отчётов логично сделаны Presentation (на Hive) и Access layer (на Postgres). Это позволило решить пробблемы с доступом большого количества пользователей к системе отчётов.

По движку pipline отдельно делали интерйесы для мобильных устройств и Web на Ангуляре. Здесь реаллизован микросервисный подход. По сути ничего нового и прорывного здесь не было реализоывано, основная фишка в том, что это вывело систему из стантартного DWH в ПО, где мы не только получаем отчёты, но и можно делать процессы, связанные с жизненным циклом сделок, обогащая данные по отчётам (добавили ещё дополнительного прикладного смысла).

Основные проблемы и вопросы, конечно, были связаны с обеспечением качества данных и контролем их чистоты. Для этого и делали 4 уровня загрузки / агрегации / обогащения данных.
да, было бы интересно по структурам данных, RAW в какие-нибудь star схемы грузятся, vault 2.0? OLAP это реально какой-то OLAP?

подготовку витрин данных и отчётов логично сделаны Presentation (на Hive)

а движок у Hive какой, Tez?
Да, Tez, плюс для управления кластером используем YARN и Spark для управления обработкой данных.
как вы субмитите Spark джобы, в режиме yarn-cleint? через spark-submit скрипт или как-то по другому? типа RETS сервисы аля apache livy?
кластер это Oracle BigData Appliance, что был упомянут в прошлой статье? разве там есть Ambari? я понял там cloudera manager должен быть взамен, раз дистр от клоудеры.
Вызываем через REST oozie jobs в них вызов spark-submit в режиме cluster.
Дистр — Hortonworks, соответственно есть Ambari.
интересно, тут значит другое озеро? у вас под разные задачи разные озера/кластера?
Как работает ГАУСС?

С точки зрения банальной эрудиции, не каждый индивидуум, критически метафизирующий абстракции, способен опровергнуть тенденции парадоксальных эмоций.
Павлины говоришь… хех!

А причем здесь математика? Или она упомянута только из-за слова "Гаусс" в названии?

Карты из детства. Они ещё хранились в оранжево\коричневом кожаном кейсе. И материал самих карт был замечательный: с двух сторон была тонка прозрачная плёнка, из за этого они были очень «выносливые». Отец с офицерами по выходным играл в преферанс.
Сейчас карты с такими картинками продаются из обычного картона, эх…
Как быстро сосчитать сумму чисел от 1 до 100? Согласно легенде, первым эту задачку решил великий немецкий математик Карл Фридрих Гаусс, еще будучи школьником.

Выкиньте на помойку свой сборник легенд.
Арифметические и геометрические прогрессии известны человечеству на несколько тысяч лет больше, чем прошло от рождения Гаусса. И формулы их сумм тоже. "По легенде" единственное в чем отличился в данном случае юный Карл Гаусс — это то что он а) решил это в то ли в 6, то ли в 7, то ли в 10 лет, б) нашёл закономерность быстрее одноклассников и неожиданно для учителя.
Этот пример мне лично не говорит о том, что "чтобы быстрее получить результат и повысить его точность, нужно автоматизировать процессы", а скорее говорит о том, что над большой задачей нужно немного подумать, и если вам повезёт, или вы гений (Гаусс, например), то может быть вы сможете найти решение не за O(N), а за O(1). А автоматизировать — это если написать программу, которая тупо складывает от 1 до 100.


Если уже привязывать Гаусса к BigData, то лучше вспомнить нормальное распределение, которое часто называют распределением Гаусса или Гаусса-Лапласа. Да, конечно, не Гаусс его придумал, но он вывел его роль в многократном измерении. Это распределение играет фундаментальнейшую роль в теории вероятностей (центральная предельная теорема). Теория вероятностей — это база для матстатистики, фактически матстатистика — задача обратная теорверу: по набору данных найти распределение. А что есть BigData, как не решение статистических задач? Так что название GAUSS для системы обработки больших данных весьма обоснованное.


Кстати, Гауссу приписывают особую внимательность к точности деталей и формулировок и к качеству своих работ. А вот если к фактам относиться, как автор этой статьи, то точность прогнозов в ВТБ будет примерно сравнима с гаданием на картах (КДПВ намекает), а обоснованность с прогнозами осминога Пауля.


PS: для выигрыша в bullshit-bingo в статье не хватает слов "Devops" и "blockchain"

PPS: будущий «король математики» в конце VIII века — Гаусс жил на тысячу лет позднее.

Есть подозрение, что Гаусс тут ещё и как аллюзия к интегрированию (метод Гаусса), ведь в процессе реализации данной системы, как я слышал было интегрировано то ли 17, то ли 19 различных банковских систем.
Sign up to leave a comment.