Comments 17
Понятно что Костину и Дергуновой показали крутые скрам-доски ребята, приехавшие в офис на гироскутерах. Но это Хабра, а не корпоративный портал Группы.
Хорошо, что есть интерес и критика.
Если говорить про технологическое мясо, сейчас построили систему на базе микросервисов (делали модули по pipeline и implementation), где pipeline процессы напрямую интегрированы с хранилищем.
Хорошо, что есть интерес и критика.
Если говорить про технологическое мясо, сейчас построили систему на базе микросервисов (делали модули по pipeline и implementation), где pipeline процессы напрямую интегрированы с хранилищем.
Прикладная архитектура чётко разделена на view и service слои, причём view делали на 2-м Angular. Отдельно была построена схема по интеграции с AD Банка.
Основная сложность была в том, что нужно было сделать интеграцию почти со всем банковским контуром для загрузки RAW данных для проведения нужной аналитики.
Интеграцию с источниками пришлось делать делать, обойдя все legacy грабли, так как помимо интеграции с JMS, пришлось делать интеграцию и по файлам.
В итоге загрузку данных распределили по четырём слоям: Staging, Historical (храним предыдущие версии + историю по справочникам), отдельно выделен слой по Data Quality. Для того, чтобы оперспечить подготовку витрин данных и отчётов логично сделаны Presentation (на Hive) и Access layer (на Postgres). Это позволило решить пробблемы с доступом большого количества пользователей к системе отчётов.
По движку pipline отдельно делали интерйесы для мобильных устройств и Web на Ангуляре. Здесь реаллизован микросервисный подход. По сути ничего нового и прорывного здесь не было реализоывано, основная фишка в том, что это вывело систему из стантартного DWH в ПО, где мы не только получаем отчёты, но и можно делать процессы, связанные с жизненным циклом сделок, обогащая данные по отчётам (добавили ещё дополнительного прикладного смысла).
Основные проблемы и вопросы, конечно, были связаны с обеспечением качества данных и контролем их чистоты. Для этого и делали 4 уровня загрузки / агрегации / обогащения данных.
подготовку витрин данных и отчётов логично сделаны Presentation (на Hive)
а движок у Hive какой, Tez?
кластер это Oracle BigData Appliance, что был упомянут в прошлой статье? разве там есть Ambari? я понял там cloudera manager должен быть взамен, раз дистр от клоудеры.
Как работает ГАУСС?
С точки зрения банальной эрудиции, не каждый индивидуум, критически метафизирующий абстракции, способен опровергнуть тенденции парадоксальных эмоций.
Павлины говоришь… хех!
А причем здесь математика? Или она упомянута только из-за слова "Гаусс" в названии?
Сейчас карты с такими картинками продаются из обычного картона, эх…
Как быстро сосчитать сумму чисел от 1 до 100? Согласно легенде, первым эту задачку решил великий немецкий математик Карл Фридрих Гаусс, еще будучи школьником.
Выкиньте на помойку свой сборник легенд.
Арифметические и геометрические прогрессии известны человечеству на несколько тысяч лет больше, чем прошло от рождения Гаусса. И формулы их сумм тоже. "По легенде" единственное в чем отличился в данном случае юный Карл Гаусс — это то что он а) решил это в то ли в 6, то ли в 7, то ли в 10 лет, б) нашёл закономерность быстрее одноклассников и неожиданно для учителя.
Этот пример мне лично не говорит о том, что "чтобы быстрее получить результат и повысить его точность, нужно автоматизировать процессы", а скорее говорит о том, что над большой задачей нужно немного подумать, и если вам повезёт, или вы гений (Гаусс, например), то может быть вы сможете найти решение не за O(N), а за O(1). А автоматизировать — это если написать программу, которая тупо складывает от 1 до 100.
Если уже привязывать Гаусса к BigData, то лучше вспомнить нормальное распределение, которое часто называют распределением Гаусса или Гаусса-Лапласа. Да, конечно, не Гаусс его придумал, но он вывел его роль в многократном измерении. Это распределение играет фундаментальнейшую роль в теории вероятностей (центральная предельная теорема). Теория вероятностей — это база для матстатистики, фактически матстатистика — задача обратная теорверу: по набору данных найти распределение. А что есть BigData, как не решение статистических задач? Так что название GAUSS для системы обработки больших данных весьма обоснованное.
Кстати, Гауссу приписывают особую внимательность к точности деталей и формулировок и к качеству своих работ. А вот если к фактам относиться, как автор этой статьи, то точность прогнозов в ВТБ будет примерно сравнима с гаданием на картах (КДПВ намекает), а обоснованность с прогнозами осминога Пауля.
PS: для выигрыша в bullshit-bingo в статье не хватает слов "Devops" и "blockchain"
«Короли математики»: аналитика Big Data в банке. Проект ГАУСС в ВТБ