Comments / Profile of BansheeRotary / Habr

How to become an author

Иван Вахмянин @BansheeRotary

Предприниматель и эксперт в области BI, DWH

Profile Publications 12Comments 116Bookmarks 14

MaaS, или мониторинг как сервис

BansheeRotary Apr 12 at 17:57

Спасибо за мнение. Что касается расходов, я же говорю про расходы организации, а не про то, сколько инженеры на руки получат. Налоги, ДМС, корпоративы/мероприятия, офис, техника, найм. В обычной компании можно считать х2 к ЗП, в ИТ компании с учетом льгот поменьше, но тоже далеко не 1 в 1. А по Monq, не знаю, под наши задачи вроде все есть, а там уже, конечно, надо смотреть под конкретную задачу. С другой стороны, они же доработки за свои деньги делают, так что с точки зрения клиента - это все равно может быть лучше, чем самому тратить на допил open-source. Но тут уже надо конкретный случай разбирать.

0

MaaS, или мониторинг как сервис

BansheeRotary Apr 12 at 16:34

Очень круто и масштабно! Но с первого взгляда кажется очень сложным в разработке и поддержке, ну и вообще в нагрузке на инженеров. Вы сравнивали TCO с вариантом использования готового ПО а-ля Dynatrace? 20 инженеров - это миллионов 100 в год расходов. Понятно, что решения типа Dynatrace могут быть сейчас недоступны, но есть же и российские готовые решения, например, Monq. Мы смотрим на них сейчас, выглядит очень привлекательно.

0

Опыт PT: BI на страже кибербезопасности

BansheeRotary Aug 30 2023 at 10:32

А что касается загрузки "человекозаполняемых" Excel в BI, то по моему мнению и опыту, с точки зрения бизнеса - это зло. Потому что в этом случае BI перестает выполнять свою функцию источника качественных доверенных данных для принятия решений - все ошибки заполнения и импорта просто переезжают в отчеты. Понятно, что не все готовы к полной автоматизации всего (да это и не нужно часто), но если пачки Excel файлов уже возникли, значит есть потребность хотя бы в low-code автоматизации, благо, инструментов сейчас достаточно. В Visiology для решения этой задачи есть специальный модуль - Smart Forms.

Тут тоже оговорюсь, что в любом правиле бывают исключения, иногда пачки Excel файлов реально имеет смысл импортировать - для этого у Visiology есть специальный инструмент, ViLoader, как раз оптимизированный под работу с формами ручного ввода. Но по моему опыту - это даже не 1 из 10, а гораздо реже встречается.

+1

Опыт PT: BI на страже кибербезопасности

BansheeRotary Aug 30 2023 at 10:26

Этот пример - это лишь одна из референсных архитектур, которую, кстати, часто используют и с Qlik/PBI/Tableau - очень много раз видел, когда ETL в Qlik используется только на уровне 'SELECT * FROM xxx.xxx', а все данные уже подготовлены на уровне КХД. Это дело вкуса и особенностей конкретной задачи. При желании всю модель можно и внутри Visiology сделать, более того, в третьей версии там гораздо больше возможностей, чем у традиционной снежинки/созвездия.

ETL, да, внешний - но можно использовать тот же самый ViXtract от Visiology - open-source и бесплатно. Действительно, для работы с ViXtract придется поразбираться с Python, но тут я выражу свое мнение, с которым вы, конечно, вправе не согласиться. Если смотреть с точки зрения специалиста, который хочет развиваться и оставаться востребованным, в 2023 году я бы лучше вкладывал силы в изучение Python для ETL, а не в проприетарный Qlik load script - и возможности шире, и компетенция более широко применима. А если говорить про язык аналитических запросов - то учил бы DAX, а не Qlik Expressions, потому что он уже больше 70% рынка занимает, по нему на порядки больше материалов доступно. Хотя, справедливости ради, у Qlik Expressions есть свои преимущества по сравнению с DAX, но не принципиальные.

+1

Gartner предсказывает взрывной спрос на Decision Intelligence. Что это – очередной хайп или новое слово в менеджменте?

BansheeRotary Feb 23 2022 at 16:43

Спасибо) А чего не хватило? Мне, если честно, фактуры по Decision Intelligence тоже не хватило - может, я что-то не заметил. Хотелось именно подсветить проблему.

0

Единый семантический слой BI и что он дает на примере платформы Microstrategy

BansheeRotary Feb 8 2022 at 18:09

Microstrategy - это точно очень крутой продукт (точнее, портфолио продуктов). Но, все-таки, как в концепции Microstrategy предлагается "расшивать" узкое место в виде подразделения, которое поддерживает актуальность единого семантического слоя? Ведь не все задачи требуют централизации, а ресурсы центра компетенций всегда ограничены. Я неоднократно видел, как в компаниях, в которых аналитика была исключительно централизованной, буйным цветом прорастали условные "Power BI Desktop", те самые Data Silos, которые очень трудно победить административными методами.

+1

Российские BI-системы: второе исследование «BI-круг Громова 2021»

BansheeRotary May 11 2021 at 20:29

Я, как представитель одного из "объектов обзора", лицо заинтересованное, но предложил бы, все-таки, ознакомиться с содержанием обзора перед вынесением окончательного вердикта:) Работа реально большая проделана — хоть и не без недостатков, наверное (как и тот же квадрат Гартнера, впрочем). Аргументированная критика, думаю, всем будет полезна.

+1

Мониторинг производительности приложений и метрики здоровья без APM

BansheeRotary Mar 15 2021 at 18:25

Возникают ли сложности с выражением в деньгах отклонений метрик от SLA со стороны клиента? Как справляетесь с этим?

0

Бесплатный удобный ETL инструмент с открытым кодом на основе Python — фантастика или нет?

BansheeRotary Mar 5 2021 at 09:36

В базовой "комплектации" такие задачи сделать не получится, конечно. PETL был выбран как инструмент с минимальным порогом входа, а по производительности он уступает даже pandas (который при этом тоже грузит все данные в память). Так что для описанных задач уже нужно выбирать другие инструменты, хотя в качестве интерфейса/планировщика можно и оставить Jupyter, Python и Cronicle.

С Airflow не хотелось бы конкурировать, мы старались разделить позиционирование — Airflow для тяжелых продуктивных задач и опытных ETL разработчиков, ViXtract для простых и средних задач, пилотирования (PoC) и изучения данных аналитиками.

0

Бесплатный удобный ETL инструмент с открытым кодом на основе Python — фантастика или нет?

BansheeRotary Mar 5 2021 at 09:30

Спасибо за наводку на Java-based решения, изучим! По Python попробую еще раз объяснить логику выбора. Поскольку целевая аудитория ViXtract — это не разработчики, а именно аналитики, нужно было выбрать язык с минимальным порогом входа. Python в этом плане лидер, по крайней мере, в общественном мнении. Ну и еще у Python есть большой плюс именно для аналитиков — он является основным инструментом для Data Scientist, поэтому если аналитик решает развиваться в этом направлении (что логичнее, чем в сторону разработчика), то он может переиспользовать полученные опыт и знания.

0

Бесплатный удобный ETL инструмент с открытым кодом на основе Python — фантастика или нет?

BansheeRotary Mar 4 2021 at 12:58

Да, дублирование возникает, это минус предложенного решения. Вопрос, что в конкретном проекте более значительно — дополнительные затраты на сопровождение или потери на коммуникациях между аналитиками и разработчиками. Кроме того, есть гипотеза, что во многих проектах (не во всех, конечно) можно обойтись и чисто ViXtract. Тот же Cronicle поддерживает и работу в кластере, и может обеспечивать очень хорошие параметры по надежности. Понятно, что ключевая проблема в том, что сборка не имеет коммерческой поддержки, но, если будет серьезный интерес со стороны корпораций, это можно и исправить.

0

Бесплатный удобный ETL инструмент с открытым кодом на основе Python — фантастика или нет?

BansheeRotary Mar 4 2021 at 12:49

А в JupyterHub, а не в PyCharm, например, потому что:

Интерактивно работать с кодом и постоянно его исправлять в Jupyter проще, чем работать с отладчиком (для не очень опытного человека в разработке)
Поскольку код сразу запускается на сервере, нет вечных проблем в различии окружений на сервере и локальном компьютере (библиотеки, пути, сетевая доступность, права)
Имея знания в Python и Jupyter, аналитику уже гораздо проще сделать шаг в сторону Data Science, а это логичный путь развития для аналитика

0

Бесплатный удобный ETL инструмент с открытым кодом на основе Python — фантастика или нет?

BansheeRotary Mar 4 2021 at 12:45

Он никому ничего не должен, конечно. Просто я видел в своей практике множество случаев, когда аналитик мог решить задачу загрузки данных в 5 строчек за час времени, а вместо этого он ставил задачу ETL разработчику и начиналось: разработчик что-то сделал, аналитик увидел, что на самом деле нужно немного по-другому, разработчик снова ушел делать, в это время задача от бизнеса немного поменялась и т.д. и т.п. В итоге задача растянулась на пять дней. Наверное, это не панацея для всех задач, но на начальных этапах проекта или в исследовательских задачах точно востребовано.

0

Бесплатный удобный ETL инструмент с открытым кодом на основе Python — фантастика или нет?

BansheeRotary Mar 4 2021 at 12:25

Идея в том, что аналитик без особого опыта в Python сразу на AirFlow писать не может, а на ViXtract — может. И в этом ему как раз помогают уже встроенные рекомендованные библиотеки. При этом никто не запрещает использовать pandas и что угодно еще, по мере развития компетенций. Что касается разработчика промышленного ETL — ему, конечно все это не нужно, ему лучше сразу писать на AirFlow. Ну и это все — идея/гипотеза, в которую мы верим, и которая пока на тестированиях подтверждается. Выстрелит ли это — рассудит сообщество.
Этот график, конечно, субъективен, расскажу свою логику. Tableau Prep находится посередине между простыми и enterprise решениями, потому что я никогда не видел и не слышал, чтобы на нем делали тяжелые преобразования в Data Lake / DWH, которые могут даже быть никак не связаны с BI. А для Airflow — это вообще основной кейс применения, он для этого был сделан в Airbnb. Pentaho, безусловно, очень сильно коммерциализировался, но в контексте рассматриваемой задачи базовый инструмент (который особо сильно не изменился со время Kettle), по-моему, остается бесплатным — поправьте, если ошибаюсь.

0

Root cause анализ инцидентов на корреляциях между временными рядами метрик ИТ-инфраструктуры

BansheeRotary Feb 9 2021 at 22:15

Если я правильно понял, то таким образом можно распознать взаимосвязь между метриками, если задержка до реакции в среднем не больше 5 минут. А что делать со связями с большим лагом? Типа, начал сильно перегреваться сервер, и через сутки полетел диск.

0

Виртуальный аналитик — будущее BI?

BansheeRotary Jan 28 2021 at 16:21

Спасибо за отзыв и предложение!

По эмбеддингам на Хабре есть хороший текст на русском с более подробным описанием: https://habr.com/ru/company/ods/blog/329410/

0

Виртуальный аналитик — будущее BI?

BansheeRotary Jan 28 2021 at 14:17

Да, описание иногда сложное, особенно, если какой-нибудь нетривиальный временной период пользователь выберет. Типа, "сравни выручку в текущем квартале с выручкой на аналогичную дату прошлого квартала". Но тут вопрос — как еще можно добиться доверия к ответу бота? Потому что, если не выводить интерпретацию запроса, вообще никак нельзя проверить, правильно ли он тебя понял.

0

Business Intelligence на больших данных — наш опыт интеграции

BansheeRotary Jan 20 2021 at 20:20

Зарубежные коллеги сейчас ну очень часто говорят про Snowflake (Северная Америка, по крайней мере). Давно хочу попробовать, но, действительно, спроса на российском рынке на такое не видно. Интересно, есть вообще в России примеры внедрений?

0

Что под капотом у BI? Детальный разбор технологии In-Memory OLAP

BansheeRotary Dec 30 2020 at 14:54

ClickHouse, конечно, очень быстрый. В режиме одного узла скорость исполнения аналогичных запросов получается примерно одинаковая. Но если сравнивать производительность именно BI системы в целом, то Visiology на базе ViQube будет гораздо лучше работать, чем, например, Mondrian+ClickHouse за счет правильной работы с кэшем, более эффективной трансляции многомерных запросов в табличные и т.п. А вот когда нужен кластер с шардированием — тут ROLAP с ClickHouse (или его коммерческой версией Arenadata QuickMarts) вне конкуренции.

0

Что под капотом у BI? Детальный разбор технологии In-Memory OLAP

BansheeRotary Dec 30 2020 at 14:53

Основной кейс для ViQube — это работа с горячими данными, ориентировочно 200-300 ГБ. Для всего, что больше этого, мы как раз интегрируемся с распределенными аналитическими СУБД, такими как Vertica и ClickHouse. Эта интеграция у нас появилась в этом году, и мы только совсем недавно стартовали несколько проектов с серьезным объемом DWH (там, правда, поменьше петабайта все-таки планируется, скорее, 10-100 ТБ). Надеюсь, там все пройдет успешно, и сможем в следующем году про них публично рассказать.

+1

1