Pull to refresh

Comments 41

Интересная серия статей, спасибо интересно.

Подскажите пожалуйста, существуют ли разумные решения для встраивания self-аналитики к себе на сайт с неограниченным (очень большим) количеством для не очень квалифицированных пользователей. Интересует в частности pivot-таблицы и графики по ним. При этом подготовкой и загрузкой данных займутся специально обученные специалисты.
Добрый день, как автор статьи отвечу, что думаем над этим. Когда речь касается большого количества пользователей, BI системы становятся дорогими. У меня есть идея использовать бесплатные или условно бесплатные библиотеки визуализаций типа D3, Anychart и прочее. От вас потребуется подготовить хранилище данных, а веб-программисты на основе этих данных построят визуализации с использованием готовых библиотек.

А если нужны не предустановленные заранее графики/таблицы, а необходимо дать возможность пользователям самим комбинировать и исследовать данные? Например, через pivot

Добрый день. Сейчас Qlik делает интересную модель лицензирования по времени использования аналитикой. Т.е. условно говоря вы приобретаете пакет из 1000 минут. Далее эти минуты блоками по 6 минут расходую ваши посетители. Если интересно, можем в приватной беседе обсудить. Мой email LVV@analyticsgroup.ru
Вы почти в каждом пункте упоминаете ограниченные возможности Tableau по подготовке данных. А о Tableau Prep знаете?

Tableau и Power BI поддерживают LIVE соединение к ряду источников, в отличие от Qlik.

А Direct Query в Qlik?
Да, объективности ради нужно добавить, что в Tableau есть отдельный продукт Tableau Prep, который представляет собой ETL инструмент для подготовки данных. Надо было этот отметить, согласен.
Qlik Sense умеет делать direct query. В отличие от Tableau или Power BI где Live соединение проставляется одной галочкой, как обычно в Qlik это решается программным кодом. Вы правы, надо было отметить это и захотелось еще раз протестировать такое соединение на производительность.
когда речь идет о больших данных работать с LIVE соединением становится просто невозможно. А BI в большинстве случаев и нужно для больших данных.

Скорее как раз наоборот, хотя и понятно, что вы имели ввиду. С производительностью в LIVE/DIRECT всё будет хорошо при условии, что запросы идут в хранилище на аналитической БД с «правильной» моделью данных.
Да, это имелось в виду. Неправильно использовать online подключение к исходным данным, если эти исходные данные не подготовлены к аналитике.
Да, но если речь именно о «больших данных» :). Но с действительно «большими» и Extract не пройдет :). Кстати, упоминая большие данные, вы примерно какой объем подразумевали?
Под большими данными я имею в виду объемы от 100 млн строк и до нескольких миллиардов. Больше на практике не видел. И эти объемы уже начинают заставлять продумывать архитектуру решения, рассчитывать производительность и серьезно подходить к процессу. Когда речь идет до пары млн записей вопросами производительности как правило пренебрегают, все итак быстро работает.
Жаль не вижу в квадранте, и вообще в обзоре r и RStudio. Тем более они бесплатны.

Я в сфере новичок, и не уверен, что эти продукты вписываются сюда, но я с их помощью собираю статистику с серверов и рисую вроде неплохие репорты (особенно с ggplot2).

Будет интересно выслушать мнение профессионалов о них.
Мы, к сожалению для себя, не можем повлиять в квадрат Гартнера, другие системы ))).
Касательно глобально других систем — безусловно их огромное множество, платных/бесплатных. Мы для себя определили, что нам ближе платные. И этому есть экономическое обоснование — если у компании нет денег на BI-платформу, то скорее всего они себе не позволят нужную компетенцию и на разработку или будут стараться неоправданно экономить.
И ещё одна мысль. Я стараюсь подходить с точки зрения прагматичности и целесообразности. Я верю, что платформы, которые берут деньги с пользователей, лучше развиваются. Т.к. финансовая модель им позволяет быть с большей вероятностью окупаемыми.

Я стараюсь минимизировать риски, что изучу какую-то платформу, а её свернут… в этом случае монетизация моих знаний становится под вопросом.
Все продукты умеют работать с R и Python. В этих языках есть пакеты для статистики, прогнозирования и т.д. Подразумевается, что ты выгружаешь из BI туда данные, там они рассчитываются и возвращаются в BI для отрисовки. У BI не такой сильный мат. аппарат, а в R не такие сильные визуализации. Можно работать в связке, хотя это требует знания обоих продуктов.

Касательно силы визуализации в R - немного спорно =) Возможно не так понимаю Вашу мысль? Имеете в виду базово, без ggplot2 ?

https://www.business-science.io/code-tools/2022/03/30/how-i-analyze-100-ggplots-at-once.html
https://rud.is/b/2022/04/03/turning-ggplot2-into-a-pos-point-of-sale-system/

Для примера видов визуализации в R только сегодня обсуждаемых в общем ТГ канале =)

Yandex ClickHouse даже нет на квадрате Гартнера. Почему?

Разве это не BI решение?
ClickHouse — это хранилище данных. Вы можете к ней подключать BI-платформу, которую посчитаете нужной Qlik, PowerBI, Tableau,…

У нас есть определённый опыт работы с данным хранилищем. И мягко говоря, мы остались разочарованными. НО! это наш субъективный опыт.
BI это конечно хорошо.
Но не видел ни одного решения, где было бы чуть больше чем два источника данных, и отсутствовал бы толстый слой ETL. И собственно говоря он забирает на себя большую часть сложности по получению готовых данных, на основе которых во всю проявляют себя все современные BI-решения.
Посыл о чем — бизнесу часто продают BI как решение проблем получения отчетов. Тогда как BI — это только вершина айсберга. Под водой существенный кусок сложности получения отчетов — ETL.
Тут ключевой вопрос, кто продаёт и как. Если воспринимать BI как панацею от всех бед, то неудивительно, что итоговый результат не оправдывает ожидания. Поэтому при подсчёте сметы нужно учитывать множество факторов
— Стоимость лицензий
— Особенности платформы, которые будут выливаться в человеко-часы аналитика/программиста (доп. затраты)
— Требования и стоимость к хранилищу данных, его расположению
— Необходимость преобразования данных, их стыковки при использовании разных источников
— Разработка самого отчёта

Мы отдельно ещё опишем статью из чего складывается стоимость BI-внедрения.
На любом графике я вынужден менять цвет на свой фирменный, корпоративный и удивляюсь стандартной расцветке.


Начиная с какой-то из осенних версий Power BI можно делать свои цветовые схемы (json). И не нужно мучиться с постоянным изменением цвета.

А вообще спасибо за статью, заинтересовалась Qlik-ом. Пыталась научиться им пользоваться пару лет назад, не зашло. Откровенно говоря, посчитала его страшно уродливым (да простят меня разработчики!), но вы очень вкусно про него рассказали. Буду пробовать :)
Qlik страшненький со стандартными цветами и настройками. Поэтому я не могу использовать Qlik Cloud, где вроде дешево, но нет Extensions. Вся красота Qlik начинается, когда ты накатишь свою тему, шрифты, Extensions и т.д Плюс учитывая программный язык, это делает Qlik не таким доступным для освоения, если хочешь сделать что-то серьезное. Но с точки зрения работы с данными мне нравится Qlik. С точки зрения создания простых понятных отчетов где не надо программировать, мне нравится Power BI. Tableau видел и знаю крутые решения, но как-то выделяю его немного отдельно от Qlik и Power BI. У них все немного по другому, Qlik и Power BI ближе друг к другу мне кажется.
Плюс учитывая программный язык, это делает Qlik не таким доступным для освоения

Вот именно этим и заинтересовалась. В PBI работа с данными тоже достаточно интересна: power query и m. Захотелось сравнить.
По поводу цветовых схем Power BI не пробовал. Надо будет заняться, т.к. в корпоративном секторе у нас есть брендованные цвета. В Qlik довольно просто назначить постоянные цвета измерениям и мерам.
Свои не пробовала создавать, но из community скачивала. Некоторые смотрятся довольно приятно.
Шаблон делаете в json и потом применяете его на отчет. На мой взгляд было бы правильно если бы Microsoft добавил возможность сохранять настройки в файл.
Спасибо за подробный обзор.

Интересно узнать Ваше профессиональное мнение о платных Sisense и inetSoft и open-source решениях Apache Superset и Kibana.
Ранее не работали, не сможем дать профессиональное мнение.
Жаль, что десктопная версия для Mac OS есть только у tableau.
Владимир, вы можете, немного раскрыть вопрос стоимости владения Qlik, из сайта она не очевидна.
Enterprise решения позволяют делать с Mac устройств через браузер. В принципе этого нам достаточно. Касательно самого приложения desctop — есть такое.
Касательно стоимости владения, на что обращать внимание, как строится цена на весь проект мы готовим статью. Видим в этом необходимость, т.к. порой клиент не правильно сравнивают платформы.

— Есть enterprise решения (коробка и облако*)
*Сейчас есть варианты, как совместить преимущества облачных решений (преобразования капитальных вложений) с надёжностью (размещение ПО у клиента), которое может дать коробка.


— Есть облачные решения с подпиской (а там ведь бывают ещё разные типы пользователей, тоже нужно учитывать)

Статью выпустим на следующей неделе. Если у вас вопрос горящий, нужно согласовывать, то можем в индивидуальном общении проговорить все моменты. Моя почта LVV@analyticsgroup.ru
Хотелось бы дополнить вашу статью:
  1. Power BI можно использовать на своих серверах не только в пакете Premium, но и имея лицензии SQL Server Enterprise с подпиской Software Assurance.
  2. У Power BI как у относительно молодой системы в on premise режиме есть ограничения на размер отчета в 2GB, что ограничивает возможности использования. При работе в режиме DirectQuery есть ограничение на возвращаемое количество строк в 1 миллион.
  3. Вы никак не оценили возможность работы с источником данных в режиме live, хотя есть случаи когда это необходимо. Например, нужна оперативная отчетность или данных очень много (hadoop, clickhouse, etc) и нет возможности загрузить все в память

И еще вопрос автору: как Qlik позволяет выкрутиться при встраивании отчетов во внешние системы? Не нужно приобретать дополнительные лицензии?
Лицензии в любом случае нужно приобретать. Допустим вы создаёте какой-то сервис, который позволяет самостоятельно работать с аналитикой (смотреть созданные вами отчёты, либо даже самим создавать отчёты) вы можете взять модель разные модели лицензирования:
— По времени использования всеми вашими посетителями (Купили N пакетов по 1000 минут, и пусть хоть один пользователь или пол мира сидит в вашей аналитике)
— Лицензии не привязанные к конкретному посетителю (есть допустим 100 бизнес-пользователей, но вы понимание, что они у вас раскиданы по всей России, и одновременно сидит только 10 человек, соответственно 10 лицензий могут закрыть эту задачу)
— Или вообще лицензии с привязкой не к пользователями и времени, а к ядрам. Платите за ядра, а сколько будет пользоваться людей и сколько по времени — вам всё равно.
в PBI и инкремент и промежуточное состояние данных на уровне ETL уже вроде как доступно для Pro подписки с помощью Dataflow. Вот статья от Максим Зеленский по поводу веб датасетов
Статья интересная, но немного не понятно про визуализацию данных.
Кто из них позволяет открыть Dashboard для вывода на большой монитор или телевизор на весь экран, чтобы данные в режиме онлайн отображались и при изменении в источнике графики перерисовывались?
Например как в SAP Xcelsius, если кто с ним работал.
В статье мы писали, что Tableau и Power BI могут поддерживать Live соединение. В комментариях нам отметили, что забыли технологию Qlik Direct Query. Сами не пробовали, но да, получается Qlik тоже может. В итоге (не на всех источниках) все 3 продукта поддерживают живое соединение. Также отмечали, что исходные данные должны быть подготовлены для анализа, т.к. такое соединение требует более быстрой обработки данных и более быстрых каналов связи с хранилищем. Утопия считать что можно подключить BI платформу к обычной SQL (куда пишутся миллионы транзакций), а еще и через сеть Интернет в LIVE режиме.
Спасибо за статью. Как человеку который активно пользуется первыми двумя, было очень интересно.
Хочу также заметить что в Power BI существует функция импорта цветовой темы (через JSON), которая меняет дефольтные цвета на желаемый. Импортировать JSON нужно будет для каждого файла отдельно, зато не нужно будет менять все с нуля, если есть понятие «корпоративные цвета».
Да, обязательно попробуем спасибо. Power BI очень активно развивается, выходит очень много материалов, не успеваешь отслеживать все изменения и функции.
Не совсем понял, именно этот выбор представителей, т.к. Tableau дороговат в их нише и кто их всех туда поставил.
Но напишу про Tableau, т.к. спустя 10 лет интенсивной работы с продуктами BI от IBM, SAP и Oracle, возвращаться назад точно не буду.
Порог вхождения. Если знакомы с SAP или IBM Cognos, то 0 — всё тоже самое, только всё лишнее убрано.
Tableau cервер можно поставить и у себя, есть под win и linux. На Linux получается существенно производительней.
Отличается от ВСЕХ остальных подходов в моделировании. Tableau даёт строить только один контекст на базе фактовой таблицы, зато контексты(модели) строятся быстро. Вероятность ошибок в модели сильно уменьшается. Есть нюанс с обновлением моделей, но нужно просто чётко отладить процесс, чтобы не оставалось дохлых моделей на сервере. Можно откатить, на сервере всё версионируется.

Если модель в базе данных правильно организована, например, индексы, ссылающиеся поля одинаково названы, типы унифицированны, то в Tableau вы просто дважды кликаете и все связи строятся автоматически, названия колонок, типы полей. Потом не нужно тыщу раз кликать, как в других продуктах.

Проект и его артефакты создаются тоже в пределах контекста, как блокнот, куда вы пишите заметки. Деление в других продктах происходит по функиональному принципу, что при большом количестве проектов и артефактов требует гораздо больших человекозатрат.
Блокнот или книга очень удобны, если использовать экстракты (кубы по-старому). Позволяет работать без доступа к базе.

До сих пор не видел ни одного продукта, который так быстро работает и визуализирует большие данные. Вы создаёте экстракт данных на полмиллиарда записей и оно работает в разы быстрее excel-я с его возможным миллионом.

Такой возможности на лету подключить данные из всех возможных источников для исследования самих данных, ни у кого не видел.

Отправляет pdf, csv, картинки так, как вы нарисовали. Одна строчка кода на сервере и оно отправляется в красивом виде и сырые данные и любые картинки и пдф.

ETL у них — это побочный продукт, вообще весь ETL должен быть в виде SQL и заниматься им должна база данных, но это другая тема.

Цена Tableau может испугать, конечно, и все обучения дорогие, пот. учат делать вещи, которые дорого и вредно в BI делать.
Кароче, современный инструмент, современный подход к обработке больших данных. Экономит людей.

Благодарю за статью!

В связи с последними событиями, возможно было бы не лишним упомянуть что либо из отечественного, по типу яндекс ленс ? (просто предложение)

Отдельно хотелось бы уточнить, сталкивались ли с Shiny в своей работе? Могли бы сравнить ее с другими bi решениями?

Добрый день! Рад, что Вам статья понравилась.

Данную статью мы писали 3 года назад, но за это время лидеры квадрата Гартнера не поменялись. В то же время мы наблюдаем как, в силу давления, Qlik, PowerBI, Tableau ограничивает поставки в Россию. Это приводит к "серым" схемам приобретения лицензий и потери данными решениями рынка, который они много лет строили. Это конечно печально. Думаю местные и опенсоурс решения сейчас будут особенно востребованы на российском рынке.

Мы не внедряли ранее решение YandexDataLens. Наши специалисты только поверхностно знакомились с ним. Также не могу ничего сказать про Shiny. Но последние полтора года мы очень активно работали с алгоритмами обработки больших данных, опенсоурсной библиотекой D3 и взаимодействием этого решения с ведущими BI платформами. Мы добились существенного результата. Возможно в будущем мы опишем этот кейс в виде статьи.

Sign up to leave a comment.

Articles