pvdubinin Sep 26 2023 at 11:00

BI-инструмент от Яндекса DataLens — теперь в опенсорсе

7 min

44K

Яндекс corporate blogYandex Cloud & Yandex Infrastructure corporate blogOpen source*Data visualization*

✏️ Technotext 2023

+113

Comments 55

kuraga333 Sep 26 2023 at 11:21

Спасибо! А мне кажется, или когда-то в основе лежал Dash by Plotly?

rbunin Sep 26 2023 at 11:41

Нет, Plotly не было )

GromovBI Sep 26 2023 at 12:10

хороший ход, Яндекс. Конечно есть вопросы:

1) что с легальной юридической стороной вопроса, на основе какой лицензии можно это использовать?

2) да, вопросы авторизации и разделения прав доступа - самые интересные, надо будет их раскрывать

3) как все-таки сделать on-premise решение внутри компании в закрытом контуре. Нужно ли будет подключение к интернет?

будем конечно пробовать и руками.

sergeyns Sep 26 2023 at 13:31

как все-таки сделать on-premise решение внутри компании в закрытом контуре. Нужно ли будет подключение к интернет?

А как потом переводить на платный тариф тех, кто подсядет??? * сарказм *

pvdubinin Sep 26 2023 at 13:31

1) Открытая лицензия Apache 2.0, про это написано в первом предложении статьи и на Github: https://github.com/datalens-tech/datalens/blob/main/LICENSE

2) Они часто зависят от конкретных требований ИБ внутри компании. В целом - при большом желании можно прикрутить собственную систему аутентификации/авторизации уже сегодня. В будущем, конечно, мы предложим и готовые решения и API/SDK для удобной интеграции с корпоративными системами.

3) Ничто не мешает развернуть DataLens Open Source в закрытом контуре без подключения к интернету уже сейчас.

+12

YandexCloudEditor Sep 26 2023 at 13:59

2) да, вопросы авторизации и разделения прав доступа - самые интересные, надо будет их раскрывать

Обязательно раскроем детали по развитию опенсорса в roadmap'е и возможно в ещё одной статье чуть позже.

nalgeon Sep 26 2023 at 12:30

—

Aquahawk Sep 26 2023 at 12:42

Записал, буду пробовать вместо графаны. Кстати, как у вас с плотностью информации, иногда хочется дашборд в котором много информации плотненько лежит, из недавннего, видел интерфейс станции Восток из этого поста https://pikabu.ru/story/stantsiya_vostok__samoe_kholodnoe_mesto_na_planete_10674372

Если посмотреть на график, то подписи очень мелкие, когда ты смотришь на дашборд регулярно, ты уже примерно знаешь где и что искать, и хочется график видеть крупнее, а подписи мельче. Я посчитал площадь которую занимает сам график относительно площади виджета, и у яндекса получилось около 50%, как и у графаны, когда у нас несколько графиков. Понятно что это относительная величина, и если будет 1 график то его отступы вокруг не так драматичны, а вот если их несколько, отступы начинаю ждать место. Так вот в интефейсе со станции Восток график занимает более 80% своего виджета, вот рассчёты

Изобразил как мог, но мысль думаю понятна, я хочу на одном мониторе видеть 9-12 графиков, сейчас, если так сделать в графане получаются очень маленикие графики, а совсем скрыть легенду и разметки тоже неправильно, но есть примеры когда отметки вносят "внутрь графика" что увеличивает площадь графика, что собственно имхо и есть самое важное.

pvdubinin Sep 27 2023 at 14:37

В вашем примере для повышения плотности можно:

убрать подписи осей (sales и Order month)
убрать легенду
убрать подписи значений по оси Y (и добавить подписи на сам график, например)
убрать лишние заголовки
не использовать иерархию и drill-down, в этом случае не будет и хлебных крошек навигации по ней

Все это делается кликами в настройках чарта, см. пример на основе того же дашборда:

Aquahawk Sep 27 2023 at 14:42

Спасибо, уже неплохо, но без заголовка конечно уже непонятно. На скрине с Востока и название и подписи значений есть, но уложены гораздо более плотно. А свой css подкинуть относительно простым способом можно?

Gotfrid_AV Sep 26 2023 at 14:20

Используем Яндекс DataLens в своей деятельности, в основном как инструмент визуализации (дашборды), данные накапливаем в Яндекс Трекере. Хорошо, что Вы открыты.

KochankovID Sep 26 2023 at 15:06

Если сравнить с уже существующим open source решением Apache Superset - получается подмножество фичей. Из отличий нашёл разве что возможность расставлять фильтры (селекторы) на дашбордах в разных местах. Проводилось ли у вас сравнение с этим инструментом и есть ли причины, по которым лучше использовать DataLens?

Val_SA Sep 26 2023 at 17:44

Ну, по поводу причнин можно подумать.
Во первых, это отечественное ПО по идее, а значит для банков, иного финтеха, преприятий, касающихся оборонки и критических отраслей(те же операторы связи, которые вроде как КИИ) это прям вообще самое то.
Интеграции с сервисами Яндекса для тех, кто уже пользует их экосистему тоже прям кошерно.

pvdubinin Sep 26 2023 at 19:06

В этой серии роликов Рома Бунин делал концептуальное сравнение DataLens с PowerBI / Tableau / Superset.

Из того что можно отметить сходу у DataLens можно выделить:

Нативную работа с Clickhouse (для нас основной источник)
Lod'ы, оконные другие аналитические функции
Иерархии и дрилл-даун из измерений

KochankovID Sep 26 2023 at 23:08

Но ведь:

У SuperSet так же есть коннектор к Clickhouse, который под капотом использует clickhouse-connect. Чем ваша реализация "нативнее"?
Lodы поддерживаются в Tableau, оконные функции поддерживаются вообще везде. Но Lodы сами по себе являются просто синтаксическим сахаром над SQL
Дрилл дауны есть в SuperSet, включаются через DRILL_TO_DETAIL

pvdubinin Sep 27 2023 at 15:01

Действительно, DRILL_TO_DETAIL появился в Superset недавно, но пока еще в статусе Testing, а по умолчанию в опенсорсе даже выключен. А parent-child иерархий с частичным раскрытием по клику на "+". так и нет(

В DataLens при описании модели данных можно использовать свой синтаксис для конструктора формул: оконные функции, time-series, LOD'ы, функции по работе с массивами - все это в зависимости от самого чарта, набора измерений и группировок - может транслироваться в разные SQL подзапросы с учетом специфики/синтаксиса конкретного источника. А в Superset, для агрегации сложнее обычной SUM/COUNT - уже нужно писать Custom SQL.

Вообще, детальное сравнение инструментов - тема отдельной статьи)

cyc1e Sep 27 2023 at 15:03

ссылка некорректная

pvdubinin Sep 27 2023 at 15:05

Исправляюсь:

Серия роликов про концептуальное сравнение DataLens с PowerBI / Tableau / Superset

astoulov Sep 28 2023 at 02:30

Еще огромный плюс - работа с картами, которые доступны в РФ и бесплатны при наличии геоинформации в самой базе

belonesox Nov 10 2023 at 11:10

Нативную работа с Clickhouse (для нас основной источник)

И при этом я вижу только коннекшн через HTTP порт (как-то в проде кликхаус базы часто только с TCP-портом). Или я что-то пропустил (в документации тоже только HTTP)? SuperSet нормально работает и через TCP-порт, получается он явно нативней.

-1

belonesox Nov 11 2023 at 07:05

Виноват, это вообще неважно, работает отлично (найденные мелочи зарепорчу), спасибо за продукт!

Val_SA Sep 26 2023 at 17:45

Кстати, я не сильно шарю за опенсорс, но мне интересно, зарабтывает ли что то на этом Яндекс, и если да, то каким образом?

axifive Sep 26 2023 at 18:41

На предоставлении поддержки/развертывании другим компаниям, +получают ускоренное развитие самого продукта

pvdubinin Sep 26 2023 at 18:56

Потенциально возможны коммерческие проекты внедрения и платная поддержка

BerdBerd Sep 26 2023 at 18:15

набор основных коннекторов (PostgreSQL, ClickHouse и YTsaurus)

А из csv данные можно загружать?

Всего 3 коннектора - это очень мало.

+ещё вопрос - не будет ли яндекс сливать данные или следить за сервером, на котором всё будет развёрнуто?

axifive Sep 26 2023 at 18:32

не будет ли яндекс сливать данные или следить за сервером, на котором всё будет развёрнуто?

нет конечно, в опенсурс продуктах о сборе телеметрии сразу объявляют и флаг для отключения предоставляют

pvdubinin Sep 26 2023 at 18:55

Список коннекторов в опенсорсе будет расширяться. Коннектор к CSV требует дополнительного механизма кэширования, поэтому добавим его чуть позже.

velu Sep 27 2023 at 15:07

Скажите пожалуйста. А коннектор с Microsoft SQL Server рассматривается? Или остаётся PowerBI?

pvdubinin Sep 27 2023 at 15:12

Коннектор к MS SQL уже есть в облачном DataLens. В open source список подключений также планируем расширять. Для некоторых подключений есть лицензионные нюансы используемых библиотек, поэтому не можем выложить все сразу.

vesper Sep 26 2023 at 18:37

Поддерживаю вопрос про коннекторы, всего 3 штуки это мало. Как насчёт крупного энтерпайза с Oracle Database (SQL)? Они не в вашем фокусе, или предполагаете что у большинства PostgreSQL?)

pvdubinin Sep 26 2023 at 19:13

Коннектор к Oracle есть в облачном DataLens. С точки зрения публикации его в open source есть лицензионные нюансы. Сейчас юристами прорабатываем варианты, как их обойти.

ekb Sep 27 2023 at 11:09

Есть ли реализация OLAP-таблицы, чтобы пользователь мог самостоятельно накидывать измерения в столбцы\строки\фильтры и раскладывать по ним факты? Спасибо!

pvdubinin Sep 27 2023 at 15:18

Да, создаете обычный чарт Сводная таблица. В нее можете накидывать измерения и показатели, добавлять итоги / подытоги, включать условный формат и индикаторы, а также многое другое.

Krooxe Sep 28 2023 at 12:16

Подскажите, пожалуйста по таким вопросам:

1) есть ли что-то аналогичное DAX в Power BI?

2) есть ли возможность создавать и импортировать свои (или заимствованные) чарты?

pvdubinin Sep 28 2023 at 12:22

1) Есть вычисляемые поля. В документации есть описание функций и туториалы по их использованию.

2) Если речь про новые типы чартов, то готового API/SDK для этого пока нет. Но весь исходный код открыт, поэтому при большом желании можно разобраться в том, как все устроено и сделать pull-request с новым функционалом.

b19 Sep 28 2023 at 12:45

вижу, что функционал опенсорсного сильно урезан в отличие от облачного, это специально так сделано, чтобы людей привлечь в платную версию?

pvdubinin Sep 28 2023 at 12:45

О причинах ограничений писали в посте. Вывод cloud-native сервиса в опенсорс — большой проект. Не все компоненты Yandex Cloud возможно вынести в опенсорс. Где-то нам удалось избавиться от зависимостей, а что-то еще предстоит. Вы про какую платную версию?

b19 Sep 28 2023 at 14:08

Извините, не так выразился, я имел в виду облачную версию, в которой требуется инфраструктура яндекс облаки, что не всегда бесплатно ))
Да, это несомненно важное событие для продукта переход в открытый код... просто тоже думаем перейти возможно с Tableau на Datalens, и возник вопрос перенесете ли обширный функционал облачной версии на оперсорный..

mihanc Sep 28 2023 at 16:49

Сохраняются ли лимиты, описанные здесь, после разворачивания на своей машине: https://cloud.yandex.ru/docs/datalens/concepts/limits ?

pvdubinin Sep 28 2023 at 16:58

Да, эти же лимиты описаны в документации open source проекта: https://datalens.tech/docs/ru/concepts/limits.html

Важно, что эти лимиты именно про отображение на чарте (например, отобразить 75001 столбец на одном чарте уже не получится, но оно обычно и не имеет смысла). Сырых данных под чартом может быть сколько угодно - в этом ограничений нет (например, вывести сумму продаж по 100 продуктам за всю историю 2млн фактов продаж - не проблема).

В этой статье рассматривали кейс и производительность дашборда на таблице с 150млн строк https://habr.com/ru/companies/yandex_cloud_and_infra/articles/746022/

Gzod Sep 30 2023 at 22:20

Вопрос, кто ни будь знает, на карте шарики могут объединятся в более крупные при отдалении и разделятся при приближении? Кажется в PowerBi этот функционал работает с ходу, а вот в DL я так и не нашёл такого функционала.

pvdubinin Sep 30 2023 at 22:22

Примеры с кластеризацией точек на карте можно посмотреть на демодашборде в облачном DataLens. В open source карты будут доступны чуть позже.

iAMDiver Oct 1 2023 at 20:42

Добрый день, BI системы зачастую интересуют не только инженеров данных и аналитиков, поэтому хотел вас попросить расширить README к вашему прекрасному инструменту руководством на тему того как скорректировать yml конфиг Docker-образа с тем чтобы можно было бы монтировать рабочую директорию в volume и настроенные чарты и коннекты не слетали после каждого запуска docker compose.

pvdubinin Oct 2 2023 at 10:32

Скоро будет инструкция для этого

SviatoslavGusev Oct 2 2023 at 08:33

Теперь условные ChatGPT & YandexGPT станет намного проще тренировать. Осталось запустить российский аналог GitHub.

divanus Oct 4 2023 at 21:41

Российский аналог гихаба давно есть - это gitflic ;)

divanus Oct 3 2023 at 12:40

Пользовался им в стадии облака. Так же брал облачные ресурсы у яндекса по кликхаусу, но выгоднее оказалось брать железные сервера в селектел (год в яндексе 1.2 млн.р, год в селектел на железках более производительных около 800 т.р.). От даталенса отказался из-за его слабой производительности на бигдате (не может он моментально строить графики с десятков млн. строк из клика даже с нужными индексами (ваши же ребята из ТП мне помогали и бросили). Перешел на графану. База в кластере клика 1.1 Тб и растет, графана отлично справляется.

Качну даталенс, попробую развернуть для сравнения с графаной в очередной раз )

iAMDiver Oct 4 2023 at 13:43

Superset не пробовали? Мне вот Datalens не хватило ввиду лимитов(https://cloud.yandex.ru/docs/datalens/concepts/limits) и низкой производительности отрисовки даже на localhost (Clickhouse + Datalens). Размышляю в какую сторону дальше смотреть.

pvdubinin Oct 4 2023 at 15:23

А в какие лимиты уперлись и в каком кейсе? Про лимиты и производительность писал чуть выше

divanus Oct 4 2023 at 21:40

Superset не пробовал.

Отрисовка и лимиты просто "добили" разворот к графане.

vtsoriev Oct 10 2023 at 08:26

1.Карты доступны только в облачной версии?
2.Можно ли к геоточке на карте прикрепить отдельный дашбоард (по клику открывать его в правой части экрана), или набор чартов, а не просто легенду?

MasyGreen Oct 17 2023 at 10:40

Актуально бы, установку под Astra Linux расписать)

MasyGreen Oct 17 2023 at 19:44

Сам себе отвечу .. завелось после правки docker-compose.yml

"host.docker.internal:host-gateway" => "host.docker.internal:172.17.0.1"

HDDimon Nov 23 2023 at 21:55

Спасибо за интересный продукт.
Добавьте пожалуйста хотя бы зачатки управления пользователями.
Самой простой ролевой модели будет достаточно на первое время.

Neyury Dec 4 2023 at 22:30

Заказчики смогут разворачивать продукт на своём железе, не опасаясь облачного вендорлока, а также строить data‑экосистемы на базе нескольких опенсорс‑продуктов, например: YDB + YTsaurus + CHYT + Clickhouse + DataLens.

Можете пожалуйста раскрыть мысль почему все эти продукты стоят через "+", YDB и YTsaurus можно как-то интегрировать вместе?