Pull to refresh

Comments 55

Спасибо! А мне кажется, или когда-то в основе лежал Dash by Plotly?

хороший ход, Яндекс. Конечно есть вопросы:

1) что с легальной юридической стороной вопроса, на основе какой лицензии можно это использовать?

2) да, вопросы авторизации и разделения прав доступа - самые интересные, надо будет их раскрывать

3) как все-таки сделать on-premise решение внутри компании в закрытом контуре. Нужно ли будет подключение к интернет?

будем конечно пробовать и руками.

как все-таки сделать on-premise решение внутри компании в закрытом контуре. Нужно ли будет подключение к интернет?

А как потом переводить на платный тариф тех, кто подсядет??? * сарказм *

1) Открытая лицензия Apache 2.0, про это написано в первом предложении статьи и на Github: https://github.com/datalens-tech/datalens/blob/main/LICENSE

2) Они часто зависят от конкретных требований ИБ внутри компании. В целом - при большом желании можно прикрутить собственную систему аутентификации/авторизации уже сегодня. В будущем, конечно, мы предложим и готовые решения и API/SDK для удобной интеграции с корпоративными системами.

3) Ничто не мешает развернуть DataLens Open Source в закрытом контуре без подключения к интернету уже сейчас.

2) да, вопросы авторизации и разделения прав доступа - самые интересные, надо будет их раскрывать

Обязательно раскроем детали по развитию опенсорса в roadmap'е и возможно в ещё одной статье чуть позже.

Записал, буду пробовать вместо графаны. Кстати, как у вас с плотностью информации, иногда хочется дашборд в котором много информации плотненько лежит, из недавннего, видел интерфейс станции Восток из этого поста https://pikabu.ru/story/stantsiya_vostok__samoe_kholodnoe_mesto_na_planete_10674372

Если посмотреть на график, то подписи очень мелкие, когда ты смотришь на дашборд регулярно, ты уже примерно знаешь где и что искать, и хочется график видеть крупнее, а подписи мельче. Я посчитал площадь которую занимает сам график относительно площади виджета, и у яндекса получилось около 50%, как и у графаны, когда у нас несколько графиков. Понятно что это относительная величина, и если будет 1 график то его отступы вокруг не так драматичны, а вот если их несколько, отступы начинаю ждать место. Так вот в интефейсе со станции Восток график занимает более 80% своего виджета, вот рассчёты

Изобразил как мог, но мысль думаю понятна, я хочу на одном мониторе видеть 9-12 графиков, сейчас, если так сделать в графане получаются очень маленикие графики, а совсем скрыть легенду и разметки тоже неправильно, но есть примеры когда отметки вносят "внутрь графика" что увеличивает площадь графика, что собственно имхо и есть самое важное.

В вашем примере для повышения плотности можно:

  • убрать подписи осей (sales и Order month)

  • убрать легенду

  • убрать подписи значений по оси Y (и добавить подписи на сам график, например)

  • убрать лишние заголовки

  • не использовать иерархию и drill-down, в этом случае не будет и хлебных крошек навигации по ней

Все это делается кликами в настройках чарта, см. пример на основе того же дашборда:

Спасибо, уже неплохо, но без заголовка конечно уже непонятно. На скрине с Востока и название и подписи значений есть, но уложены гораздо более плотно. А свой css подкинуть относительно простым способом можно?

Используем Яндекс DataLens в своей деятельности, в основном как инструмент визуализации (дашборды), данные накапливаем в Яндекс Трекере. Хорошо, что Вы открыты.

Если сравнить с уже существующим open source решением Apache Superset - получается подмножество фичей. Из отличий нашёл разве что возможность расставлять фильтры (селекторы) на дашбордах в разных местах. Проводилось ли у вас сравнение с этим инструментом и есть ли причины, по которым лучше использовать DataLens?

Ну, по поводу причнин можно подумать.
Во первых, это отечественное ПО по идее, а значит для банков, иного финтеха, преприятий, касающихся оборонки и критических отраслей(те же операторы связи, которые вроде как КИИ) это прям вообще самое то.
Интеграции с сервисами Яндекса для тех, кто уже пользует их экосистему тоже прям кошерно.

В этой серии роликов Рома Бунин делал концептуальное сравнение DataLens с PowerBI / Tableau / Superset.

Из того что можно отметить сходу у DataLens можно выделить:

  • Нативную работа с Clickhouse (для нас основной источник)

  • Lod'ы, оконные другие аналитические функции

  • Иерархии и дрилл-даун из измерений

Но ведь:

  • У SuperSet так же есть коннектор к Clickhouse, который под капотом использует clickhouse-connect. Чем ваша реализация "нативнее"?

  • Lodы поддерживаются в Tableau, оконные функции поддерживаются вообще везде. Но Lodы сами по себе являются просто синтаксическим сахаром над SQL

  • Дрилл дауны есть в SuperSet, включаются через DRILL_TO_DETAIL

Действительно, DRILL_TO_DETAIL появился в Superset недавно, но пока еще в статусе Testing, а по умолчанию в опенсорсе даже выключен. А parent-child иерархий с частичным раскрытием по клику на "+". так и нет(

В DataLens при описании модели данных можно использовать свой синтаксис для конструктора формул: оконные функции, time-series, LOD'ы, функции по работе с массивами - все это в зависимости от самого чарта, набора измерений и группировок - может транслироваться в разные SQL подзапросы с учетом специфики/синтаксиса конкретного источника. А в Superset, для агрегации сложнее обычной SUM/COUNT - уже нужно писать Custom SQL.

Вообще, детальное сравнение инструментов - тема отдельной статьи)

ссылка некорректная

Еще огромный плюс - работа с картами, которые доступны в РФ и бесплатны при наличии геоинформации в самой базе

Нативную работа с Clickhouse (для нас основной источник)

И при этом я вижу только коннекшн через HTTP порт (как-то в проде кликхаус базы часто только с TCP-портом). Или я что-то пропустил (в документации тоже только HTTP)? SuperSet нормально работает и через TCP-порт, получается он явно нативней.

Виноват, это вообще неважно, работает отлично (найденные мелочи зарепорчу), спасибо за продукт!

Кстати, я не сильно шарю за опенсорс, но мне интересно, зарабтывает ли что то на этом Яндекс, и если да, то каким образом?

На предоставлении поддержки/развертывании другим компаниям, +получают ускоренное развитие самого продукта

Потенциально возможны коммерческие проекты внедрения и платная поддержка

набор основных коннекторов (PostgreSQL, ClickHouse и YTsaurus)

А из csv данные можно загружать?

Всего 3 коннектора - это очень мало.

+ещё вопрос - не будет ли яндекс сливать данные или следить за сервером, на котором всё будет развёрнуто?

не будет ли яндекс сливать данные или следить за сервером, на котором всё будет развёрнуто?

нет конечно, в опенсурс продуктах о сборе телеметрии сразу объявляют и флаг для отключения предоставляют

Список коннекторов в опенсорсе будет расширяться. Коннектор к CSV требует дополнительного механизма кэширования, поэтому добавим его чуть позже.

Скажите пожалуйста. А коннектор с Microsoft SQL Server рассматривается? Или остаётся PowerBI?

Коннектор к MS SQL уже есть в облачном DataLens. В open source список подключений также планируем расширять. Для некоторых подключений есть лицензионные нюансы используемых библиотек, поэтому не можем выложить все сразу.

Поддерживаю вопрос про коннекторы, всего 3 штуки это мало. Как насчёт крупного энтерпайза с Oracle Database (SQL)? Они не в вашем фокусе, или предполагаете что у большинства PostgreSQL?)

Коннектор к Oracle есть в облачном DataLens. С точки зрения публикации его в open source есть лицензионные нюансы. Сейчас юристами прорабатываем варианты, как их обойти.

Есть ли реализация OLAP-таблицы, чтобы пользователь мог самостоятельно накидывать измерения в столбцы\строки\фильтры и раскладывать по ним факты? Спасибо!

Да, создаете обычный чарт Сводная таблица. В нее можете накидывать измерения и показатели, добавлять итоги / подытоги, включать условный формат и индикаторы, а также многое другое.

Подскажите, пожалуйста по таким вопросам:

1) есть ли что-то аналогичное DAX в Power BI?

2) есть ли возможность создавать и импортировать свои (или заимствованные) чарты?

1) Есть вычисляемые поля. В документации есть описание функций и туториалы по их использованию.

2) Если речь про новые типы чартов, то готового API/SDK для этого пока нет. Но весь исходный код открыт, поэтому при большом желании можно разобраться в том, как все устроено и сделать pull-request с новым функционалом.

вижу, что функционал опенсорсного сильно урезан в отличие от облачного, это специально так сделано, чтобы людей привлечь в платную версию?

О причинах ограничений писали в посте.  Вывод cloud-native сервиса в опенсорс — большой проект. Не все компоненты Yandex Cloud возможно вынести в опенсорс. Где-то нам удалось избавиться от зависимостей, а что-то еще предстоит. Вы про какую платную версию?

Извините, не так выразился, я имел в виду облачную версию, в которой требуется инфраструктура яндекс облаки, что не всегда бесплатно ))
Да, это несомненно важное событие для продукта переход в открытый код... просто тоже думаем перейти возможно с Tableau на Datalens, и возник вопрос перенесете ли обширный функционал облачной версии на оперсорный..

Да, эти же лимиты описаны в документации open source проекта: https://datalens.tech/docs/ru/concepts/limits.html

Важно, что эти лимиты именно про отображение на чарте (например, отобразить 75001 столбец на одном чарте уже не получится, но оно обычно и не имеет смысла). Сырых данных под чартом может быть сколько угодно - в этом ограничений нет (например, вывести сумму продаж по 100 продуктам за всю историю 2млн фактов продаж - не проблема).

В этой статье рассматривали кейс и производительность дашборда на таблице с 150млн строк https://habr.com/ru/companies/yandex_cloud_and_infra/articles/746022/

Вопрос, кто ни будь знает, на карте шарики могут объединятся в более крупные при отдалении и разделятся при приближении? Кажется в PowerBi этот функционал работает с ходу, а вот в DL я так и не нашёл такого функционала.

Примеры с кластеризацией точек на карте можно посмотреть на демодашборде в облачном DataLens. В open source карты будут доступны чуть позже.

Добрый день, BI системы зачастую интересуют не только инженеров данных и аналитиков, поэтому хотел вас попросить расширить README к вашему прекрасному инструменту руководством на тему того как скорректировать yml конфиг Docker-образа с тем чтобы можно было бы монтировать рабочую директорию в volume и настроенные чарты и коннекты не слетали после каждого запуска docker compose.

Скоро будет инструкция для этого

Теперь условные ChatGPT & YandexGPT станет намного проще тренировать. Осталось запустить российский аналог GitHub.

Российский аналог гихаба давно есть - это gitflic ;)

Пользовался им в стадии облака. Так же брал облачные ресурсы у яндекса по кликхаусу, но выгоднее оказалось брать железные сервера в селектел (год в яндексе 1.2 млн.р, год в селектел на железках более производительных около 800 т.р.). От даталенса отказался из-за его слабой производительности на бигдате (не может он моментально строить графики с десятков млн. строк из клика даже с нужными индексами (ваши же ребята из ТП мне помогали и бросили). Перешел на графану. База в кластере клика 1.1 Тб и растет, графана отлично справляется.

Качну даталенс, попробую развернуть для сравнения с графаной в очередной раз )

Superset не пробовали? Мне вот Datalens не хватило ввиду лимитов(https://cloud.yandex.ru/docs/datalens/concepts/limits) и низкой производительности отрисовки даже на localhost (Clickhouse + Datalens). Размышляю в какую сторону дальше смотреть.

Superset  не пробовал.

Отрисовка и лимиты просто "добили" разворот к графане.

1.Карты доступны только в облачной версии?
2.Можно ли к геоточке на карте прикрепить отдельный дашбоард (по клику открывать его в правой части экрана), или набор чартов, а не просто легенду?

Актуально бы, установку под Astra Linux расписать)

Сам себе отвечу .. завелось после правки docker-compose.yml

"host.docker.internal:host-gateway" => "host.docker.internal:172.17.0.1"

Спасибо за интересный продукт.
Добавьте пожалуйста хотя бы зачатки управления пользователями.
Самой простой ролевой модели будет достаточно на первое время.

Заказчики смогут разворачивать продукт на своём железе, не опасаясь облачного вендорлока, а также строить data‑экосистемы на базе нескольких опенсорс‑продуктов, например: YDB + YTsaurus + CHYT + Clickhouse + DataLens.


Можете пожалуйста раскрыть мысль почему все эти продукты стоят через "+", YDB и YTsaurus можно как-то интегрировать вместе?

Sign up to leave a comment.