Как стать автором
Обновить
116.25

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Выбор BI системы для селф-сервис

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.8K

Всем привет! Я — Никита Колганов из группы компаний «АСНА». Группа компаний «АСНА» — это современная экосистема сервисов и решений для фармацевтического рынка, позволяющая нам развиваться самим и способствовать развитию партнеров.

Зачем мы вообще внедряли BI‑систему?

В компании ежедневно делается множество отчетов, значительная часть которых — средствами Excel. Помимо того, что ручной сбор отчетов занимает массу времени, так и сам Excel, как контейнер доставки отчетности, обладает рядом недостатков. Это, как минимум:

Проблема централизации — в каждом Excel может быть как свой набор исходных данных, так и свои методики расчета;

Проблема доставки — расшарить файл на большое количество участников бывает проблематично. Особенно, если он большой и не пролезает в почту;

Проблема безопасности — непросто ограничить доступ к Excel‑файлу для определенного круга лиц

Отсутствие автоматизации алертов — на уровне Excel сложно настраивать оповещения в почту или корпоративные мессенджеры в случае изменения того или иного показателя.

Изначально в качестве BI‑системы мы хотели использовать Tableau и даже успели сделать несколько дашбордов, но случился февраль 2022 года, и Tableau стал недоступен. Вместе с тем, в компании назрела необходимость BI в концепции self‑service.

Читать далее
Всего голосов 8: ↑3 и ↓5-2
Комментарии3

FineBI-g brother is still watching: как мы усовершенствовали мониторинг

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров1.6K

Привет, Хабр! На связи BI-команда Tele2. Ранее мы уже рассказывали о нашем опыте перехода на Fine BI и подходе к анализу действий пользователей на платформе.

В нашем случае мониторинг пользователей и объектов на платформе – вопрос жизненной необходимости. Fine BI пользуется популярностью у бизнес-пользователей, также мы активно развиваем подход self-service: лицензия Сreator предоставлена 300 сотрудникам, всего опубликовано около 400 дашбордов, а неопубликованных пользовательских ad-hoc дашбордов насчитывается несколько тысяч, доступ к платформе есть более чем у 2,5 тыс человек, а MAU стремится к 2000 пользователей.

Под катом про то, как мы усовершенствовали объединение таблиц из FineDB и LogDB в один датасет, решили проблему потери логов из-за замены уже опубликованных дашбордов и углубили возможности мониторинга действий пользователей и взаимосвязей пользовательских действий с объектами.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии3

Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров19K

В данной статье мы рассмотрим ключевые аспекты различных типов хранилищ данных, которые помогут оптимизировать процессы управления данными в вашей компании.

Подробнее
Всего голосов 7: ↑5 и ↓2+3
Комментарии4

Выбор информационной системы для автоматизации вашей бизнес-задачи – разбираемся вместе с GlowByte

Время на прочтение12 мин
Количество просмотров4.6K

Вопрос автоматизации бизнес-процессов всегда был актуален для большого количества современных компаний, и в последние несколько лет тренд на автоматизацию набирает всё большие обороты.  

Информационные системы (ИС) позволяют повысить качество бизнес-процессов компании, в том числе связанных со стратегическим планированием, прогнозированием и оценкой эффективности бизнеса в целом.

На рынке существует множество ИС, которые позиционируют себя как продукты, способные решить подобные задачи. В аббревиатурах вообще можно запутаться (BI, ERP, CRM, CPM, EPM, BPM и т. д.). Все эти аббревиатуры, на самом деле, представляют очень разные типы информационных систем, и надо бы разобраться, какой из них подходит под вашу конкретную задачу. При этом внутри каждого типа существует большой выбор различных вендоров, и вопрос выбора становится ещё менее очевидным: не погружённому в специфику продуктов пользователю далеко не всегда понятно, сможет ли конкретная система полностью удовлетворить запрос именно его компании. 

Мы – направление FI (Financial Intelligence) компании GlowByte, специализируемся на внедрении информационных систем, знаем особенности, плюсы и минусы каждой. Этой статьёй мы начинаем цикл публикаций о том, как сделать автоматизацию бизнес-процессов эффективной, безболезненной и успешной. Всё, о чём мы будем писать, основано на личном опыте внедрения. Специалисты нашей команды имеют опыт внедрений в различных отраслях и спецификах, а также являются обладателями сертификатов DipIFR и CIMA, поэтому нам легко понять язык заказчика, прочувствовать все его “боли” и оценить, какой из существующих на рынке продуктов лучше всего подойдёт в каждом конкретном случае. 

Читать далее
Всего голосов 11: ↑10 и ↓1+9
Комментарии0

Истории

Что общего между раком крови, лазерами и нейронными сетями?

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.7K

Доброго времени суток, дорогой Habr, надеюсь вы успели заскучать после 3-х месяцев паузы (ссылка на прошлую статью). На связи снова Николай Иванов и сегодня вы узнаете, что общего между раком крови, лазерами и машинным обучением.  В этой статье мы поговорим с вами о методе проточной цитофлуориметрии, как он работает и как врачи определяют рак костного мозга и крови. Далее обсудим причём тут машинное обучение, как его можно использовать для ускорения работы врачей, а также чего мы достигли и есть ли смысл этим вообще заниматься? Рассказ я буду вести именно в том порядке, в котором мы двигались, при решении данной задачи. Приятного чтения!

Читать далее
Всего голосов 13: ↑13 и ↓0+13
Комментарии10

Apache Spark… Это база

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7.6K

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.

Читать далее
Всего голосов 12: ↑6 и ↓60
Комментарии4

Внутренние данные: топливо успеха в банковской индустрии, или Тайны загрузки данных, формирующих будущее инноваций

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров2.7K

Внутренний источник данных в банке – это любой источник информации, который находится внутри банковской организации и генерирует данные самостоятельно. Эти данные хранятся исключительно внутри банка. Они выделяются уникальностью, бесплатностью (сформированы внутри банка или куплены ранее), и высоким качеством, и хранятся в структурированном виде. При всем при этом они могут приносить бизнесу пользу, если придумать как можно применить их в новых задачах. Подключение таких источников позволяет обогащать имеющиеся базы, улучшать качество существующих моделей машинного обучения и создавать новые.

Как их искать, зачем и куда подключать, как они могут быть полезны и какую подготовительную работу мы проводим, прежде чем подключить, расскажем в статье.

Читать далее
Всего голосов 13: ↑12 и ↓1+11
Комментарии3

Лексикографический симплекс-метод

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.7K

Лексикографический симлекс-метод.

Решение задачи линейного программирование симлекс-методом и лексикографическим симлекс-методом на Python!

Читать далее
Всего голосов 11: ↑9 и ↓2+7
Комментарии3

FineBI: Обработка данных для начинающих пользователей

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.3K

Хабр, привет!

На связи команда Business Intelligence GlowByte. Да-да, те самые неугомонные, которые создали самое крупное русскоязычное сообщество FineBI, проводят обучения, собирают дайджесты и ежегодно организуют масштабные конференции

Меня зовут Александр, я руководитель центра поддержки и обучения BI-решений в GlowByte, и сегодня хочу поделиться с вами небольшим гайдом по обработке данных в FineBI. Этот материал будет полезен начинающим BI-разработчикам.

Данная статья состоит из четырех уроков, которые помогут вам ближе познакомиться с функциями редактирования данных в FineBI. Если после прочтения вы захотите разобраться со всеми особенностями платформы, закрепить базовые знания и прокачать навыки создания сложных визуализаций, приглашаю на наши курсы.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Как использовать Spring в качестве фреймворка для Flink-приложений

Время на прочтение9 мин
Количество просмотров4.6K

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Недавно мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в наши продукты в цикле статей. В предыдущей части я рассказывал про основные концепции потоковой обработки данных. А ещё затронул архитектуру и главные механизмы Apache Flink.

В этой статье начнем разработку Flink-приложения с использованием фреймворка Spring. Изучим структуру приложения, основные плагины и полезные настройки. Развернем Flink-кластер в Docker и попробуем запустить первое Flink-задание. Структура приложения будет постепенно развиваться в последующих статьях.

Читать далее
Всего голосов 15: ↑15 и ↓0+15
Комментарии10

Выбор СУБД: шпаргалка, чтобы не запутаться

Время на прочтение6 мин
Количество просмотров30K

Вопрос выбора СУБД для российской компании или госоргана – вопрос не праздный, тем более сейчас – когда с момента ухода с рынка западных вендоров прошло уже полтора года и пора что-то решать. Но как не запутаться в номенклатуре СУБД и выбрать ту, которая лучше всего подходит? Без ложной скромности скажу: мы в «Кругах Громова» уже немного поднаторели в систематизации, поэтому надеемся, что наша шпаргалка для тех, кто хочет выбрать СУБД, окажется полезной.

Начнем с классики. СУБД делятся на несколько типов. Не будем описывать их подробно, остановимся только на их основном предназначении.

Читать далее
Всего голосов 23: ↑14 и ↓9+5
Комментарии10

Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3K

Привет, Хабр! С прошлого дайджеста произошло много событий в мире MLOps и дата-аналитики. Например, Microsoft анонсировал свой AI-чип, Databricks стал скупать «игроков поменьше», а рынку аналитических решений прогнозируют рост на 40% каждый год. Подробнее об этом рассказываем в статье. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать дальше →
Всего голосов 29: ↑25 и ↓4+21
Комментарии0

Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за середину осени

Время на прочтение2 мин
Количество просмотров3K

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:

Читать далее
Всего голосов 12: ↑9 и ↓3+6
Комментарии5

Ближайшие события

One day offer от ВСК
Дата16 – 17 мая
Время09:00 – 18:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область

В ногу со временем: введение в многомерный анализ и OLAP-технологии

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров5.4K

В любой компании важно принимать корректные и целесообразные управленческие решения, а для этого необходимо обладать нужной информацией. Поэтому требуется собрать данные из всех информационных систем, привести их к общему виду и после этого проводить анализ. Давай разберемся?

Читать далее
Всего голосов 2: ↑0 и ↓2-2
Комментарии5

Не радиус важен, а плотность! Часть 1: Глубокий взгляд на precision и recall

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.1K

Нет, нет, я совсем не про геометрию или физику, я про множества!

Точнее про множество того, что вы знаете.

К сожалению, множество знаний у ML разработчиков всех уровней часто представляет из себя именно такое. Хотелось бы попробовать озвучить некоторый, как кажется, более глубокий взгляд на привычные уже нам в ML вещи, вероятно, написать даже целую серию статей и попробовать в них посмотреть на многие классические аспекты машинного обучения с сильным погружением в теорию вероятности, математический анализ и линейную алгебру, или обратить внимание на просто некоторые неочевидные вещи.

В дебютной статье речь пойдет про всем нам уже привычные метрики классификации: accuracy, precision, recall и f1-score

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии4

ChatGPT плохо отвечает на «простые вопросы». Как это починить?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров9.9K

В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.

Читать далее
Всего голосов 17: ↑16 и ↓1+15
Комментарии12

Как автоматизировать проверки данных в Airflow с Great Expectations

Время на прочтение7 мин
Количество просмотров2.7K

Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии0

5 уровней зрелости MLOps

Время на прочтение9 мин
Количество просмотров6.7K


Google и Microsoft представили свои уровни зрелости MLOps — они описывают развитие инфраструктуры ML на основе лучших практик в отрасли. Команда VK Cloud перевела статью, в которой описано лучшее из обоих фреймворков.
Читать дальше →
Всего голосов 17: ↑16 и ↓1+15
Комментарии0

Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.5K

В этой статье расскажем про подход к решению задачи о персонализации тарифных планов для абонентов новой базы в рамках CVM-проекта. Поговорим о том, как с помощью ML определить оптимальные параметры тарифа для абонентов с короткой историей, и как посчитать привлекательность полученного тарифа.

Читать далее
Всего голосов 10: ↑5 и ↓50
Комментарии7

Деревья ltree в PostgreSQL – простым языком

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров9.1K

Привет, Habr! Меня зовут Оля Плюта, я продуктовый аналитик маркетплейса Uzum Market. В этой статье я расскажу об иерархических деревьях ltree в PostgreSQL. Статья вводная, поэтому я постаралась сделать её максимально понятной и наглядной.

Читать далее
Всего голосов 13: ↑13 и ↓0+13
Комментарии4

Вклад авторов

Работа

Data Scientist
56 вакансий