Big Data *

Большие данные и всё о них

Статьи Посты Новости Авторы Компании

Avanti 8 дек 2023 в 09:28

Выбор BI системы для селф-сервис

Простой

8 мин

4.8K

Big Data*Визуализация данных*Хранение данных*Хранилища данных*

Мнение

Всем привет! Я — Никита Колганов из группы компаний «АСНА». Группа компаний «АСНА» — это современная экосистема сервисов и решений для фармацевтического рынка, позволяющая нам развиваться самим и способствовать развитию партнеров.

Зачем мы вообще внедряли BI‑систему?

В компании ежедневно делается множество отчетов, значительная часть которых — средствами Excel. Помимо того, что ручной сбор отчетов занимает массу времени, так и сам Excel, как контейнер доставки отчетности, обладает рядом недостатков. Это, как минимум:

Проблема централизации — в каждом Excel может быть как свой набор исходных данных, так и свои методики расчета;

Проблема доставки — расшарить файл на большое количество участников бывает проблематично. Особенно, если он большой и не пролезает в почту;

Проблема безопасности — непросто ограничить доступ к Excel‑файлу для определенного круга лиц

Отсутствие автоматизации алертов — на уровне Excel сложно настраивать оповещения в почту или корпоративные мессенджеры в случае изменения того или иного показателя.

Изначально в качестве BI‑системы мы хотели использовать Tableau и даже успели сделать несколько дашбордов, но случился февраль 2022 года, и Tableau стал недоступен. Вместе с тем, в компании назрела необходимость BI в концепции self‑service.

-2

alexandrsnytko 5 дек 2023 в 10:07

FineBI-g brother is still watching: как мы усовершенствовали мониторинг

Сложный

7 мин

1.6K

Блог компании Tele2Big Data*Визуализация данных*Хранение данных*Хранилища данных*

Туториал

Привет, Хабр! На связи BI-команда Tele2. Ранее мы уже рассказывали о нашем опыте перехода на Fine BI и подходе к анализу действий пользователей на платформе.

В нашем случае мониторинг пользователей и объектов на платформе – вопрос жизненной необходимости. Fine BI пользуется популярностью у бизнес-пользователей, также мы активно развиваем подход self-service: лицензия Сreator предоставлена 300 сотрудникам, всего опубликовано около 400 дашбордов, а неопубликованных пользовательских ad-hoc дашбордов насчитывается несколько тысяч, доступ к платформе есть более чем у 2,5 тыс человек, а MAU стремится к 2000 пользователей.

Под катом про то, как мы усовершенствовали объединение таблиц из FineDB и LogDB в один датасет, решили проблему потери логов из-за замены уже опубликованных дашбордов и углубили возможности мониторинга действий пользователей и взаимосвязей пользовательских действий с объектами.

LegatoData 2 дек 2023 в 14:56

Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных

Средний

5 мин

19K

PostgreSQL*Администрирование баз данных*Big Data*DevOps*Data Engineering*

Из песочницы

В данной статье мы рассмотрим ключевые аспекты различных типов хранилищ данных, которые помогут оптимизировать процессы управления данными в вашей компании.

Подробнее

SnezhSh 30 ноя 2023 в 13:45

Выбор информационной системы для автоматизации вашей бизнес-задачи – разбираемся вместе с GlowByte

12 мин

4.6K

Блог компании GlowByteBig Data*Визуализация данных*Хранение данных*Финансы в IT

Обзор

Вопрос автоматизации бизнес-процессов всегда был актуален для большого количества современных компаний, и в последние несколько лет тренд на автоматизацию набирает всё большие обороты.

Информационные системы (ИС) позволяют повысить качество бизнес-процессов компании, в том числе связанных со стратегическим планированием, прогнозированием и оценкой эффективности бизнеса в целом.

На рынке существует множество ИС, которые позиционируют себя как продукты, способные решить подобные задачи. В аббревиатурах вообще можно запутаться (BI, ERP, CRM, CPM, EPM, BPM и т. д.). Все эти аббревиатуры, на самом деле, представляют очень разные типы информационных систем, и надо бы разобраться, какой из них подходит под вашу конкретную задачу. При этом внутри каждого типа существует большой выбор различных вендоров, и вопрос выбора становится ещё менее очевидным: не погружённому в специфику продуктов пользователю далеко не всегда понятно, сможет ли конкретная система полностью удовлетворить запрос именно его компании.

Мы – направление FI (Financial Intelligence) компании GlowByte, специализируемся на внедрении информационных систем, знаем особенности, плюсы и минусы каждой. Этой статьёй мы начинаем цикл публикаций о том, как сделать автоматизацию бизнес-процессов эффективной, безболезненной и успешной. Всё, о чём мы будем писать, основано на личном опыте внедрения. Специалисты нашей команды имеют опыт внедрений в различных отраслях и спецификах, а также являются обладателями сертификатов DipIFR и CIMA, поэтому нам легко понять язык заказчика, прочувствовать все его “боли” и оценить, какой из существующих на рынке продуктов лучше всего подойдёт в каждом конкретном случае.

Viroslav_Venskii 30 ноя 2023 в 13:06

Что общего между раком крови, лазерами и нейронными сетями?

Средний

13 мин

1.7K

Big Data*Машинное обучение*Искусственный интеллектЗдоровьеТелемедицина

Обзор

Доброго времени суток, дорогой Habr, надеюсь вы успели заскучать после 3-х месяцев паузы (ссылка на прошлую статью). На связи снова Николай Иванов и сегодня вы узнаете, что общего между раком крови, лазерами и машинным обучением. В этой статье мы поговорим с вами о методе проточной цитофлуориметрии, как он работает и как врачи определяют рак костного мозга и крови. Далее обсудим причём тут машинное обучение, как его можно использовать для ускорения работы врачей, а также чего мы достигли и есть ли смысл этим вообще заниматься? Рассказ я буду вести именно в том порядке, в котором мы двигались, при решении данной задачи. Приятного чтения!

+13

Falcon_eye 29 ноя 2023 в 18:33

Apache Spark… Это база

Средний

6 мин

7.6K

Data Mining*Apache*Big Data*Data Engineering*

Обзор

✏️ Технотекст 2023

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.

DataNinja007 28 ноя 2023 в 15:36

Внутренние данные: топливо успеха в банковской индустрии, или Тайны загрузки данных, формирующих будущее инноваций

Простой

11 мин

2.7K

Блог компании Альфа-БанкBig Data*Data Engineering*

Мнение

Внутренний источник данных в банке – это любой источник информации, который находится внутри банковской организации и генерирует данные самостоятельно. Эти данные хранятся исключительно внутри банка. Они выделяются уникальностью, бесплатностью (сформированы внутри банка или куплены ранее), и высоким качеством, и хранятся в структурированном виде. При всем при этом они могут приносить бизнесу пользу, если придумать как можно применить их в новых задачах. Подключение таких источников позволяет обогащать имеющиеся базы, улучшать качество существующих моделей машинного обучения и создавать новые.

Как их искать, зачем и куда подключать, как они могут быть полезны и какую подготовительную работу мы проводим, прежде чем подключить, расскажем в статье.

+11

Happynood 27 ноя 2023 в 16:16

Лексикографический симплекс-метод

Простой

3 мин

2.7K

Python*Big Data*Математика*Машинное обучение*

Из песочницы

Лексикографический симлекс-метод.

Решение задачи линейного программирование симлекс-методом и лексикографическим симлекс-методом на Python!

ak19 27 ноя 2023 в 13:03

FineBI: Обработка данных для начинающих пользователей

Простой

6 мин

5.3K

Блог компании GlowByteBig Data*Визуализация данных*Хранение данных*Хранилища данных*

FAQ

Хабр, привет!

На связи команда Business Intelligence GlowByte. Да-да, те самые неугомонные, которые создали самое крупное русскоязычное сообщество FineBI, проводят обучения, собирают дайджесты и ежегодно организуют масштабные конференции.

Меня зовут Александр, я руководитель центра поддержки и обучения BI-решений в GlowByte, и сегодня хочу поделиться с вами небольшим гайдом по обработке данных в FineBI. Этот материал будет полезен начинающим BI-разработчикам.

Данная статья состоит из четырех уроков, которые помогут вам ближе познакомиться с функциями редактирования данных в FineBI. Если после прочтения вы захотите разобраться со всеми особенностями платформы, закрепить базовые знания и прокачать навыки создания сложных визуализаций, приглашаю на наши курсы.

appp_master 23 ноя 2023 в 16:29

Как использовать Spring в качестве фреймворка для Flink-приложений

9 мин

4.6K

Блог компании МТСJava*Big Data*Распределённые системы*Data Engineering*

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Недавно мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в наши продукты в цикле статей. В предыдущей части я рассказывал про основные концепции потоковой обработки данных. А ещё затронул архитектуру и главные механизмы Apache Flink.

В этой статье начнем разработку Flink-приложения с использованием фреймворка Spring. Изучим структуру приложения, основные плагины и полезные настройки. Развернем Flink-кластер в Docker и попробуем запустить первое Flink-задание. Структура приложения будет постепенно развиваться в последующих статьях.

+15

GromovBI 23 ноя 2023 в 10:51

Выбор СУБД: шпаргалка, чтобы не запутаться

6 мин

30K

Big Data*Хранение данных*Хранилища данных*

Вопрос выбора СУБД для российской компании или госоргана – вопрос не праздный, тем более сейчас – когда с момента ухода с рынка западных вендоров прошло уже полтора года и пора что-то решать. Но как не запутаться в номенклатуре СУБД и выбрать ту, которая лучше всего подходит? Без ложной скромности скажу: мы в «Кругах Громова» уже немного поднаторели в систематизации, поэтому надеемся, что наша шпаргалка для тех, кто хочет выбрать СУБД, окажется полезной.

Начнем с классики. СУБД делятся на несколько типов. Не будем описывать их подробно, остановимся только на их основном предназначении.

s_valuev 22 ноя 2023 в 16:08

Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform

Средний

5 мин

Блог компании SelectelIT-инфраструктура*Big Data*Машинное обучение*Искусственный интеллект

Дайджест

Привет, Хабр! С прошлого дайджеста произошло много событий в мире MLOps и дата-аналитики. Например, Microsoft анонсировал свой AI-чип, Databricks стал скупать «игроков поменьше», а рынку аналитических решений прогнозируют рост на 40% каждый год. Подробнее об этом рассказываем в статье. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Читать дальше →

+21

Syurmakov 21 ноя 2023 в 20:41

Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за середину осени

2 мин

Data Mining*Big Data*Машинное обучение*РобототехникаИскусственный интеллект

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:

AlievM 20 ноя 2023 в 11:35

В ногу со временем: введение в многомерный анализ и OLAP-технологии

Средний

13 мин

5.4K

Big Data*Хранилища данных*

Из песочницы

В любой компании важно принимать корректные и целесообразные управленческие решения, а для этого необходимо обладать нужной информацией. Поэтому требуется собрать данные из всех информационных систем, привести их к общему виду и после этого проводить анализ. Давай разберемся?

-2

DavidKharazian 20 ноя 2023 в 11:05

Не радиус важен, а плотность! Часть 1: Глубокий взгляд на precision и recall

Простой

6 мин

5.1K

Python*Big Data*Математика*Машинное обучение*Искусственный интеллект

Из песочницы

Нет, нет, я совсем не про геометрию или физику, я про множества!

Точнее про множество того, что вы знаете.

К сожалению, множество знаний у ML разработчиков всех уровней часто представляет из себя именно такое. Хотелось бы попробовать озвучить некоторый, как кажется, более глубокий взгляд на привычные уже нам в ML вещи, вероятно, написать даже целую серию статей и попробовать в них посмотреть на многие классические аспекты машинного обучения с сильным погружением в теорию вероятности, математический анализ и линейную алгебру, или обратить внимание на просто некоторые неочевидные вещи.

В дебютной статье речь пойдет про всем нам уже привычные метрики классификации: accuracy, precision, recall и f1-score

Razant 20 ноя 2023 в 10:16

ChatGPT плохо отвечает на «простые вопросы». Как это починить?

Средний

5 мин

9.9K

Блог компании AIRIАлгоритмы*Big Data*Машинное обучение*Искусственный интеллект

Кейс

В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.

+15

DmKrg 16 ноя 2023 в 18:58

Как автоматизировать проверки данных в Airflow с Great Expectations

7 мин

2.7K

Блог компании Банки.руData Mining*Big Data*Хранение данных*Data Engineering*

Обзор

Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.

shpringer 16 ноя 2023 в 15:01

5 уровней зрелости MLOps

9 мин

6.7K

Блог компании VKBig Data*Машинное обучение*

Перевод

Google и Microsoft представили свои уровни зрелости MLOps — они описывают развитие инфраструктуры ML на основе лучших практик в отрасли. Команда VK Cloud перевела статью, в которой описано лучшее из обоих фреймворков.

Читать дальше →

+15

DariaSatco 16 ноя 2023 в 13:45

Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность

Средний

10 мин

2.5K

Блог компании МегаФонBig Data*Машинное обучение*Искусственный интеллект

Кейс

В этой статье расскажем про подход к решению задачи о персонализации тарифных планов для абонентов новой базы в рамках CVM-проекта. Поговорим о том, как с помощью ML определить оптимальные параметры тарифа для абонентов с короткой историей, и как посчитать привлекательность полученного тарифа.

Analytique 16 ноя 2023 в 13:07

Деревья ltree в PostgreSQL – простым языком

Средний

5 мин

9.1K

PostgreSQL*SQL*Big Data*Аналитика мобильных приложений*

Из песочницы

Привет, Habr! Меня зовут Оля Плюта, я продуктовый аналитик маркетплейса Uzum Market. В этой статье я расскажу об иерархических деревьях ltree в PostgreSQL. Статья вводная, поэтому я постаралась сделать её максимально понятной и наглядной.

+13

1 2 ...

6 7

9 10 ...

163 164

Big Data *

Выбор BI системы для селф-сервис

FineBI-g brother is still watching: как мы усовершенствовали мониторинг

Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных

Выбор информационной системы для автоматизации вашей бизнес-задачи – разбираемся вместе с GlowByte

Истории

Что общего между раком крови, лазерами и нейронными сетями?

Apache Spark… Это база

Внутренние данные: топливо успеха в банковской индустрии, или Тайны загрузки данных, формирующих будущее инноваций

Лексикографический симплекс-метод

FineBI: Обработка данных для начинающих пользователей

Как использовать Spring в качестве фреймворка для Flink-приложений

Выбор СУБД: шпаргалка, чтобы не запутаться

Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform

Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за середину осени

Ближайшие события

В ногу со временем: введение в многомерный анализ и OLAP-технологии

Не радиус важен, а плотность! Часть 1: Глубокий взгляд на precision и recall

ChatGPT плохо отвечает на «простые вопросы». Как это починить?

Как автоматизировать проверки данных в Airflow с Great Expectations

5 уровней зрелости MLOps

Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность

Деревья ltree в PostgreSQL – простым языком

Вклад авторов

Работа