Как стать автором
Обновить
82.08

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Как AI помогает побороть монополию в спортивной рекламе и при чем тут GPU и выделенные серверы

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров742

Спортивные соревнования сегодня переполнены рекламой — от роликов на экранах до статичных логотипов компаний на рекламных щитах стадионов. Эфир охватывает множество стран, в которых представлены различные бренды и действуют разные законы о рекламе. Благодаря прорыву в развитии ИИ и AR-технологий появляется возможность замены информации на поле под каждую аудиторию, причем непосредственно во время трансляции матча.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии0

Apache Flink: динамическое определение выходного топика в Kafka

Время на прочтение7 мин
Количество просмотров2.5K

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в цикле статей.

В предыдущей статье — «Apache Flink. Как работает дедупликация данных в потоке Kafka-to-Kafka?» — я рассказывал про построение пайплайна Kafka-to-Kafka с промежуточным разделением потока и дедупликацией событий. Также разобрались, что такое состояние оператора и зачем оно нужно.

В этой статье добавим возможность динамического определения топика в Kafka для каждого события, куда его нужно записать.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии0

Модель глубокого обучения, использующая данные ЭКГ для прогнозирования риска внезапной сердечной смерти

Уровень сложностиСредний
Время на прочтение23 мин
Количество просмотров1.6K

Внезапная сердечная смерть (ВСС) происходит, когда возникают проблемы с электрической активностью в сердце. Это распространенная причина смерти по всему миру, поэтому было бы полезно легко выявлять людей с высоким риском ВСС. Электрокардиограммы - это доступный и широко используемый способ измерения электрической активности сердца. Мы разработали вычислительный метод, который может использовать электрокардиограммы для определения, находится ли человек в повышенном риске ВСС. Наш метод может позволить врачам скрининг больших групп людей и выявление тех, кто находится в повышенном риске ВСС. Это может позволить регулярное наблюдение за этими людьми и, возможно, предотвращение ВСС у некоторых из них.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии2

Подробный гайд: Как собрать дашборд в FineBI за 30 минут

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.3K

Хабр, привет! 

Меня зовут Александр Ларин, я руководитель центра технической поддержки и обучения в GlowByte и лидер самого большого в России сообщества FineBI.

В данной статье я хотел бы показать новичкам основы работы в FineBI: как подключиться к источнику данных, создать на его основе датасет, провести обработку данных, собрать свой первый дашборд – и всё это сделать буквально за 30 минут.  А тех, кому этого будет недостаточно, приглашаю на наши курсы

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии4

Истории

Ликбез по Data Governance, защита LLM, рейтинг BI-инструментов и другие новинки в мире ML и DA

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.7K

Привет, Хабр! После перерыва возвращаюсь с новым выпуском полезных материалов, которые помогут лучше разобраться в ML, AI и дата-аналитике. Сегодня в программе — эволюция СУБД, миграция с Apache Druid на ClickHouse и подходы к экономии ресурсов для инфраструктуры. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать дальше →
Всего голосов 31: ↑28 и ↓3+25
Комментарии0

Системы автоматизации, SGRC

Время на прочтение6 мин
Количество просмотров1.3K

Современная кибербезопасность включает в себя множество различных аспектов, объектов и субъектов защиты: информационные активы компании (ИТ-системы, бизнес-приложения, серверы, рабочие станции, сетевое оборудование), файлы и данные в самых разных форматах (от структурированных в базах данных до "озер данных" и накапливаемых огромных объемов Big Data), процессы компании (основные бизнес-процессы, вспомогательные, ИТ-процессы, процессы кибербезопасности), персонал (от уборщиц до топ-менеджеров), различные используемые технологии (разнообразное программное и аппаратное обеспечение). Все данные сущности подлежат анализу с точки зрения кибербезопасности, которая в современной компании сфокусирована на защите процессов, персонала, технологий, данных. Основными процессами кибербезопасности являются:

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Что такое СУБД Greenplum? Зачем она нужна в больших проектах DWH? Чем отличается от ClickHouse?

Время на прочтение9 мин
Количество просмотров11K

Ошибки в построении DWH возникают не только в результате того, что первоначально не были учтены возможные изменения в бизнес-процессах, потребностях и целях компании, но и из-за некорректного выбора стека технологий и СУБД. 

Порядок хранения данных выбирается в соответствии с разными сценариями работы - запросами, разным объемом данных, количеством транзакций, необходимостью обновлений данных.

В статье читайте о СУБД Greenplum и о том, в каких случаях строить хранилища на ее основе.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии5

Куда и как съехать с Qlik Sense

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.7K

Куда и как съехать с Qlik Sense

Привет, Хабр! Сегодня я расскажу о том, как выбрать российскую BI, чтобы не потерять привычный уровень работы с данными в компании — и с чем придется столкнуться в процессе миграции.

Читать далее
Всего голосов 2: ↑1 и ↓10
Комментарии9

Кейс: разметка приложения с нуля на конкретном примере

Время на прочтение14 мин
Количество просмотров1.6K

Привет! На связи Сергей Матросов и команда X5 Tech, ответственная за аналитику в “Пятёрочке”. Хотим поделиться с вами тем, как мы внедрили трекер AppMetrica от Яндекса и сделали с помощью него разметку для приложения “Пятёрочки”. Почему мы остановились именно на этом фреймворке, какую мы выбрали архитектуру разметки, как писали правила и словари, а также разберём процесс разметки на живом примере разметки экрана приложения. Очень надеемся, что эта статья поможет вам сэкономить много времени, если перед вами будет стоять аналогичная задача.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Табуляционные машины Германа Холлерита — вольная реконструкция

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.7K

Перфокартные табуляционные автоматы Германа Холлерита решали задачи обработки больших объемов данных (десятки миллионов записей) в 19-м веке, сэкономили несколько лет труда при подсчете результатов переписи США 1890-го года, быстро проникли во всевозможные организации от стальных фабрик до страховых контор, обеспечили их автору (Герману Холлериту) инженерное признание и коммерческий успех, послужили фундаментом для появления и развития компании IBM.


Здесь остановимся подробнее на технической стороне вопроса. Каким образом устройство в конце 19-го века могло решать задачи, которые принято ассоциировать с 21-м веком. Ведь в те времена люди не имели в распоряжении библиотеки Pandas и платформы Python, не было реляционных субд с языком SQL, и даже электронных компьютеров, которые могли запускать такое программное обеспечение, еще не придумали (не то, что транзисторы, электронные лампы еще не изобрели, а реле хотя уже были в ходу, никто еще не говорил о том, чтобы строить из них универсальные вычислители).


Отдельный повод сделать это именно сегодня: Герман Холлерит родился в 1860-м году 29 февраля.

Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии13

UUIDv7

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров12K

Седьмая версия UUID (Universally Unique Identifier Version 7, UUID Version 7, UUIDv7) является модифицированной и стандартизованной версией ULID. Проект стандарта (далее стандарт) находится в ожидании окончательной проверки редактором. Но уже имеется большое количество реализаций UUIDv7, применяемых в действующих информационных системах. В интернете доступно большое количество информации по ключевому слову UUIDv7.

Читать далее
Всего голосов 19: ↑16 и ↓3+13
Комментарии28

Типичные задачи аналитика. Часть 2. А есть ли тренд?

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров9.1K

В первой части статьи на Habr мы рассмотрели классические подходы к оценке изменений метрики при условии ее стационарности. В этом контексте статистические критерии, применяемые в A/B тестировании, оказались весьма эффективными.

Однако, если существует стабильный тренд, например, среднемесячная аудитория увеличивается из года в год, оценка разницы средних за два смежных периода времени может быть некорректной. В таком случае среднее значение предыдущего периода всегда будет отличаться от среднего постпериода, и это часто может быть не связано с исследуемым функционалом.

Одна из причин — тренд не всегда зависит от действий компании и часто является следствием внешних условий. Например, рост аудитории может быть связан с увеличением благосостояния населения, масштабированием бизнеса или сезонными факторами.

Таким образом, наличие или отсутствие тренда является важным аспектом анализа данных. Рассмотрим несколько успешных и неудачных подходов, которые можно применять для решения этой задачи.

Читать далее
Всего голосов 22: ↑22 и ↓0+22
Комментарии3

Как связать натуральные ключи с суррогатным в Anchor Modeling

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров953

Хранить значения натуральных ключей необходимо, потому что они связывают хранимые данные с реальным миром (внешними классификаторами, реестрами и т.п.), и с ними работают бизнес-пользователи: в выпадающих списках, отчетах и дашбордах. Но в методологии Anchor Modeling для связи таблиц используются только суррогатные ключи, не подверженные изменениям, и это правильно. Поэтому нужно хранить связь натуральных ключей с суррогатным ключом, предпочтительно формата UUIDv7. Как же это сделать в методологии Anchor Modeling?

Получить ответ
Всего голосов 8: ↑4 и ↓40
Комментарии0

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров15K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В данной статье разберемся что такое live coding интервью и как к нему готовиться.

Материал в первую очередь будет полезен Data Scientist'ам и ML инженерам, при этом некоторые разделы, например, Алгоритмы и структуры данных подойдут всем IT специалистам, которым предстоит пройти секцию live coding.

Читать далее
Всего голосов 11: ↑9 и ↓2+7
Комментарии11

FineBI под микроскопом: Обзор новых функций и улучшений в Q1 2024

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.9K

Хабр, привет! 

Меня зовут Александр Ларин, я являюсь руководителем центра технической поддержки и обучения в GlowByte, а также лидером самого большого в России сообщества FineBI.

Сегодня в нашем фокусе – обновления, которые не оставят равнодушными ни одного бизнес-аналитика. Призываю поднять планку ваших знаний о современных инструментах анализа данных. Если вы, как и я, жаждете узнать о последних обновлениях в мире бизнес-аналитики, то эта статья именно для вас. Развивайтесь вместе с FineBI, чтобы быть на шаг впереди конкурентов в мире данных и аналитики. А тех, кому этого будет недостаточно, приглашаю на наши курсы.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Вакуумируй это: сбор и удаление мусора в базе данных Greenplum

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.3K

Всем привет! ITSumma на связи! Недавно — 8 февраля мы провели вебинар о мониторинге и обслуживании реляционной базы данных Greenplum. 

При всех своих достоинствах у Greenplum есть подводные камни, о которых стоит знать разработчикам и администраторам. Один из таких потенциально опасных моментов — процедура сбора и удаления мусора, её ещё называют вакуумирование, потому что она инициируется командой Vacuum. Работать с вакуумированием нужно деликатно, иначе велик риск надолго нарушить работу всей системы. Как раз о том, как этого избежать, правильно мониторить и очищать таблицы, мы и рассказывали на вебинаре.

Это статья — выжимка нашего мероприятия. Вот что вы из неё узнаете:

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Vertica Eon в K8S — 3 года развития

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров603

Vertica - одна из первых широко используемых MPP баз на просторах айти ландшафта СНГ. Колоночное хранение, быстрые запросы на миллиардах строк, легендарные sort-merge джойны, которых нет больше ни у кого, позволяющие запускать свои грибницы. Но нынче на дворе 2024 год: как компания Vertica сменила уже 2 (или трех) владельцев, доступ к веб ресурсам с территории РФ ограничен, поддержка брошена, а вокруг нас процветают облака или как минимум кубернетисы во всех ипостасях.

И все же начиная с версии 10.1 компания представила интересную возможность для тех, кто уже крепко подсел на эту иглу - движок Eon. Описывая в двух словах, это та же самая по скорости база данных, но использующая общее хранилище - S3 (во всех своих ипостасях от вендорских AWS, GCS до онпрем вариантов) или HDFS. К тому же есть отличная завлекалочка - бесплатное использование кластера размером до 1 ТБ и до 3 нод вычисления. Статья является итогом тестирования технологии, и результаты тестирования какие-то не очень веселые.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии11

Единая модель безопасности в Дельта BI

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров346

Для многих компаний анализ больших данных становится обыденной задачей. Этому способствует развитие технологий и снижение стоимости систем хранения. Поэтому сегодня многие компании могут собирать и хранить большие объемы разнородных данных. Кроме сбора и хранения данных, часто возникает необходимость их преобразования в удобный для пользователей вид, в чем помогают различные BI-системы.

Согласно исследованию IDC «Аналитика больших данных» более 50% опрошенных заявляют, что одним из ключевых факторов, влияющих на выбор решения для анализа больших данных является безопасность.

А как обстоят дела с безопасностью в Дельта BI?

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии0

Искусство продуктовой аналитики: как преобразовать цифры в ценные инсайты для бизнеса

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.7K

В современном мире данные играют все более важную роль в развитии бизнеса. Они позволяют принимать обоснованные и осознанные решения, а также выявлять потенциальные возможности для оптимизации и роста. Однако, необходимо понимать, что накопление большого объема данных само по себе недостаточно для достижения успеха. Чтобы преобразовать цифры в ценные инсайты, требуется искусство продуктовой аналитики.

Узнать подробнее
Всего голосов 5: ↑4 и ↓1+3
Комментарии6

Побеждаем рутину в Data Science: как перестать быть недопрограммистами и недоисследователями

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров17K

Профессия Data Scientist сейчас стала особенно привлекательна, вовлекая еще больше энтузиастов и даже евангелистов, благодаря последним достижениям в области генерации текстов и изображений. Внешний фон наводит на мысли, что будни дата сайентиста заполнены исключительно творческой самореализацией, и рутина в процессы его работы никогда не сможет просочиться. Увы, но большую часть DS команд рутина уже поглотила.

Читать далее
Всего голосов 28: ↑25 и ↓3+22
Комментарии0