Как стать автором
Обновить
52.13

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Automate the boring stuff with Julia

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 4.9K

Считается, что Julia – это нишевый язык созданный для лабораторий, научных симуляций и HPC. Хотя на самом деле благородя свой экспрессивности и динамизму Julia можно и нужно использовать для автоматизации и скриптинга. Давайте на паре простых примеров посмотрим как Julia можно использовать для решения рутинных задач.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 28

Как выпустить ML-сервис в прод малыми силами: кейс работы в облаке

Время на прочтение 7 мин
Количество просмотров 3.4K


Создание ML-модели — сложный и ресурсоёмкий во всех смыслах процесс. Но часто выкатка сервиса на основе модели в прод оказывается ещё сложнее: требует подготовки платформы, выделения ресурсов, настройки программных интерфейсов для передачи данных из модели конечному пользователю. В таких условиях рациональнее разворачивать решения в облаках, особенно если можно использовать сервисы для полного цикла ML-разработки.

Привет, Хабр. Нас зовут Александр Кузьмичёв и Александр Казначеев. Мы пилотируем проект «ML-сервис по оттоку». В этой статье мы поделимся нашим опытом разработки модели и выкатки её в прод с помощью Cloud ML Platform.
Читать дальше →
Всего голосов 25: ↑23 и ↓2 +21
Комментарии 4

АБ тесты и подводные камни при их автоматизации

Уровень сложности Средний
Время на прочтение 14 мин
Количество просмотров 5.9K

Задача оценки нововведений в онлайн и мобильных приложениях возникает повсеместно. Один из наиболее надёжных и популярных способов решения этой задачи - двойной слепой рандомизированный эксперимент, также известный как АБ-тест.

На тему АБ-тестирования доступны как статьи на Хабре, так и целые книги (неполный список литературы в конце). В основе АБ-теста лежит следующая идея - случайно разделить пользователей на две или более группы, в одной из которых исследуемая функциональность выключена, а в других - включена. Затем можно сравнить метрики и сделать выводы.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

Разметка данных: неочевидные затраты на голосовые технологии

Время на прочтение 8 мин
Количество просмотров 821
В голосовых технологиях используется глубокое обучение (особый вид машинного обучения), позволяющее обучать Speech-to-Text (STT) — компонент обработки голоса, получающий от пользователя в аудиоформате входные данные (например, речь) и преобразующий этот фрагмент в текст. [Ссылка] В этом отношении большинство обучающих модели STT компаний полностью зависят от ручной транскрипции всех обучающих фрагментов, однако затраты на связанное с этой методикой аннотирование данных оказываются очень высокими.


Эта проблема применения ручного труда также влияет и на Natural Language Understanding (NLU) — компонент, получающий текстовое описание пользовательского ввода и извлекающий из него структурированные данные (например, запросы действий и сущности), которые позволяют системе понимать человеческий язык. [Ссылка] Например, в некоторых задачах NLU (например, в Named Entity Recognition, распознавании именованных сущностей) требуется присвоение метки каждому слову во фразе, чтобы система поняла, что это слово означает в пользовательском вводе.
Читать дальше →
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 2

Истории

Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц

Время на прочтение 8 мин
Количество просмотров 2.6K


Есть два подхода к работе с машинным обучением (Machine Learning, ML): быть человеком-оркестром и задействовать «зоопарк технологий» для каждого этапа, или работать с готовым набором инфраструктурных решений, который позволяет выстроить MLOps-конвейер в рамках одной платформы. Для реализации первого подхода нужны senior-специалисты и большие ресурсы, для второго достаточно найти сервис с нужным набором возможностей. 

Меня зовут Станислав Кипрюшин, я ведущий программист в VK Cloud. В этой статье на примере Cloud ML Platform мы разберём, как создать MLOps-конвейер для обучения моделей и построения сервиса распознавания лиц.
Читать дальше →
Всего голосов 29: ↑27 и ↓2 +25
Комментарии 2

RFM-сегментация в оптимизации CRM-стратегий

Время на прочтение 12 мин
Количество просмотров 1.6K

Сегодня мы продолжим погружение в тему оптимизации CRM маркетинга при рассылке промо-предложений и рассмотрим опыт применения RFM-сегментации для решения этой задачи в рамках сервиса доставки еды и продуктов питания Delivery Club, ныне присоединившегося к группе компаний крупного e-com сервиса.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 2

MDM и CDP: различия систем. Как сделать выбор

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 3K

Любой компании, которая стремится сохранить конкурентоспособность на рынке, необходимо создание «золотой записи» (профиля) клиента во внутренних базах. Для этого многие используют системы управления мастер-данными (MDM, master data management), но сталкиваются с рядом проблем, другие – применяют CDP-платформы (Customer Data Platform), которые также имеют свои недостатки. А теперь представьте, если от каждого из решений можно было взять лишь лучшее, оставив за бортом все слабые стороны. Как это сделать – в новой статье CleverData под катом.

Читать далее
Всего голосов 33: ↑32 и ↓1 +31
Комментарии 1

Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных

Время на прочтение 5 мин
Количество просмотров 2.7K

Привет, Хабр! Меня зовут Яна и я работаю Data Quality в департаменте развития аналитики "Цепочки поставок и поддерживающие функции" X5 Tech. В этой статье мы с моей коллегой Наташей, менеджером по качеству данных, решили рассказать о мониторинге качества данных большинства отчётов нашей команды.

На первый взгляд может показаться, что проверять таблицы – задача рутинная и однотипная, но это не так, ведь все данные имеют свои особенности, а значит и проверки для них зачастую создаются уникальные. Статья, как нам кажется, будет полезна тем, кто интересуется качеством данных, ищет подходы к мониторингу или хочет больше узнать о работе DQ в целом.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Комментарии 13

Как мы наводим порядок с данными в столичном транспортном институте

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 2.8K

Привет, Хабр!  На связи команда разработки «МосТрансПроекта».

Наш институт является интеллектуальным центром транспортного планирования Москвы, и для решения задач нам постоянно нужны данные. Для запуска компенсационных автобусов во время ремонта станции метро необходимо знать ее пропускную способность, пиковую нагрузку, конфигурацию переходов и парность поездов. А при проектировании благоустройства транспортного хаба нужна информация о пассажиропотоках, интервалах движения городского транспорта и интенсивности автомобильного трафика.

Необходимые данные (а их суммарный объем измеряется в петабайтах) собирают ЦОДД, Московский метрополитен, «Организатор перевозок», «Мосгортранс», «Администратор московского парковочного пространства» и другие структуры транспортного комплекса. В целом, ничего сложного: получаем доступ к базам, берем информацию, «причесываем», анализируем, действуем, решаем задачу. Но, как обычно это бывает с данными, все не так просто.

В поисках склада

Проблема в том, что для неподготовленного специалиста обособленные друг от друга базы напоминают склады с наваленными коробками — чтобы быть уверенным в результате, нужно заглянуть в каждую. Старожилы «МосТрансПроекта», конечно, знают, где взять ту или иную информацию, но без их помощи работать с данными было трудно. Иногда нужно было пройти увлекательный квест, чтобы забрать сведения, которые есть лишь у конкретного специалиста.

Кроме того, применялись разные подходы в расчете той или иной цифры. Исходные данные все использовали плюс-минус одни и те же, но в зависимости от задачи по-разному их обрабатывали и интерпретировали, а привычки документировать и делиться методиками еще не было.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 4

Выбор BI системы для селф-сервис

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 4.7K

Всем привет! Я — Никита Колганов из группы компаний «АСНА». Группа компаний «АСНА» — это современная экосистема сервисов и решений для фармацевтического рынка, позволяющая нам развиваться самим и способствовать развитию партнеров.

Зачем мы вообще внедряли BI‑систему?

В компании ежедневно делается множество отчетов, значительная часть которых — средствами Excel. Помимо того, что ручной сбор отчетов занимает массу времени, так и сам Excel, как контейнер доставки отчетности, обладает рядом недостатков. Это, как минимум:

Проблема централизации — в каждом Excel может быть как свой набор исходных данных, так и свои методики расчета;

Проблема доставки — расшарить файл на большое количество участников бывает проблематично. Особенно, если он большой и не пролезает в почту;

Проблема безопасности — непросто ограничить доступ к Excel‑файлу для определенного круга лиц

Отсутствие автоматизации алертов — на уровне Excel сложно настраивать оповещения в почту или корпоративные мессенджеры в случае изменения того или иного показателя.

Изначально в качестве BI‑системы мы хотели использовать Tableau и даже успели сделать несколько дашбордов, но случился февраль 2022 года, и Tableau стал недоступен. Вместе с тем, в компании назрела необходимость BI в концепции self‑service.

Читать далее
Всего голосов 8: ↑3 и ↓5 -2
Комментарии 3

FineBI-g brother is still watching: как мы усовершенствовали мониторинг

Уровень сложности Сложный
Время на прочтение 7 мин
Количество просмотров 1.4K

Привет, Хабр! На связи BI-команда Tele2. Ранее мы уже рассказывали о нашем опыте перехода на Fine BI и подходе к анализу действий пользователей на платформе.

В нашем случае мониторинг пользователей и объектов на платформе – вопрос жизненной необходимости. Fine BI пользуется популярностью у бизнес-пользователей, также мы активно развиваем подход self-service: лицензия Сreator предоставлена 300 сотрудникам, всего опубликовано около 400 дашбордов, а неопубликованных пользовательских ad-hoc дашбордов насчитывается несколько тысяч, доступ к платформе есть более чем у 2,5 тыс человек, а MAU стремится к 2000 пользователей.

Под катом про то, как мы усовершенствовали объединение таблиц из FineDB и LogDB в один датасет, решили проблему потери логов из-за замены уже опубликованных дашбордов и углубили возможности мониторинга действий пользователей и взаимосвязей пользовательских действий с объектами.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 3

Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 19K

В данной статье мы рассмотрим ключевые аспекты различных типов хранилищ данных, которые помогут оптимизировать процессы управления данными в вашей компании.

Подробнее
Всего голосов 7: ↑5 и ↓2 +3
Комментарии 4

Выбор информационной системы для автоматизации вашей бизнес-задачи – разбираемся вместе с GlowByte

Время на прочтение 12 мин
Количество просмотров 4K

Вопрос автоматизации бизнес-процессов всегда был актуален для большого количества современных компаний, и в последние несколько лет тренд на автоматизацию набирает всё большие обороты.  

Информационные системы (ИС) позволяют повысить качество бизнес-процессов компании, в том числе связанных со стратегическим планированием, прогнозированием и оценкой эффективности бизнеса в целом.

На рынке существует множество ИС, которые позиционируют себя как продукты, способные решить подобные задачи. В аббревиатурах вообще можно запутаться (BI, ERP, CRM, CPM, EPM, BPM и т. д.). Все эти аббревиатуры, на самом деле, представляют очень разные типы информационных систем, и надо бы разобраться, какой из них подходит под вашу конкретную задачу. При этом внутри каждого типа существует большой выбор различных вендоров, и вопрос выбора становится ещё менее очевидным: не погружённому в специфику продуктов пользователю далеко не всегда понятно, сможет ли конкретная система полностью удовлетворить запрос именно его компании. 

Мы – направление FI (Financial Intelligence) компании GlowByte, специализируемся на внедрении информационных систем, знаем особенности, плюсы и минусы каждой. Этой статьёй мы начинаем цикл публикаций о том, как сделать автоматизацию бизнес-процессов эффективной, безболезненной и успешной. Всё, о чём мы будем писать, основано на личном опыте внедрения. Специалисты нашей команды имеют опыт внедрений в различных отраслях и спецификах, а также являются обладателями сертификатов DipIFR и CIMA, поэтому нам легко понять язык заказчика, прочувствовать все его “боли” и оценить, какой из существующих на рынке продуктов лучше всего подойдёт в каждом конкретном случае. 

Читать далее
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 0

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн

Что общего между раком крови, лазерами и нейронными сетями?

Уровень сложности Средний
Время на прочтение 13 мин
Количество просмотров 1.7K

Доброго времени суток, дорогой Habr, надеюсь вы успели заскучать после 3-х месяцев паузы (ссылка на прошлую статью). На связи снова Николай Иванов и сегодня вы узнаете, что общего между раком крови, лазерами и машинным обучением.  В этой статье мы поговорим с вами о методе проточной цитофлуориметрии, как он работает и как врачи определяют рак костного мозга и крови. Далее обсудим причём тут машинное обучение, как его можно использовать для ускорения работы врачей, а также чего мы достигли и есть ли смысл этим вообще заниматься? Рассказ я буду вести именно в том порядке, в котором мы двигались, при решении данной задачи. Приятного чтения!

Читать далее
Всего голосов 13: ↑13 и ↓0 +13
Комментарии 10

Apache Spark… Это база

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 6.9K

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.

Читать далее
Всего голосов 12: ↑6 и ↓6 0
Комментарии 4

Внутренние данные: топливо успеха в банковской индустрии, или Тайны загрузки данных, формирующих будущее инноваций

Уровень сложности Простой
Время на прочтение 11 мин
Количество просмотров 2.5K

Внутренний источник данных в банке – это любой источник информации, который находится внутри банковской организации и генерирует данные самостоятельно. Эти данные хранятся исключительно внутри банка. Они выделяются уникальностью, бесплатностью (сформированы внутри банка или куплены ранее), и высоким качеством, и хранятся в структурированном виде. При всем при этом они могут приносить бизнесу пользу, если придумать как можно применить их в новых задачах. Подключение таких источников позволяет обогащать имеющиеся базы, улучшать качество существующих моделей машинного обучения и создавать новые.

Как их искать, зачем и куда подключать, как они могут быть полезны и какую подготовительную работу мы проводим, прежде чем подключить, расскажем в статье.

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 3

Лексикографический симплекс-метод

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 2.5K

Лексикографический симлекс-метод.

Решение задачи линейного программирование симлекс-методом и лексикографическим симлекс-методом на Python!

Читать далее
Всего голосов 11: ↑9 и ↓2 +7
Комментарии 3

FineBI: Обработка данных для начинающих пользователей

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 4.8K

Хабр, привет!

На связи команда Business Intelligence GlowByte. Да-да, те самые неугомонные, которые создали самое крупное русскоязычное сообщество FineBI, проводят обучения, собирают дайджесты и ежегодно организуют масштабные конференции

Меня зовут Александр, я руководитель центра поддержки и обучения BI-решений в GlowByte, и сегодня хочу поделиться с вами небольшим гайдом по обработке данных в FineBI. Этот материал будет полезен начинающим BI-разработчикам.

Данная статья состоит из четырех уроков, которые помогут вам ближе познакомиться с функциями редактирования данных в FineBI. Если после прочтения вы захотите разобраться со всеми особенностями платформы, закрепить базовые знания и прокачать навыки создания сложных визуализаций, приглашаю на наши курсы.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 0

Как использовать Spring в качестве фреймворка для Flink-приложений

Время на прочтение 9 мин
Количество просмотров 4.3K

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Недавно мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в наши продукты в цикле статей. В предыдущей части я рассказывал про основные концепции потоковой обработки данных. А ещё затронул архитектуру и главные механизмы Apache Flink.

В этой статье начнем разработку Flink-приложения с использованием фреймворка Spring. Изучим структуру приложения, основные плагины и полезные настройки. Развернем Flink-кластер в Docker и попробуем запустить первое Flink-задание. Структура приложения будет постепенно развиваться в последующих статьях.

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 10

Выбор СУБД: шпаргалка, чтобы не запутаться

Время на прочтение 6 мин
Количество просмотров 29K

Вопрос выбора СУБД для российской компании или госоргана – вопрос не праздный, тем более сейчас – когда с момента ухода с рынка западных вендоров прошло уже полтора года и пора что-то решать. Но как не запутаться в номенклатуре СУБД и выбрать ту, которая лучше всего подходит? Без ложной скромности скажу: мы в «Кругах Громова» уже немного поднаторели в систематизации, поэтому надеемся, что наша шпаргалка для тех, кто хочет выбрать СУБД, окажется полезной.

Начнем с классики. СУБД делятся на несколько типов. Не будем описывать их подробно, остановимся только на их основном предназначении.

Читать далее
Всего голосов 23: ↑14 и ↓9 +5
Комментарии 10

Вклад авторов

Работа

Data Scientist
66 вакансий