Big Data *

Большие данные и всё о них

Статьи Посты Новости Авторы Компании

andgenn 4 янв 2022 в 20:58

Кейс внедрения системы сквозной аналитики для лизинговой компании на базе Power BI

12 мин

5.1K

Big Data*Визуализация данных*

С каждым днем компании все чаще сталкиваются с проблемой, что аналитика рекламных кампаний занимает много времени у сотрудников, что увеличивает сроки выполнения задач. Помимо этого, выводы, сделанные на основании исследований эффективности рекламных каналов, являются субъективными и имеют приблизительное значение. Из-за этого стратегия маркетинга и компании в целом составляется неверно, что ухудшает ситуацию бизнеса, либо оставляет ее без изменений.

Исходя из существующей проблемы, компании приходят к выводу, что им необходима сквозная аналитика, которая поможет решить данную задачу и устранить недостатки.

Внедрение сквозной аналитики в компании «Leasing Company» прошло успешно, все работает стабильно, однако еще будут проведены доработки в дашбордах и со временем будут подключены новые источники информации. С точки зрения экономики, данное внедрение можно считать дорогостоящим, однако, это разовые траты, которые окупятся после первого же месяца, так как аналитика поможет дать четкие и объективные суждения, насчет состояния рекламных кампаний, снизит затраты и увеличит прирост как клиентов, так и доходы компании. Помимо этого, будет сэкономлено время на выполнение других задач.

Компании необходимо добавить оставшиеся рекламные источники, чтобы вся информация хранилась в одном месте и позволяла быстро анализировать данные, которые постоянно автоматически обновляются. Самым основным источником будет являться подключенная CRM – система. Именно она хранит в себе самую важную информацию о клиентах.

Внедрение сквозной аналитики однозначно является одним из полезных современных решений по повышению эффективности всей компании, увеличению ее доходов и укрепление своих позиций на рынке или даже выход на новый уровень.

jamm1985 2 янв 2022 в 15:57

Обходим файловый кэш Google Drive в Colab

2 мин

9.1K

Python**nix*Облачные вычисления*Big Data*Google Cloud Platform*

Про colab знают, наверное, все. Этот инструмент позволяет независимым исследователям использовать облачную инфраструктуру с GPU и TPU бесплатно или почти бесплатно.

Как всегда, проблемы возникают на больших данных. Если ваш датасэт лежит в google drive (он же Диск), то вы можете обращаться к нему напрямую из colab. Однако, если файл велик, например, 70+ GiB, то процесс обучения будет существенно медленнее, чем если бы этот же файл лежал в локальном хранилище, которое выделяется при создании инстанса.

Выход - скопировать файл с Диска в локальное хранилище (обучение станет быстрее в несколько раз!). Но дело в том, что colab и вся инфраструктура очень умная, файлы с Диска кэшируются каким то неуправляемым вами алгоритмом. И если у вашего инстанса, допустим, доступно ~120 GiB, то 70 GiB с Диска вы не скопируете, у вас закончится свободное место как раз из-за системы кэширования. То есть, команда cp не отработает корректно. И rsync то же. И tar. Кэширование работает на уровне драйвера. По сути файл копируется в локальное хранилище дважды. Шах и мат!

Так что вот вам небольшой костылёк:

Aleron75 31 дек 2021 в 18:01

Как увеличить точность модели с 80% до 90%+ (мой опыт)

4 мин

16K

Big Data*Data Engineering*

Из песочницы

Разберем способы поднять точность модели!

Привет, чемпион! Возможно, перед тобой сейчас стоит задача построить предиктивную модель, или ты просто фармишь Kaggle, и тебе не хватает идей, тогда эта статья будет тебе полезна!

Наверное, уже только ленивый не слышал про Data Science и то, как модели машинного обучения помогают прогнозировать будущее, но самое крутое в анализе данных, на мой взгляд, - это хакатоны! Будь-то Kaggle или локальные соревнования, везде примерно одна задача - получить точность выше, чем у других оппонентов (в идеале еще пригодную для продакшена модель). И тут возникает проблема...

GlobalSign_admin 29 дек 2021 в 23:32

Гражданская разведка разрушила государственную монополию на расследования

4 мин

47K

Блог компании GlobalSignИнформационная безопасность*Data Mining*Big Data*Краудсорсинг

Мы уже рассказывали о Bellingcat и других детективных агентствах, которые осуществляют разведку по открытым источникам (OSINT), например, обратный поиск изображений в Яндексе, сканируя утёкшие базы с приватной информацией (паспорта, мобильные телефоны, авиабилеты) и др. Это нужно для проведения важных для общества расследований, результаты которых выкладываются в публичный доступ.

Взявшись за проблему, группа «интернет-сыщиков» способна перелопатить кучу информации и обнаружить детали, которые прошли мимо внимания профессионалов, как тот стелс-бомбардировщик на спутниковых снимках Google Maps.

За последние годы гражданская разведка провела несколько эффективных и ярких расследований.

Читать дальше →

+167

212

digitalsibur 28 дек 2021 в 16:12

В выгодных рамках. Как ЭКОНС позволяет каждому оператору оценить свой вклад в прибыль компании

5 мин

4.7K

Блог компании Цифровой СИБУРBig Data*Визуализация данных*Промышленное программирование*Kotlin*

Привет, Хабр! На связи Александр Попко и Игнат Старшов, и сегодня мы расскажем про наш продукт ЭКОНС – систему визуализации, которая приносит СИБУРу миллиарды рублей в год.

Для наших производств соблюдение правильного технологического режима — очень важный фактор. Во-первых, дело в безопасности: если тот или иной показатель достигает критической отметки, скажем, температура или давление, случиться может всякое. Обычно не очень приятное. Так что за этим пристально следят, как специально обученные люди, так и автоматика.

Во-вторых, экономический эффект. Он тоже сильно зависит от выбранного инженерами и оператором нужного технологического режима. И вот здесь иногда сталкиваются две точки зрения, ведь оператор обычно мыслит в тоннах, а менеджер — сразу в рублях.

Поэтому мы создали конструктор под названием ЭКОНС. Если вкратце, то он помогает оператору наглядно (и что важно — в реальном времени) оценивать, как выбранный им режим технологического процесса прямо сейчас влияет на экономическую эффективность.

Общий экономический эффект от внедрения ЭКОНС на наших предприятиях — уже около 2,7 млрд рублей. В статье рассказываем, как устроен продукт.

kucev 28 дек 2021 в 13:09

Методика машинного обучения Human-in-the-Loop

9 мин

6.4K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Human-in-the-loop AI — это технология автоматизации, устраняющая многие проблемы разработки и внедрения машинного обучения.

Большинство проектов создания ИИ завершается провалом. 80% никогда не доберётся до стадии внедрения. Ещё большее количество никогда не вернёт вложенные в них инвестиции. Проблема заключается в том, что разработка ИИ — это процесс экспериментирования, однако при традиционном подходе об этом забывают.

Многие команды разработчиков сегодня начинают применять технологию под названием human-in-the-loop AI (HITL). Технология подразумевает, что можно быстро развернуть работающую модель с меньшим количеством данных и с гарантированно качественными прогнозами. Это похоже на чудо, но в своей статье мы расскажем, что такое HITL и как вы можете использовать эту технологию в собственных проектах разработки ИИ.

Если говорить в общих чертах, при HITL система ИИ и команда людей совместно работают над реализацией задачи.

Читать дальше →

leleles 27 дек 2021 в 13:07

Ситимобил вместе с экспертами из разных компаний подводит итоги года в разных областях Data Science

3 мин

1.5K

Блог компании СитимобилData Mining*Big Data*Data Engineering*

Всем привет!

Подходящий к концу 2021 год был очень насыщенным — нам удалось провести 5 митапов с интересными спикерами и экспертами рынка Data Science и Machine Learning. Мы узнали много интересного, и это здорово!

Каждый год выходят сотни статей по машинному обучению, нейронным сетям, рекомендательным системам и другим областям связанным с искусственным интеллекта. Появляются тысячи новых репозиториев, API и сервисов с использованием современных технологий Data Science.

А что из этого действительно стало важным событием? На какие технологии и сервисы стоит обратить внимание? На эти вопросы ответили эксперты по Data Science.

Читать

kucev 23 дек 2021 в 12:52

Как создать эффективный план разметки данных?

6 мин

2.3K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Введение

Для обучения моделей ML необходимо множество размеченных данных. Хотя это не всегда обязательно, но иногда вам приходится самостоятельно размечать данные для обучения модели. Процесс аннотирования данных в проекте ML — это важная и затратная по времени задача. Для её правильного выполнения вам придётся принимать решения о способе разметки данных, например, о том, на какие классы вы хотите разбивать данные. Именно множество всех этих решений по правильному аннотированию данных мы будем называть планом разметки данных.

К сожалению, хотя это является важной частью успешного обучения ИИ-модели, создание эффективного плана разметки данных — это нечётко заданный и плохо задокументированный процесс. Цель этой статьи — дать вам понимание процесса создания плана разметки. Ради простоты мы рассмотрим только задачу многоклассовой классификации. Каждая задача машинного обучения имеет свою специфику плана разметки, поэтому мы представим в статье только общий подход. В ней мы просуммируем все вопросы, которые вам нужно будет задать себе при создании плана разметки.

Статья будет разбита на две части. Сначала мы рассмотрим процесс принятия решений о плане разметки на основании принципов машинного обучения. Затем мы сосредоточимся на процессе принятия решений на основе экспертизы в аннотировании.

Читать дальше →

Sber 23 дек 2021 в 11:13

Миграция расчёта управленческой отчётности с Teradata на GreenPlum

12 мин

5.1K

Блог компании СберSQL*Администрирование баз данных*Big Data*Финансы в IT

Всем привет! Меня зовут Николай Когель, я главный инженер по разработке Управления технологий MIS Департамента ИТ-блока «Финансы» в Сбере.

Сейчас в Сбере существует несколько крупных систем, в которых происходит построение управленческой отчётности и расчёт финансового результата. Как правило, это предполагает обработку огромных массивов исторических данных нетривиальной структуры из различных систем, загружаемых в аналитическое хранилище данных. По этой причине хранилище данных строится на основе MPP-систем, а с недавнего времени в Сбере наряду с Teradata появилась альтернатива в виде GreenPlum.

sergeygolytsin 23 дек 2021 в 10:01

Как и для чего мы научили нейросеть оценивать повреждения на авто

8 мин

5.9K

Блог компании PlatformaBig Data*Машинное обучение*Будущее здесь

Страховому агенту нужно около часа, чтобы оценить и описать повреждения авто после аварии. Осмотреть каждую деталь, оформить документы. А если посчитать время на дорогу, то оценка и вовсе затянется на полдня.

Нейросеть же справляется за 30 секунд. 29 из которых нужно владельцу, чтобы обойти машину и сделать четыре фото.

В этой статье я расскажу, зачем мы вообще создаем такую модель и где планируем ее использовать. А еще углубимся в принципы работы системы и расскажем, как мы обучали алгоритм и какие планы у проекта на будущее.

+13

kucev 21 дек 2021 в 11:04

Семантическая сегментация 4D сцен с лидаров и прогресс в разработке беспилотных автомобилей

8 мин

2.4K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Прежде чем стать достоянием общества, беспилотные автомобили, роботы и автономные системы должны обеспечить высокий уровень восприятия и понимания окружающего их мира. Как же достичь этого уровня? Сегодня мы реализуем его при помощи компьютерного зрения, машинного обучения и множества датчиков. Обычно в качестве таких датчиков используются камеры, радары, сонары и лидары (LiDAR, Light Detection and Ranging).

У каждой компании-разработчика БА (беспилотных автомобилей) есть собственный подход к выбору подходящего датчика, расположению датчиков и использованию общего массива собираемых данных. Лидар, прошедший за последние годы долгий путь развития, становится всё более важным устройством, поскольку играет фундаментальную роль в обеспечении безопасного перемещения БА по дорогам. Несмотря на заявления Илона Маска, отрасль БА в целом убеждена в том, что этот датчик и его возможности — ключ к успеху автономности. И в самом деле, в отличие от камер, датчики-лидары способны хорошо проявлять себя в условиях плохой видимости, например, в плохую погоду, или даже лучше разбираться с тенями и сложным освещением, с которыми камеры испытывают трудности.

Читать дальше →

Allront 21 дек 2021 в 10:03

ModelOps на практике: переходим от отверточной сборки к конвейеру по управлению моделями

8 мин

3.5K

Блог компании SASBig Data*Машинное обучение*Искусственный интеллект

Привет хабр! Меня зовут Артем Глазков, я работаю консультантом в российском подразделении компании SAS. Сегодня я хочу рассказать про операционализацию аналитики на практическом примере проекта, который я сделал совместно с моим коллегой Иваном Нардини для крупной итальянской сырьевой компании. Я постараюсь сфокусироваться на наиболее важных деталях и преимуществах подхода ModelOps.

Согласно независимым исследованиям, операционализация аналитики является ключевым трендом развития в области Искусственного Интеллекта. Необходимо научиться не только строить точные модели машинного обучения, но и организовать эффективное управление их жизненным циклом. Без этого модель рискует навсегда застрять внутри стен ‘лаборатории данных’. Практика показывает, что именно там остаются более половины разработанных моделей. Это означает, что время и усилия, затраченные на создание таких моделей, так и не были компенсированы полезным эффектом от их применения.

После внедрения задача инструментов управления жизненным циклом моделей заключается в том, чтобы постоянно поддерживать модель в форме. Мир вокруг модели меняется — в отсутствие настроенного процесса контроля качества работы модели рано или поздно точность ее работы упадет ниже приемлемого значения. Инструменты мониторинга моделей позволяют своевременно выявить потребность в дообучении. Обновленная модель сможет увидеть новые закономерности в данных и правильно их учесть. В результате, удастся обеспечить стабильно высокое качество работы модели на этапе эксплуатации, а значит получить больше практической пользы от каждой разработки.

Читать дальше →

i_shutov 17 дек 2021 в 22:27

О бедном бите замолвите слово

4 мин

4.8K

Python*Data Mining*Big Data*R*

Н. Кобринский, В. Пекелис «Быстрее мысли» — Молодая гвардия, 1959

Когда все вокруг измеряют Гигабайтами, Петабайтами, Зетабайтами и т.д., все компании гордятся своей БигДатой, вспоминать о битах в приличном обществе воспринимается как моветон. Однако и биты иногда бывают полезны. Темой для разговора послужила одна типовая классическая задачка, лежащая в области опросов.

Является продолжением серии предыдущих публикаций.

Читать дальше →

honyaki 17 дек 2021 в 21:14

Машинное обучение помогает прогнозировать использование ресурсов при SQL-запросах

7 мин

3.7K

Блог компании SkillfactorySQL*Big Data*Машинное обучение*Natural Language Processing*

Перевод

Статья написана по мотивам работы "Forecasting SQL Query Cost at Twitter", 2021 («Прогнозирование стоимости SQL-запросов в Twitter»), представленной на IX Международной конференции IEEE по облачной инженерии (IC2E). Подробностями делимся, пока у нас начинается курс по Machine Learning и Deep Learning.

PDudukin 17 дек 2021 в 14:56

Как с помощью машинного обучения ускорить категоризацию товаров на маркетплейсах и в интернет-магазинах?

9 мин

4.7K

Блог компании РСХБ.цифра (Россельхозбанк)Алгоритмы*Big Data*Машинное обучение*Искусственный интеллект

В июле этого года AliExpress сообщил о новом инструменте, который с помощью машинного обучения автоматизирует и ускоряет загрузку товаров на платформу. Этот же способ подходит интернет-магазинам, чтобы выгрузить информацию о товарах из внутренних баз на сайты. Мы поделимся с вами инструментом, который в сотни раз ускоряет категоризацию и загрузку товаров. Расскажем и о том, как и для чего создавали модель категоризации, используя машинное обучение.

Хочу узнать

selesnow 17 дек 2021 в 11:50

Заметки по языку R | Часть 2: Используем синтаксический сахар и приёмы Python в R

7 мин

4.1K

Python*Data Mining*Big Data*R*Data Engineering*

Заметки по языку R - это серия статей, в которых я собираю наиболее интересные публикации канала R4marketing из рубрики "#заметки_по_R".

В прошлый раз мы говорили о нетипичных визуализациях, сегодняшняя подборка состоит из описания приёмов, которые свойственны и горячо любимы пользователям Python, но большинство пользователей R о них не знают.

Для пользователей Python эта статья будет полезна тем, что они найдут реализацию своих любимых приёмов в другом языке, для пользователей R статья будет полезна тем, что они откроют для себя изящные приёмы Python, и смогут перенести их в свои R проекты.

verayarina 17 дек 2021 в 10:57

Автоматизация логистики: от первой и до последней мили

2 мин

2.3K

Блог компании ПочтатехАнализ и проектирование систем*Big Data*Робототехника

Почтатех проведет открытый митап по автоматизации логистики, разработке информационных систем для повышения ее прозрачности, предикативности и контролируемости. Интересно будет тем, кто занимается проектированием систем, архитекторам, аналитикам и техлидам. А еще всем тем, кому любопытно, как уже сейчас строится логистика будущего.

Кто не хочет читать после ката — сразу регистрируйтесь тут →

+19

URS_CDO 15 дек 2021 в 15:44

Хранилище данных vs. Data Lake. Или почему важно научиться ходить перед тем, как начать бегать

7 мин

17K

Блог компании УралсибBig Data*Хранилища данных*Hadoop*

Всем привет! Я Игорь Гончаров — руководитель Службы управления данными Уралсиба. В этой статье я поделился нашим видением ответа на вопрос, который периодически слышу от коллег: зачем мы развиваем хранилище данных банка, когда есть технологии Data Lake?

RUBDA 15 дек 2021 в 11:59

Tfidfvectorizer, BERT, LASER: векторизация данных и кластерный анализ для улучшения рекомендательной системы

9 мин

10K

Блог компании ГК ЛАНИТБлог компании Ассоциация больших данныхBig Data*

Мир онлайн-покупок становится всё привычнее, а значит, и обезличенных данных про каждого пользователя всё больше. Билайн ТВ использует для онлайн-кинотеатра рекомендательную систему на основе данных: она советует пользователю новый триллер, если он уже посмотрел пять похожих фильмов.

Чтобы реализовать такую систему, компания CleverData (группа ЛАНИТ) сформировала эмбеддинги для пользователей Билайн ТВ. Ассоциация больших данных помогла сделать этот кейс возможным.

В этой статье расскажем подробности этой задачи:

+24

BaalExe 14 дек 2021 в 05:01

ЗаETLье или Особенности рыбалки в Озере данных

11 мин

5.2K

Блог компании X5 TechBig Data*

Привет, меня зовут Алексей Белявцев и я ETL-архитектор в X5 Group. Наши объёмы данных соизмеримы с крупнейшими международными компаниями и требуют специального ухода и содержания, что накладывает определённый отпечаток на специфику используемых решений. Я не планирую грузить вас описанием детальной архитектуры (всё равно её нельзя публиковать), скриптами загрузки (их тем более) и другими скучными подробностями технической реализации, которые в достатке присутствуют во всех data-driven компаниях, а хочу заглянуть в будущее и попытаться представить архитектуру, удовлетворяющую всем потенциально возможным требованиям, масштабируемую, отказоустойчивую и просто приятную во всех отношениях.

Речь пойдёт о практиках сборки данных (подготовка снастей и поиск водохранилища), а также о нахождении оптимальной точки раздачи данных (лунке в зимний сезон или просто удачного места в рогозе) в реалиях очень big data, сотен систем-источников (СИ) и петабайтах данных (примерно как порыбачить в океане). Цель изложения заключается в консолидации и структурировании информации по теме и размышлениях об идеализированной архитектуре в зависимости от потребностей подразделений компании в данных. Будут высказаны предположения по опережающему развитию архитектуры под новые требования бизнеса третьего десятилетия 21 века, при этом многие из затронутых тем на текущем этапе развития направления являются более чем holywar-ными, причём подходы, успешно использующиеся в одних компаниях, могут быть провальны в других и наоборот (зависит от многих факторов).

1 2 ...

45 46

48 49 50

Big Data *

Кейс внедрения системы сквозной аналитики для лизинговой компании на базе Power BI

Обходим файловый кэш Google Drive в Colab

Как увеличить точность модели с 80% до 90%+ (мой опыт)

Гражданская разведка разрушила государственную монополию на расследования

Истории

В выгодных рамках. Как ЭКОНС позволяет каждому оператору оценить свой вклад в прибыль компании

Методика машинного обучения Human-in-the-Loop

Ситимобил вместе с экспертами из разных компаний подводит итоги года в разных областях Data Science

Как создать эффективный план разметки данных?

Введение

Миграция расчёта управленческой отчётности с Teradata на GreenPlum

Как и для чего мы научили нейросеть оценивать повреждения на авто

Семантическая сегментация 4D сцен с лидаров и прогресс в разработке беспилотных автомобилей

ModelOps на практике: переходим от отверточной сборки к конвейеру по управлению моделями

О бедном бите замолвите слово

Ближайшие события

Машинное обучение помогает прогнозировать использование ресурсов при SQL-запросах

Как с помощью машинного обучения ускорить категоризацию товаров на маркетплейсах и в интернет-магазинах?

Заметки по языку R | Часть 2: Используем синтаксический сахар и приёмы Python в R

Автоматизация логистики: от первой и до последней мили

Хранилище данных vs. Data Lake. Или почему важно научиться ходить перед тем, как начать бегать

Tfidfvectorizer, BERT, LASER: векторизация данных и кластерный анализ для улучшения рекомендательной системы

ЗаETLье или Особенности рыбалки в Озере данных

Вклад авторов

Работа