Data Mining *

Глубинный анализ данных

Статьи Посты Новости Авторы Компании

nagadit 7 сен 2023 в 12:04

«SAM и тут и сям»: Segment Anything Model в задачах компьютерного зрения (часть 2)

Средний

6 мин

2.5K

Блог компании SberDevicesData Mining*Обработка изображений*Машинное обучение*Искусственный интеллект

В предыдущей части мы разобрали, как можно улучшить качество предсказаний SAM и ускорить её работу. Мы уже упоминали, что SAM — это фундаментальная модель, а значит, она может использоваться не только для сегментации, но и легко адаптироваться для решения других задач компьютерного зрения. Сегодня мы рассмотрим, как SAM может применяться для решения таких задач, как Image Inpainting, Object Tracking, 3D-сегментация и 3D-генерация, а также увидим, как SAM работает на датасетах из медицинской сферы и сравним дообученную модель с базовыми весами. А еще мы поделимся своим опытом и расскажем, как SAM облегчила нам разметку данных при сборе датасета бьютификации изображений.

SAM и тут и сям...

+12

kucev 5 сен 2023 в 21:39

8 инструментов для аннотирования изображений в 2023 году

7 мин

4.4K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Аннотирование изображений — основа для обучения моделей машинного обучения. В статье мы расскажем о лучших инструментах аннотирования, которые сделают этот процесс эффективным.

Что такое аннотирование изображений?

После завершения ручного аннотирования модель машинного обучения учится на размеченных изображениях. Все ошибки разметки также моделью выучиваются и дублируются, потому что аннотирование изображений задаёт критерии, которым стремится соответствовать модель.

Разметка или категоризация изображения описательными данными, помогающими в идентификации и классификации объектов, людей или сцен на картинке, называется аннотированием изображений.

Аннотирование изображений критически важно в таких сферах, как компьютерное зрение, роботостроение и беспилотное вождение, потому что оно позволяет роботам воспринимать и интерпретировать визуальные данные.

Примерами аннотирования изображений являются отрисовка ограничивающих прямоугольников вокруг объектов на фотографии, разметка объектов текстом или разделение изображения на части на основании его визуальных признаков.

Читать дальше →

DenisN03 5 сен 2023 в 16:33

Автоматическая разметка данных

Средний

4 мин

5.2K

Python*Data Mining*Обработка изображений*Машинное обучение*Искусственный интеллект

Туториал

В задачах машинного обучения значительную часть времени занимает процесс подготовки данных. К этапу подготовки относятся: сбор, фильтрация, разметка и предобработка данных.В данной статье я буду рассматривать процесс автоматической разметки данных для задач компьютерного зрения.

09.03.2023 года была представлена модель Grounding DINO. Данная модель позволяет детектировать объекты на изображениях по текстовому описанию. Согласно аннотации к статье Grounding DINO, модель достигает значения 52,5 AP на бенчмарке "Zero-Shot Object Detection on MS-COCO". Далее мы рассмотрим как использовать эту модель для автоматической разметки данных.

dzis_science 31 авг 2023 в 17:36

Шпаргалка по Seaborn. Делаем матрицы красивыми

Простой

8 мин

Data Mining*Визуализация данных*Машинное обучение*

Туториал

Привет, Хабр!

Часто в работе аналитика данных при подготовке очередного отчета или презентации, колоссальное количество времени уходит именно на графическую составляющую подготовки.

Ведь все хотят сделать отчет не только информативным, но и визуально привлекательным.

В этой статье мы разберем основные шаги, которые помогут сделать ваши матрицы стильными и продающими ваши результаты, используя лишь две основные библиотеки визуализации в Python - Seaborn и Matplotlib.

badcasedaily1 30 авг 2023 в 13:29

Анализ музыкальных предпочтений с использованием аудиоаналитики на Python

15 мин

5.8K

Блог компании OTUSPython*Data Mining*Звук

Музыка, неотъемлемая часть человеческой культуры, всегда отражала дух времени. Однако с наступлением цифровой эры и быстрого развития технологий, музыкальная индустрия столкнулась с революцией, которая изменила не только способы создания и распространения музыки, но и сам способ, которым мы взаимодействуем с ней. Сегодня музыкальные платформы и сервисы предоставляют нам огромный выбор композиций, а важную роль в этом процессе играют технологии аудиоаналитики.

Что делает песню хитом? Какие элементы музыки заставляют нас нажимать "пропустить" или добавлять трек в свой плейлист? Ответы на эти вопросы лежат в понимании музыкальных предпочтений слушателей. Анализ этих предпочтений — это не только путь к более точным рекомендациям, но и ключ к пониманию наших эмоциональных реакций на музыку. Именно здесь на сцену выходит аудиоаналитика.

+12

kleinsbotle 29 авг 2023 в 12:47

Сделай SAM: Segment Anything Model в задачах компьютерного зрения (часть 1)

Средний

7 мин

5.9K

Блог компании SberDevicesData Mining*Обработка изображений*Машинное обучение*Искусственный интеллект

Всем привет! В прошлой статье мы рассказывали, как можно ускорить процесс разметки данных с помощью интерактивной сегментации, и уже упоминали state-of-the-art-решение в этой области — модель Segment Anything. Сегодня остановимся на том, как можно улучшить качество и производительность SAM: научить модель генерировать более детализированные и гранулярные маски, а также ускорить её работу в 50 раз и адаптировать для мобильных устройств. А в следующей части на примерах покажем, что способности SAM не ограничиваются одной только сегментацией: модель может применяться для решения самых разных задач компьютерного зрения.

Что такое Segment Anything (SAM)?

SAM (Segment Anything Model) — это сегментационная модель, которая была выпущена Meta AI* весной 2023 года и быстро стала одной из самых популярных AI-моделей. SAM называют первой фундаментальной моделью в компьютерном зрении и сравнивают с ChatGPT в NLP из-за рекордно большого количества разнообразных данных, которые видела модель (SAM обучалась на датасете SA-1B, содержащем более одного миллиарда масок); а также из-за её способности к zero-shot transfer, то есть способности легко обобщаться для решения смежных задач.

Сделай SAM...

+22

kucev 24 авг 2023 в 20:17

Неструктурированные данные: примеры, инструменты, методики и рекомендации

17 мин

8.5K

Data Mining*Big Data*Хранение данных*Машинное обучение*Data Engineering*

Перевод

В современном построенном на данных мире организации накапливают огромные объёмы информации, позволяющие принимать важные решения и выводы. Целых 80% от этой цифровой сокровищницы представляют собой неструктурированные данные, в которых отсутствует формат и упорядоченность.

Чтобы продемонстрировать объём неструктурированных данных, мы сошлёмся на десятую ежегодную инфографику Data Never Sleeps, показывающую, какое количество данных ежеминутно генерируется в Интернете.

Сколько данных генерировалось ежеминутно в 2013 и 2022 годах. Источник: DOMO

Только представьте: в 2022 году пользователи каждую минуту отправляли 231,4 миллиона электронных писем, загружали на YouTube пятьсот часов видео и делились 66 тысячами фотографий в Instagram. Разумеется, доступ к такому огромному пулу неструктурированных данных может дать компаниям большие возможности глубже понимать своих клиентов, рынки и операции, в конечном итоге приводя к росту и успеху.

В этой статье мы окунёмся в мир неструктурированных данных, подчеркнём их важность и представим практичные советы по извлечению ценной информации из этого часто недооцениваемого ресурса. Мы рассмотрим разные типы данных, варианты хранения и управления ими, а также различные методики и инструменты для анализа неструктурированных данных. Подробно разобравшись в этих аспектах, вы сможете овладеть истинным потенциалом неструктурированных данных и преобразовать их в стратегический ресурс.

Читать дальше →

E_BEREZIN 24 авг 2023 в 14:40

Цифровая трансформация цементного завода (ч.9): смешивание муки в силосах

8 мин

1.6K

Data Mining*Управление разработкой*Data Engineering*1С*

Туториал

Что делать, когда нет входных данных для вычислений и обработки системой? Как управлять процессом, когда точно неизвестно, как именно протекает процесс? На помощь приходят теоретические расчеты и кратковременные эксперименты...

Читать статью >>

RomanGuk 24 авг 2023 в 14:01

Process Mining. «Рентгеновская диагностика» бизнеса

Простой

12 мин

6.6K

Блог компании Холдинг Т1Data Mining*Управление проектами*

Кейс

Представьте себе, что компания одновременно закупает буровую вышку и ручки с карандашами в офис. На все заявки вне зависимости от стоимости есть KPI на сроки рассмотрения, допустим, 15 дней. Процесс идёт по одному и тому же пути — 15 шагов, а в финале — согласование у главного бухгалтера. KPI соблюдаются, в отчётах всё ОК.

По идее, для ручек это должно происходить легче и быстрее, чем для буровой установки. В данном же случае получается, что для компании это одно и то же и процессы одинаковые. Но вот их цена в пересчёте на эффект разная. И нужно понять, как оптимизировать процессы, чтобы убрать лишние расходы.

То, что главный бухгалтер согласовывает закупку ручек, — дороговато для процесса, и его можно разгрузить. А в сложных закупках к тем пятнадцати уникальным шагам могут добавиться зацикливания, пересогласования, то есть получится намного больше повторных действий, чем при согласовании ручек. Возможно, каждый сотрудник участвует по два-три раза в этой крупной сделке. Это увеличивает нагрузку на процесс. А финальный KPI (15 дней) — тот же самый, только цена того, что происходит посередине, намного больше. Это как раз то, что с помощью обычной отчётности не выявляется.

Получается, что для разного типа закупок стоимость процессов в пересчёте на эффект имеет очень сильное расхождение. При этом каждый процесс может где-то сбоить и зацикливаться.

Важно выявить, в каком месте это происходит и какую на этом можно получить экономию.

Process Mining помогает очень быстро увидеть взаимосвязь между событиями и показать, между какими этапами происходит зависание. В большинстве случаев в результате получается весьма ощутимый финансовый эффект.

Читать дальше →

+26

Syurmakov 18 авг 2023 в 18:26

Дайджест новостей искусственного интеллекта и машинного обучения за лето

Простой

3 мин

3.5K

Блог компании UzumData Mining*Big Data*Машинное обучение*Искусственный интеллект

Дайджест

Привет, Хабр! Давно не виделись (2 года, ровно).

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, друзьями или просто с теми, кому интересны такие новости.

Итак, а теперь дайджест за июль:

1. Представьте на мгновение, что вы ИИ. Часы длинные, но годы короткие.

Прочитать весь дайджест

Alek_Che 10 авг 2023 в 19:03

Язык 1С: плюсы и минусы для аналитических платформ

Средний

5 мин

6.9K

Блог компании Modus BIАнализ и проектирование систем*Data Mining*Хранилища данных*

Обзор

Привет, Хабр! На связи Саша Чебанов, product owner платформы Modus.

Мы часто сталкиваемся с несколько устаревшим мнением, что язык 1С – это только про финансовые системы. В этой статье я постараюсь подробнее рассказать, что он из себя представляет, где мы его применяем, какие плюсы и минусы у него есть. Поехали!

kucev 9 авг 2023 в 12:17

Сбор данных для машинного обучения: этапы, методики и рекомендации

15 мин

5.7K

Анализ и проектирование систем*Data Mining*Хранение данных*Машинное обучение*Data Engineering*

Перевод

Все успешные компании постоянно собирают данные. Они отслеживают поведение людей в Интернете, организуют опросы, мониторят отзывы, слушают сигналы от умных устройств, извлекают значимые слова из электронных писем и предпринимают другие шаги для накопления фактов и чисел, помогающих им принимать бизнес-решения. Хотя современный мир изобилует данными, сбор ценной информации включает в себя множество организационных и технических трудностей, которые мы и рассмотрим в этой статье. Особое внимание мы уделим методикам сбора данных и инструментам для аналитики и проектов машинного обучения.

Читать дальше →

kucev 9 авг 2023 в 10:43

Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

4 мин

1.6K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.

Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?

Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).

Целостность: надёжность используемого датасета
Точность: степень валидности и корректности присвоенных аннотаций
Согласованность: степень согласованности присвоенных аннотаций во всём датасете

Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.

Читать дальше →

kirillkosolapov 6 авг 2023 в 14:01

Что такое Data Observability и с чем ее едят?

Простой

4 мин

2.7K

Блог компании AmveraData Mining*Big Data*Исследования и прогнозы в IT*Data Engineering*

В последние годы растет сложность IT-инфраструктуры в компаниях и, соответственно, спрос на сервисы мониторинга ее работоспособности. Их все больше покупают, в них все чаще инвестируют. Но в данной статье мы расскажем о новом смежном тренде - Data Observability. Что это и чем она отличается от Infrastructure Observability?

Классический мониторинг - это наблюдение за работой инфраструктуры и приложений. А Data Observability позволяет осуществлять мониторинг потоков данных (и даже бизнес-процессов) и находить в них сбои.

Рассмотрим несколько примеров.

zumrus 4 авг 2023 в 12:27

Физически информированное машинное обучение, или Как я перестал бояться и полюбил искусственный интеллект

Средний

7 мин

5.9K

Блог компании AIRIData Mining*Машинное обучение*Научно-популярноеФизика

Обзор

✏️ Технотекст 2023

Привет, Хабр. Меня зовут Марат Хамадеев. Я — физик-теоретик, хотя кто-то, возможно, знает меня как научного журналиста, писавшего про физику для N + 1. Профессионально я рос в провинциальной академической среде, представители которой довольно скептически относились к применениям машинного обучения и, в частности нейронных сетей, для решения рутинных научных задач. Мне передался этот консерватизм — пока я писал новости про физику, я старался избегать исследований, построенных вокруг этого подхода.

Но жизнь не стоит на месте, и на новой работе я столкнулся с необходимостью поближе познакомиться с искусственным интеллектом и машинным обучением. Мне выпала замечательная возможность послушать лекции на Летней школе Искусственного интеллекта, организованной AIRI, и среди них была серия докладов, посвященных применению машинного обучения для физического моделирования. Они полностью развеяли мои страхи и побудили меня кратко рассказать вам о том, как связаны две эти области.

+13

ph_piter 3 авг 2023 в 16:08

Книга «Data Science в действии»

8 мин

5.4K

Блог компании Издательский дом «Питер»Python*Data Mining*Big Data*Профессиональная литература*

Привет, Хаброжители!

В проектах обработки и анализа данных много движущихся частей, и требуются практика и знания, чтобы создать гармоничную комбинацию кода, алгоритмов, наборов данных, форматов и визуальных представлений. Эта уникальная книга содержит описание пяти практических проектов, включая отслеживание вспышек заболеваний по заголовкам новостей, анализ социальных сетей и поиск закономерностей в данных о переходах по рекламным объявлениям.

Автор не ограничивается поверхностным обсуждением теории и искусственными примерами. Исследуя представленные проекты, вы узнаете, как устранять распространенные проблемы, такие как отсутствующие и искаженные данные и алгоритмы, не соответствующие создаваемой модели. По достоинству оцените подробные инструкции по настройке и детальные обсуждения решений, в которых описываются типичные точки отказа, и обретите уверенность в своих навыках.

Читать дальше →

xeovo 2 авг 2023 в 17:42

14 глаз против VPN: что нужно знать про то, как главные разведки мира совместно шпионят за пользователями

11 мин

30K

Блог компании Xeovo VPNИнформационная безопасность*Data Mining*История ITIT-компании

«Пять глаз», «Девять глаз» и «Четырнадцать глаз» — это реально существующие международные альянсы по массовому наблюдению, включающие в себя, соответственно, 5, 9 и 14 западных стран, а также партнёрские страны-сателлиты. На основе соглашений в основе этих альянсов, спецслужбы развитых стран образуют единую машину слежения и контроля практически за любой коммуникационной активностью людей в их странах и по всему миру, включая все виды онлайн-коммуникаций.

Корнями эти альянсы уходят к секретному соглашению США и Великобритании об обмене сигнальной разведкой между странами-союзниками в годы Холодной войны. Это соглашение оставалось секретом для общественности до 2005 года, потому что один из методов альянса — помощь спецслужб друг другу в обходе законов своих стран: если законы одной страны не позволяют спецслужбам копаться в интернет-делах своих граждан, то выполнить грязную работу для них могут коллеги из другой страны. Например, спецслужбы Великобритании попались на использовании возможностей американского Агентства национальной безопасности (АНБ) для сбора данных о жителях Соединенного Королевства.

Сегодня мы расскажем о том, устроен этот международный шпионский «коллаб», почему беспочвенны обещания VPN-реклам помочь избежать попадания под этот глобальный колпак, и что про это нужно знать обычным пользователям VPN и интернета.

+32

Alek_Che 31 июл 2023 в 14:40

Кейс: аналитическая система с ИИ для «ОЭЗ Технополис «Москва»

Простой

5 мин

732

Блог компании Modus BIАнализ и проектирование систем*Data Mining*Визуализация данных*Хранение данных*

Кейс

Привет, Хабр! Сегодня кейс о том, как мы с партнером-интегратором разработали и внедрили аналитическую систему Modus с искусственным интеллектом для компании «Технополис "Москва"».

А еще как автоматизировали и систематизировали сбор и анализ более 250 ГБ данных в управляемый формат и выстроили аналитическую систему, которая охватила 8 сфер бизнеса и состояла из 35 дашбордов.

rvishnevsky 27 июл 2023 в 14:13

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 3

Простой

10 мин

1.1K

Блог компании РосбанкData Mining*Обработка изображений*Big Data*

Мнение

В предыдущей части вы узнали, что качество модели Data Science в первую очередь зависит от исходных данных: растет, если у вас больше исходных переменных и уровней градации каждой из них, более равномерно распределены значения каждой из переменных; если у вас меньше пропущенных значений и они менее скоррелированы друг с другом. И наконец, если ваша модель распознает события из прошлого, а не предсказывает будущее.

В третьей, заключительной части статьи я дам ответы по рисункам из предыдущей части. И для дата-сайентистов приведу общий код Python, который использовался для получения всех представленных ниже изображений.

rvishnevsky 26 июл 2023 в 12:51

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 2

Простой

11 мин

Блог компании РосбанкData Mining*Обработка изображений*Big Data*

Мнение

В первой части статьи я остановился на проблемах дата-сайентистов и на моделях, а в конце показал пары картинок, где нужно было отличить кошку от собаки. В этой части я приведу ответы и расскажу, что и в какой степени влияет на качество моделей. А также для дата-сайентистов приведу код Python, который был использован для получения картинок в задании. Все исходные изображения, использованные в статье, взяты из бесплатных фотостоков.

1 2 3 4

6 7 ...

97 98

Data Mining *

«SAM и тут и сям»: Segment Anything Model в задачах компьютерного зрения (часть 2)

8 инструментов для аннотирования изображений в 2023 году

Что такое аннотирование изображений?

Автоматическая разметка данных

Шпаргалка по Seaborn. Делаем матрицы красивыми

Истории

Анализ музыкальных предпочтений с использованием аудиоаналитики на Python

Сделай SAM: Segment Anything Model в задачах компьютерного зрения (часть 1)

Неструктурированные данные: примеры, инструменты, методики и рекомендации

Цифровая трансформация цементного завода (ч.9): смешивание муки в силосах

Process Mining. «Рентгеновская диагностика» бизнеса

Дайджест новостей искусственного интеллекта и машинного обучения за лето

Язык 1С: плюсы и минусы для аналитических платформ

Сбор данных для машинного обучения: этапы, методики и рекомендации

Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

Ближайшие события

Что такое Data Observability и с чем ее едят?

Физически информированное машинное обучение, или Как я перестал бояться и полюбил искусственный интеллект

Книга «Data Science в действии»

14 глаз против VPN: что нужно знать про то, как главные разведки мира совместно шпионят за пользователями

Кейс: аналитическая система с ИИ для «ОЭЗ Технополис «Москва»

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 3

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 2

Вклад авторов

Работа