Как стать автором
Обновить
35.62

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

«SAM и тут и сям»: Segment Anything Model в задачах компьютерного зрения (часть 2)

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.5K

В предыдущей части мы разобрали, как можно улучшить качество предсказаний SAM и ускорить её работу. Мы уже упоминали, что SAM — это фундаментальная модель, а значит, она может использоваться не только для сегментации, но и легко адаптироваться для решения других задач компьютерного зрения. Сегодня мы рассмотрим, как SAM может применяться для решения таких задач, как Image Inpainting, Object Tracking, 3D-сегментация и 3D-генерация, а также увидим, как SAM работает на датасетах из медицинской сферы и сравним дообученную модель с базовыми весами. А еще мы поделимся своим опытом и расскажем, как SAM облегчила нам разметку данных при сборе датасета бьютификации изображений.

SAM и тут и сям...
Всего голосов 12: ↑12 и ↓0+12
Комментарии0

8 инструментов для аннотирования изображений в 2023 году

Время на прочтение7 мин
Количество просмотров4.4K

Аннотирование изображений — основа для обучения моделей машинного обучения. В статье мы расскажем о лучших инструментах аннотирования, которые сделают этот процесс эффективным.

Что такое аннотирование изображений?


После завершения ручного аннотирования модель машинного обучения учится на размеченных изображениях. Все ошибки разметки также моделью выучиваются и дублируются, потому что аннотирование изображений задаёт критерии, которым стремится соответствовать модель.

Разметка или категоризация изображения описательными данными, помогающими в идентификации и классификации объектов, людей или сцен на картинке, называется аннотированием изображений.

Аннотирование изображений критически важно в таких сферах, как компьютерное зрение, роботостроение и беспилотное вождение, потому что оно позволяет роботам воспринимать и интерпретировать визуальные данные.


Примерами аннотирования изображений являются отрисовка ограничивающих прямоугольников вокруг объектов на фотографии, разметка объектов текстом или разделение изображения на части на основании его визуальных признаков.
Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Автоматическая разметка данных

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров5.2K

В задачах машинного обучения значительную часть времени занимает процесс подготовки данных. К этапу подготовки относятся: сбор, фильтрация, разметка и предобработка данных.В данной статье я буду рассматривать процесс автоматической разметки данных для задач компьютерного зрения.

09.03.2023 года была представлена модель Grounding DINO. Данная модель позволяет детектировать объекты на изображениях по текстовому описанию. Согласно аннотации к статье Grounding DINO, модель достигает значения 52,5 AP на бенчмарке "Zero-Shot Object Detection on MS-COCO". Далее мы рассмотрим как использовать эту модель для автоматической разметки данных.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Шпаргалка по Seaborn. Делаем матрицы красивыми

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров7K

Привет, Хабр!

Часто в работе аналитика данных при подготовке очередного отчета или презентации, колоссальное количество времени уходит именно на графическую составляющую подготовки.

Ведь все хотят сделать отчет не только информативным, но и визуально привлекательным.

В этой статье мы разберем основные шаги, которые помогут сделать ваши матрицы стильными и продающими ваши результаты, используя лишь две основные библиотеки визуализации в Python - Seaborn и Matplotlib.

Читать далее
Всего голосов 11: ↑10 и ↓1+9
Комментарии0

Истории

Анализ музыкальных предпочтений с использованием аудиоаналитики на Python

Время на прочтение15 мин
Количество просмотров5.8K

Музыка, неотъемлемая часть человеческой культуры, всегда отражала дух времени. Однако с наступлением цифровой эры и быстрого развития технологий, музыкальная индустрия столкнулась с революцией, которая изменила не только способы создания и распространения музыки, но и сам способ, которым мы взаимодействуем с ней. Сегодня музыкальные платформы и сервисы предоставляют нам огромный выбор композиций, а важную роль в этом процессе играют технологии аудиоаналитики.

Что делает песню хитом? Какие элементы музыки заставляют нас нажимать "пропустить" или добавлять трек в свой плейлист? Ответы на эти вопросы лежат в понимании музыкальных предпочтений слушателей. Анализ этих предпочтений — это не только путь к более точным рекомендациям, но и ключ к пониманию наших эмоциональных реакций на музыку. Именно здесь на сцену выходит аудиоаналитика.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии6

Сделай SAM: Segment Anything Model в задачах компьютерного зрения (часть 1)

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров5.9K

Всем привет! В прошлой статье мы рассказывали, как можно ускорить процесс разметки данных с помощью интерактивной сегментации, и уже упоминали state-of-the-art-решение в этой области — модель Segment Anything. Сегодня остановимся на том, как можно улучшить качество и производительность SAM: научить модель генерировать более детализированные и гранулярные маски, а также ускорить её работу в 50 раз и адаптировать для мобильных устройств. А в следующей части на примерах покажем, что способности SAM не ограничиваются одной только сегментацией: модель может применяться для решения самых разных задач компьютерного зрения.

Что такое Segment Anything (SAM)? 

SAM (Segment Anything Model) — это сегментационная модель, которая была выпущена Meta AI*  весной 2023 года и быстро стала одной из самых популярных AI-моделей. SAM называют первой фундаментальной моделью в компьютерном зрении и сравнивают с ChatGPT в NLP из-за рекордно большого количества разнообразных данных, которые видела модель (SAM обучалась на датасете SA-1B, содержащем более одного миллиарда масок); а также из-за её способности к zero-shot transfer, то есть способности легко обобщаться для решения смежных задач.

Сделай SAM...
Всего голосов 22: ↑22 и ↓0+22
Комментарии3

Неструктурированные данные: примеры, инструменты, методики и рекомендации

Время на прочтение17 мин
Количество просмотров8.5K
В современном построенном на данных мире организации накапливают огромные объёмы информации, позволяющие принимать важные решения и выводы. Целых 80% от этой цифровой сокровищницы представляют собой неструктурированные данные, в которых отсутствует формат и упорядоченность.

Чтобы продемонстрировать объём неструктурированных данных, мы сошлёмся на десятую ежегодную инфографику Data Never Sleeps, показывающую, какое количество данных ежеминутно генерируется в Интернете.


Сколько данных генерировалось ежеминутно в 2013 и 2022 годах. Источник: DOMO

Только представьте: в 2022 году пользователи каждую минуту отправляли 231,4 миллиона электронных писем, загружали на YouTube пятьсот часов видео и делились 66 тысячами фотографий в Instagram. Разумеется, доступ к такому огромному пулу неструктурированных данных может дать компаниям большие возможности глубже понимать своих клиентов, рынки и операции, в конечном итоге приводя к росту и успеху.

В этой статье мы окунёмся в мир неструктурированных данных, подчеркнём их важность и представим практичные советы по извлечению ценной информации из этого часто недооцениваемого ресурса. Мы рассмотрим разные типы данных, варианты хранения и управления ими, а также различные методики и инструменты для анализа неструктурированных данных. Подробно разобравшись в этих аспектах, вы сможете овладеть истинным потенциалом неструктурированных данных и преобразовать их в стратегический ресурс.
Читать дальше →
Всего голосов 2: ↑1 и ↓10
Комментарии3

Цифровая трансформация цементного завода (ч.9): смешивание муки в силосах

Время на прочтение8 мин
Количество просмотров1.6K

Что делать, когда нет входных данных для вычислений и обработки системой? Как управлять процессом, когда точно неизвестно, как именно протекает процесс? На помощь приходят теоретические расчеты и кратковременные эксперименты...

Читать статью >>
Всего голосов 4: ↑4 и ↓0+4
Комментарии2

Process Mining. «Рентгеновская диагностика» бизнеса

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров6.6K
image

Представьте себе, что компания одновременно закупает буровую вышку и ручки с карандашами в офис. На все заявки вне зависимости от стоимости есть KPI на сроки рассмотрения, допустим, 15 дней. Процесс идёт по одному и тому же пути — 15 шагов, а в финале — согласование у главного бухгалтера. KPI соблюдаются, в отчётах всё ОК.

По идее, для ручек это должно происходить легче и быстрее, чем для буровой установки. В данном же случае получается, что для компании это одно и то же и процессы одинаковые. Но вот их цена в пересчёте на эффект разная. И нужно понять, как оптимизировать процессы, чтобы убрать лишние расходы.

То, что главный бухгалтер согласовывает закупку ручек, — дороговато для процесса, и его можно разгрузить. А в сложных закупках к тем пятнадцати уникальным шагам могут добавиться зацикливания, пересогласования, то есть получится намного больше повторных действий, чем при согласовании ручек. Возможно, каждый сотрудник участвует по два-три раза в этой крупной сделке. Это увеличивает нагрузку на процесс. А финальный KPI (15 дней) — тот же самый, только цена того, что происходит посередине, намного больше. Это как раз то, что с помощью обычной отчётности не выявляется.

Получается, что для разного типа закупок стоимость процессов в пересчёте на эффект имеет очень сильное расхождение. При этом каждый процесс может где-то сбоить и зацикливаться.

Важно выявить, в каком месте это происходит и какую на этом можно получить экономию.

Process Mining помогает очень быстро увидеть взаимосвязь между событиями и показать, между какими этапами происходит зависание. В большинстве случаев в результате получается весьма ощутимый финансовый эффект.
Читать дальше →
Всего голосов 28: ↑27 и ↓1+26
Комментарии7

Дайджест новостей искусственного интеллекта и машинного обучения за лето

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.5K

Привет, Хабр! Давно не виделись (2 года, ровно).

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, друзьями или просто с теми, кому интересны такие новости.

Итак, а теперь дайджест за июль:

1. Представьте на мгновение, что вы ИИ. Часы длинные, но годы короткие.

Прочитать весь дайджест
Всего голосов 11: ↑10 и ↓1+9
Комментарии5

Язык 1С: плюсы и минусы для аналитических платформ

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров6.9K

Привет, Хабр! На связи Саша Чебанов, product owner платформы Modus.

Мы часто сталкиваемся с несколько устаревшим мнением, что язык 1С – это только про финансовые системы. В этой статье я постараюсь подробнее рассказать, что он из себя представляет, где мы его применяем, какие плюсы и минусы у него есть. Поехали!

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии26

Сбор данных для машинного обучения: этапы, методики и рекомендации

Время на прочтение15 мин
Количество просмотров5.7K

Все успешные компании постоянно собирают данные. Они отслеживают поведение людей в Интернете, организуют опросы, мониторят отзывы, слушают сигналы от умных устройств, извлекают значимые слова из электронных писем и предпринимают другие шаги для накопления фактов и чисел, помогающих им принимать бизнес-решения. Хотя современный мир изобилует данными, сбор ценной информации включает в себя множество организационных и технических трудностей, которые мы и рассмотрим в этой статье. Особое внимание мы уделим методикам сбора данных и инструментам для аналитики и проектов машинного обучения.
Читать дальше →
Рейтинг0
Комментарии1

Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

Время на прочтение4 мин
Количество просмотров1.6K

Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.

Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?

Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).

  • Целостность: надёжность используемого датасета
  • Точность: степень валидности и корректности присвоенных аннотаций
  • Согласованность: степень согласованности присвоенных аннотаций во всём датасете

Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.
Читать дальше →
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Ближайшие события

Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург

Что такое Data Observability и с чем ее едят?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.7K

В последние годы растет сложность IT-инфраструктуры в компаниях и, соответственно, спрос на сервисы мониторинга ее работоспособности. Их все больше покупают, в них все чаще инвестируют. Но в данной статье мы расскажем о новом смежном тренде - Data Observability. Что это и чем она отличается от Infrastructure Observability? 

Классический мониторинг - это наблюдение за работой инфраструктуры и приложений. А Data Observability позволяет осуществлять мониторинг потоков данных (и даже бизнес-процессов) и находить в них сбои. 

Рассмотрим несколько примеров.

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии7

Физически информированное машинное обучение, или Как я перестал бояться и полюбил искусственный интеллект

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров5.9K

Привет, Хабр. Меня зовут Марат Хамадеев. Я — физик-теоретик, хотя кто-то, возможно, знает меня как научного журналиста, писавшего про физику для N + 1. Профессионально я рос в провинциальной академической среде, представители которой довольно скептически относились к применениям машинного обучения и, в частности нейронных сетей, для решения рутинных научных задач. Мне передался этот консерватизм — пока я писал новости про физику, я старался избегать исследований, построенных вокруг этого подхода.

Но жизнь не стоит на месте, и на новой работе я столкнулся с необходимостью поближе познакомиться с искусственным интеллектом и машинным обучением. Мне выпала замечательная возможность послушать лекции на Летней школе Искусственного интеллекта, организованной AIRI, и среди них была серия докладов, посвященных применению машинного обучения для физического моделирования. Они полностью развеяли мои страхи и побудили меня кратко рассказать вам о том, как связаны две эти области.

Читать далее
Всего голосов 15: ↑14 и ↓1+13
Комментарии6

Книга «Data Science в действии»

Время на прочтение8 мин
Количество просмотров5.4K
image Привет, Хаброжители!

В проектах обработки и анализа данных много движущихся частей, и требуются практика и знания, чтобы создать гармоничную комбинацию кода, алгоритмов, наборов данных, форматов и визуальных представлений. Эта уникальная книга содержит описание пяти практических проектов, включая отслеживание вспышек заболеваний по заголовкам новостей, анализ социальных сетей и поиск закономерностей в данных о переходах по рекламным объявлениям.

Автор не ограничивается поверхностным обсуждением теории и искусственными примерами. Исследуя представленные проекты, вы узнаете, как устранять распространенные проблемы, такие как отсутствующие и искаженные данные и алгоритмы, не соответствующие создаваемой модели. По достоинству оцените подробные инструкции по настройке и детальные обсуждения решений, в которых описываются типичные точки отказа, и обретите уверенность в своих навыках.
Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии0

14 глаз против VPN: что нужно знать про то, как главные разведки мира совместно шпионят за пользователями

Время на прочтение11 мин
Количество просмотров30K

«Пять глаз», «Девять глаз» и «Четырнадцать глаз» — это реально существующие международные альянсы по массовому наблюдению, включающие в себя, соответственно, 5, 9 и 14 западных стран, а также партнёрские страны-сателлиты. На основе соглашений в основе этих альянсов, спецслужбы развитых стран образуют единую машину слежения и контроля практически за любой коммуникационной активностью людей в их странах и по всему миру, включая все виды онлайн-коммуникаций.

Корнями эти альянсы уходят к секретному соглашению США и Великобритании об обмене сигнальной разведкой между странами-союзниками в годы Холодной войны. Это соглашение оставалось секретом для общественности до 2005 года, потому что один из методов альянса — помощь спецслужб друг другу в обходе законов своих стран: если законы одной страны не позволяют спецслужбам копаться в интернет-делах своих граждан, то выполнить грязную работу для них могут коллеги из другой страны. Например, спецслужбы Великобритании попались на использовании возможностей американского Агентства национальной безопасности (АНБ) для сбора данных о жителях Соединенного Королевства.

Сегодня мы расскажем о том, устроен этот международный шпионский «коллаб», почему беспочвенны обещания VPN-реклам помочь избежать попадания под этот глобальный колпак, и что про это нужно знать обычным пользователям VPN и интернета.

Читать далее
Всего голосов 36: ↑34 и ↓2+32
Комментарии70

Кейс: аналитическая система с ИИ для «ОЭЗ Технополис «Москва»

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров732

Привет, Хабр! Сегодня кейс о том, как мы с партнером-интегратором разработали и внедрили аналитическую систему Modus с искусственным интеллектом для компании «Технополис "Москва"».

А еще как автоматизировали и систематизировали сбор и анализ более 250 ГБ данных в управляемый формат и выстроили аналитическую систему, которая охватила 8 сфер бизнеса и состояла из 35 дашбордов.

Читать далее
Всего голосов 2: ↑1 и ↓10
Комментарии0

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 3

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.1K

В предыдущей части вы узнали, что качество модели Data Science в первую очередь зависит от исходных данных: растет, если у вас больше исходных переменных и уровней градации каждой из них, более равномерно распределены значения каждой из переменных; если у вас меньше пропущенных значений и они менее скоррелированы друг с другом. И наконец, если ваша модель распознает события из прошлого, а не предсказывает будущее.

В третьей, заключительной части статьи я дам ответы по рисункам из предыдущей части. И для дата-сайентистов приведу общий код Python, который использовался для получения всех представленных ниже изображений.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 2

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров2K

В первой части статьи я остановился на проблемах дата-сайентистов и на моделях, а в конце показал пары картинок, где нужно было отличить кошку от собаки. В этой части я приведу ответы и расскажу, что и в какой степени влияет на качество моделей. А также для дата-сайентистов приведу код Python, который был использован для получения картинок в задании. Все исходные изображения, использованные в статье, взяты из бесплатных фотостоков.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии7

Вклад авторов

Работа

Data Scientist
56 вакансий