Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Посты Новости Авторы Компании

momami 30 авг 2023 в 11:02

Как подружить Spark и S3 для обработки файлов

Средний

12 мин

2.5K

Блог компании NeoflexBig Data*Data Engineering*

Туториал

Всем привет!

В этой статье мы расскажем, как нам удалось настроить взаимодействие Apache Spark и S3 для обработки больших файлов: с какими проблемами пришлось столкнуться и как нам удалось их решить.

Pellonezza 29 авг 2023 в 13:30

Первые шаги в ML на обучающем хакатоне: обнаружение птиц на фотографиях yolov8s + sahi

Простой

4 мин

3.3K

Python*Машинное обучение*Data Engineering*

Из песочницы

Несколько месяцев я пытался разбираться в ML и когда мне под руку попался легенький хакатон для школьников, связанный с CV, я решил, что это мой шанс!

Изучая задачу, я понял, что мне нужно обнаруживать чаек по фотографиям. Для решения задачи я решил использовать yolov8s, потому что он мне показался оптимальнейшим из линейки yolov8 для моего случая. Также, мне как-то рассказывали про sahi (Slicing Aided Hyper Inference), и я решил, что это мой шанс попробовать этот инструмент в качестве улучшения конечного результата.

Итак, у меня был датасет, включающий фотографии, уже разбитые на train, validation, test, запакованные в zip архив. Первым делом, я клонирую репозиторий для yolov8, устанавливаю и импортирую необходимые на первых парах библиотеки и распаковываю то, что нужно распаковать.

kucev 24 авг 2023 в 20:17

Неструктурированные данные: примеры, инструменты, методики и рекомендации

17 мин

8.4K

Data Mining*Big Data*Хранение данных*Машинное обучение*Data Engineering*

Перевод

В современном построенном на данных мире организации накапливают огромные объёмы информации, позволяющие принимать важные решения и выводы. Целых 80% от этой цифровой сокровищницы представляют собой неструктурированные данные, в которых отсутствует формат и упорядоченность.

Чтобы продемонстрировать объём неструктурированных данных, мы сошлёмся на десятую ежегодную инфографику Data Never Sleeps, показывающую, какое количество данных ежеминутно генерируется в Интернете.

Сколько данных генерировалось ежеминутно в 2013 и 2022 годах. Источник: DOMO

Только представьте: в 2022 году пользователи каждую минуту отправляли 231,4 миллиона электронных писем, загружали на YouTube пятьсот часов видео и делились 66 тысячами фотографий в Instagram. Разумеется, доступ к такому огромному пулу неструктурированных данных может дать компаниям большие возможности глубже понимать своих клиентов, рынки и операции, в конечном итоге приводя к росту и успеху.

В этой статье мы окунёмся в мир неструктурированных данных, подчеркнём их важность и представим практичные советы по извлечению ценной информации из этого часто недооцениваемого ресурса. Мы рассмотрим разные типы данных, варианты хранения и управления ими, а также различные методики и инструменты для анализа неструктурированных данных. Подробно разобравшись в этих аспектах, вы сможете овладеть истинным потенциалом неструктурированных данных и преобразовать их в стратегический ресурс.

Читать дальше →

I_a_sivkov 24 авг 2023 в 14:48

Строим пайплайн в sсikit-learn — пошаговое руководство

Средний

8 мин

14K

Блог компании Яндекс ПрактикумPython*Машинное обучение*Data Engineering*

Туториал

Привет, Хабр! Меня зовут Иван Сивков, я наставник на курсе «Специалист по Data Science» в Яндекс Практикуме. В этой статье покажу, как построить пайплайн в библиотеке scikit-learn на базе встроенных инструментов и сократить количество кода при преобразовании данных. Эта статья рассчитана на новичков, которые только начинают изучать Data Science, но уже знают основные понятия.

E_BEREZIN 24 авг 2023 в 14:40

Цифровая трансформация цементного завода (ч.9): смешивание муки в силосах

8 мин

1.6K

Data Mining*Управление разработкой*Data Engineering*1С*

Туториал

Что делать, когда нет входных данных для вычислений и обработки системой? Как управлять процессом, когда точно неизвестно, как именно протекает процесс? На помощь приходят теоретические расчеты и кратковременные эксперименты...

Читать статью >>

s_valuev 24 авг 2023 в 14:07

MLOps от Gucci и оценка уровня Data Driven’ности в компании

Средний

5 мин

2.6K

Блог компании SelectelBig Data*Машинное обучение*Data Engineering*

Дайджест

Привет, Хабр! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».

Читать дальше →

+42

Ilya12c 24 авг 2023 в 13:29

Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (1 и 2 место)

Средний

8 мин

Блог компании Magnus TechАлгоритмы*Обработка изображений*Машинное обучение*Data Engineering*

Обзор

Продолжаем разбирать подходы призеров Kaggle-соревнований от американской национальной футбольной лиги (NFL). Участники этого челленджа детектировали столкновения игроков в американском футболе, анализируя данные с видеокамер и датчиков, прикрепленных к форме футболистов. В продолжении первой части статьи расскажу про самые успешные подходы к этой задаче.

Читать дальше →

+21

Lika_Chernigo 24 авг 2023 в 12:58

Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером

7 мин

11K

Блог компании СлёрмBig Data*Хранение данных*Карьера в IT-индустрииData Engineering*

Обзор

Привет, Хабр! Сегодня рассказываем, чем отличаются подходы к построению распределённых хранилищ данных Data Warehouse (DWH) и Data Lake и в чём специфика задач специалистов, работающих с данными.

В статье сначала опишем паттерны построения распределённых хранилищ, чтобы понимать, через какие процессы проходят данные. А после поговорим о задачах специалистов по работе с данными и необходимых для каждой позиции навыках.

P.S. На картинке спрятаны 6 инструментов для работы с данными. Узнали их?

+13

SovaSova15 22 авг 2023 в 18:00

Преобразование табличных данных в Python

Простой

5 мин

4.9K

Блог компании СлёрмPython*Big Data*Data Engineering*

Туториал

Перевод

Предположим: вы полны желания изучить манящий массив данных. К счастью, для этого достаточно вашего компьютера. Итак, вы открываете блокнот Python или REPL, чтобы начать работать: какую библиотеку использовать? Естественно, вы можете обратиться к старой доброй Pandas. А как насчет новой модной библиотеки фреймов данных, например Polars или datatable? А ещё, для разнообразия, можно попробовать встроенный SQL с помощью DuckDB.

Давайте погрузимся в прекрасную область фреймов данных, чтобы сделать выбор!

PS: Используйте DuckDB, если вам удобно работать с SQL, Polars или Pandas с поддержкой PyArrow, если вам не нужно какое-то специфическое расширение NumPy, и задействуйте PyArrow в том случае, если вы не против ручной оптимизации.

ilyamaycry 19 авг 2023 в 19:31

Работа с матрицами в python

Простой

4 мин

14K

Python*Алгоритмы*Математика*GitHub*Data Engineering*

Из песочницы

Привет, Хабр! Я недавно начал свой путь в data science, хочу поделиться реализацией алгоритмов по обработке матриц.

neoflex 18 авг 2023 в 15:35

Опыт работы с данными или с чем может столкнуться аналитик

Простой

8 мин

2.9K

Блог компании NeoflexХранение данных*Data Engineering*

✏️ Технотекст 2023

В этой статье хотелось бы погрузить вас в мир данных и вспомнить: какие встречались проекты, связанные с хранилищами и данными, какие задачи приходилось решать, а также какие навыки пригодились.

Но вначале придется разобрать извечные вопросы: кто же такие аналитики, что такое данные и понять – должны ли они быть вместе?

kirill702b 14 авг 2023 в 16:30

Как получить real-time данные смарт-контракта, используя The Graph (пишем свой сабграф)

Средний

8 мин

1.2K

Децентрализованные сети*Solidity*КриптовалютыData Engineering*

Туториал

Всем привет! В предыдущих статьях (1 и 2) я рассказывал про концепцию индексирования данных смарт-контрактов на блокчейне в общем и в частности через средства The Graph, а также про то, как использовать готовые "сабграфы" на The Graph Hosted Service, чтобы, не написав ни строки кода, делать к ним GraphQL запросы и получать данные популярных децентрализованных приложений. Однако, если вы присматриваетесь к Web3 разработке, то вероятно вам и самим придется разрабатывать такие сабграфы для своего приложения. Эту тему (разработка собственных сабграфов стандарта The Graph) я бы и хотел осветить в данном материале. Чтобы пример был не сферический и в вакууме, будем рассматривать существующий смарт-контракт проекта TornadoCash.

Под кат

alitenicole 14 авг 2023 в 15:16

Apache Spark 3.4 для Databricks Runtime 13.0

10 мин

1.3K

Блог компании СлёрмIT-инфраструктура*Apache*Big Data*Data Engineering*

Перевод

Databricks — это аналитическая платформа для облачных вычислений, работы с большими данными и машинного обучения. Компания разрабатывает data lake и работает с фреймворком Apache Spark. Приводим перевод статьи Databricks о нововведениях Apache Spark 3.4, который вошел в релиз Databricks Runtime 13.0.

olesyatsareva15 11 авг 2023 в 16:54

ML-искусство переживать проблемы: как избегать разочарований и находить аналоги товаров в периоды out-of-stock

Средний

6 мин

1.5K

Блог компании АвтомаконBig Data*Машинное обучение*Искусственный интеллектData Engineering*

Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), запускаем серию статей, в которых поднимем актуальные темы и предложим свои решения проблемных ситуаций онлайн-ритейла. Каждый день мы решаем бизнес-задачи ритейла по повышению продаж, сокращению издержек и управлению рисками.

Стартуем со статьи, в которой рассмотрим одну из самых распространенных проблем в онлайн-ритейле – отсутствие товара (out-of-stock) в моменте и поделимся рекомендациями по ее устранению.

EVRAZ 10 авг 2023 в 09:00

Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее

Средний

7 мин

4.3K

Блог компании ЕВРАЗBig Data*Математика*Data Engineering*

Цифровая трансформация подобна ремонту: однажды начавшись, не заканчивается уже никогда. Разработчики и дата-сайентисты выискивают по цехам ЕВРАЗа — где бы ещё причинить пользу своими знаниями и умениями? На этот раз им на глаза попалось производство рельсов. И увидели они, что это хорошо, но можно ещё лучше…

Конечно, в действительности процесс принятия решений выглядит немного иначе. Однако термоупрочнение рельсов — действительно перспективный объект для цифровизации. Под катом вы сможете прочесть, как строилась математическая модель остывания рельса, а главное — зачем.

kucev 9 авг 2023 в 12:17

Сбор данных для машинного обучения: этапы, методики и рекомендации

15 мин

5.7K

Анализ и проектирование систем*Data Mining*Хранение данных*Машинное обучение*Data Engineering*

Перевод

Все успешные компании постоянно собирают данные. Они отслеживают поведение людей в Интернете, организуют опросы, мониторят отзывы, слушают сигналы от умных устройств, извлекают значимые слова из электронных писем и предпринимают другие шаги для накопления фактов и чисел, помогающих им принимать бизнес-решения. Хотя современный мир изобилует данными, сбор ценной информации включает в себя множество организационных и технических трудностей, которые мы и рассмотрим в этой статье. Особое внимание мы уделим методикам сбора данных и инструментам для аналитики и проектов машинного обучения.

Читать дальше →

kirillkosolapov 6 авг 2023 в 14:01

Что такое Data Observability и с чем ее едят?

Простой

4 мин

2.7K

Блог компании AmveraData Mining*Big Data*Исследования и прогнозы в IT*Data Engineering*

В последние годы растет сложность IT-инфраструктуры в компаниях и, соответственно, спрос на сервисы мониторинга ее работоспособности. Их все больше покупают, в них все чаще инвестируют. Но в данной статье мы расскажем о новом смежном тренде - Data Observability. Что это и чем она отличается от Infrastructure Observability?

Классический мониторинг - это наблюдение за работой инфраструктуры и приложений. А Data Observability позволяет осуществлять мониторинг потоков данных (и даже бизнес-процессов) и находить в них сбои.

Рассмотрим несколько примеров.

s_valuev 4 авг 2023 в 13:05

Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps

Средний

6 мин

3.9K

Блог компании SelectelBig Data*Машинное обучение*ВидеокартыData Engineering*

Дайджест

Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.

Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».

Читать дальше →

+39

kirill702b 3 авг 2023 в 18:03

Как получить доступ к данным Ethereum смарт-контракта в real-time из Python

Средний

7 мин

2.5K

Децентрализованные сети*Python*Solidity*КриптовалютыData Engineering*

Туториал

Всем привет! Представим, что вам нужен доступ к данным каких-либо смарт-контрактов на Ethereum (или Polygon, BSC и т.д.), например, Uniswap, SushiSwap, AAVE (или даже PEPE-coin) в реальном времени, чтобы анализировать их с помощью стандартных инструментов дата-аналитиков: Python, Pandas, Matplotlib и т.д. В этом туториале я покажу инструменты для доступа к данным на блокчейне, которые больше похожи на хирургический скальпель (сабграфы The Graph), чем на швейцарский нож (доступ к RPC ноде) или, скажем, молоток (готовые API от компаний-разработчиков). Надеюсь, мои неумелые метафоры вас не пугают. Кому интересно научиться, добро пожаловать под кат.

Под кат

rumovskiy 2 авг 2023 в 14:14

Надёжные сервисы на нейросетях, или почему восклицательные знаки лучше цифр

Средний

17 мин

1.6K

Анализ и проектирование систем*Интерфейсы*Искусственный интеллектData Engineering*

Из песочницы

Скажите, если к вам придёт потенциальный клиент, но вместо красивого сайта, приложения или сотрудника его встретит чатик с текстовой нейросетью, которая что-то знает о вашем продукте и теоретически может его продать – вам будет комфортно? Это, может, нетипично для энтузиаста, закопавшегося по уши во всякие GPT и PaLM, но лично мне в такой ситуации будет очень страшно. А вдруг нейросеть продаст что-то несуществующее? Или вообще ничего не будет продавать? Или нагрубит клиенту?

Похоже что эти опасения разделяют многие: каждую неделю появляется ворох новых сервисов, пишущих нейросетью что-то для последующей обработки человеком (начиная с кода и заканчивая рекламными текстами), а вот примеров, в которых нейросеть "пускают" напрямую к клиентам далеко не так много. Но, как мне кажется, я нашёл способ от этих опасений в существенной степени избавиться. (Конечно, может быть, кто-то уже нашёл его раньше и я просто этого не заметил, но что уж поделаешь, сфера новая и очень быстро развивается.)

В этой статье я на примере простого сервиса для маршрутизации заявок в техподдержку покажу свой подход к созданию сервисов на нейросетях, которые не страшно напрямую использовать для общения с клиентами или в других важных процессах. А также приблизительно измерю процент случаев, в которых такой сервис сможет корректно отработать, и постараюсь отследить влияние различных особенностей запросов к нейросети на этот процент.

1 2 ...

6 7

9 10 ...

45 46

Data Engineering *

Как подружить Spark и S3 для обработки файлов

Первые шаги в ML на обучающем хакатоне: обнаружение птиц на фотографиях yolov8s + sahi

Неструктурированные данные: примеры, инструменты, методики и рекомендации

Строим пайплайн в sсikit-learn — пошаговое руководство

Истории

Цифровая трансформация цементного завода (ч.9): смешивание муки в силосах

MLOps от Gucci и оценка уровня Data Driven’ности в компании

Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (1 и 2 место)

Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером

Преобразование табличных данных в Python

Работа с матрицами в python

Опыт работы с данными или с чем может столкнуться аналитик

Как получить real-time данные смарт-контракта, используя The Graph (пишем свой сабграф)

Apache Spark 3.4 для Databricks Runtime 13.0

Ближайшие события

ML-искусство переживать проблемы: как избегать разочарований и находить аналоги товаров в периоды out-of-stock

Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее

Сбор данных для машинного обучения: этапы, методики и рекомендации

Что такое Data Observability и с чем ее едят?

Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps

Как получить доступ к данным Ethereum смарт-контракта в real-time из Python

Надёжные сервисы на нейросетях, или почему восклицательные знаки лучше цифр

Вклад авторов