Как стать автором
Обновить
52.13

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Визуализация статистики о том, что и так все знают

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 14K

Привет, Хабр! Меня зовут Тагир, я занимаюсь аналитикой игровых механик. Недавно я наткнулся на статью, в которой визуализировали жизни тысяч людей с точностью до минуты — люди отмечали, на что они тратят свое время в течение дня, а автор агрегрировал эти данные и сделал визуализацию, разбив активности по категориям. 

Я переложил эту логику на банковские транзакции, чтобы посмотреть, на что люди тратят свои деньги в определенный момент времени, и получил статистику, о которой все и так вроде бы знают. На обед люди ходят в ближайшее кафе и заправляют машину, после работы — в супермаркет, а на выходных — отдыхают в увеселительных заведениях. Но визуализировав эти данные, увидел, что выглядит это весьма залипательно.

Читать далее
Всего голосов 30: ↑29 и ↓1 +28
Комментарии 11

Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 13K

Когда слушаешь доклады на больших ML-конференциях, то часть докладов вызывает восторг, но другая часть на послевкусии вызывает странное чувство. Да, доклад может быть очень крутым, математика блестящей, сложность крышесносной, но что-то как будто бы не так.

Эта статья — развлекательно-философская, все совпадения с реальностью — случайны, персонажи вымышлены, с точкой зрения — можно не соглашаться, но поразмышлять — стоит.

Да при чем здесь вообще деривативы? А просто у деривативов, дженги и машинного обучения — много общего, давайте разбираться.

Читать далее
Всего голосов 14: ↑10 и ↓4 +6
Комментарии 13

Apache Flink. Как работает дедупликация данных в потоке Kafka-to-Kafka?

Время на прочтение 20 мин
Количество просмотров 5.3K

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в цикле статей.

В предыдущей части «Как использовать Spring в качестве фреймворка для Flink-приложений» я рассказывал, как реализовать минимальное Flink-приложение с использованием фреймворка Spring. Мы запустили первую Flink-задачу в поднятом в docker-compose кластере, а также проверили корректность результата по соответствующим логам. В этой статье решим реальную бизнес-задачу дедупликации данных в пайплайне Kafka-to-Kafka.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 0

25 СУБД, которые актуальны в 2024 году

Уровень сложности Простой
Время на прочтение 11 мин
Количество просмотров 17K

Современный мир производит огромное количество данных каждую секунду, создавая огромный объем информации, который требуется хранить, управлять и анализировать. В этой статье мы кратко рассмотрим 25 из самых популярных баз данных, которые играют важную роль в обработке и хранении данных в различных сферах, от корпоративного управления до интернет‑технологий. Каждая из этих баз данных обладает своими особенностями и применением, внося вклад в разнообразные сферы бизнеса и науки.

От классических фаворитов до малоизвестных новичков, приготовьтесь к дикой поездке по стране баз данных!

В моем телеграм t.me/sqlhub канале можно найти гайды, уроки, лучшие библиотеки и советы по работе с данными.

https://t.me/addlist/_FjtIq8qMhU0NTYy — а здесь я собрал бесплатную папку с каналами по изучению Data Science и работе с базами данных.

Читать далее
Всего голосов 23: ↑8 и ↓15 -7
Комментарии 28

Истории

Изучаем SQL в 2024 году

Уровень сложности Простой
Время на прочтение 11 мин
Количество просмотров 45K

SQL  — декларативный язык программирования, применяемый для создания, модификации и управления данными в реляционной базе данных, управляемой соответствующей системой управления базами данных.

Читать далее
Всего голосов 38: ↑19 и ↓19 0
Комментарии 27

VK плачет, Social Graph смеется, Telegram наблюдает

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 13K

Скажи мне кто твой друг, и я скажу кто ты

Вы наткнулись на необычный проектик, который изучает дружеские коллективы, группы конкретного пользователя или группы профилей с помощью социального графа связей.

Зачем всё это? Изначально по приколу, но надеюсь, вы тут с благими намерениями

Что было дальше?
Всего голосов 21: ↑19 и ↓2 +17
Комментарии 18

Мой краш-тест чемпионата: Победа в Data Science треке

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 6.2K

Привет! В статье я расскажу о моем опыте победы в чемпионате "CUP IT 2023" от Changellenge в области Data Science. Соревнование построено на кейс-подходе, где участники решают реальные бизнес-вызовы, с которыми сталкиваются сотрудники компаний VK и Альфа-Банка. Я успешно справилась с задачами обеих компаний. В статье вы найдете подробности об особенностях соревнования, ключевых инсайтах, решениях, а также о том, как этот опыт изменил мою карьеру и подарил новые возможности.

Читать далее
Всего голосов 15: ↑11 и ↓4 +7
Комментарии 7

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 2.4K

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 0

«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 3.3K

Привет, Хабр! В новом выпуске собрал для вас полезные материалы, которые помогут лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать дальше →
Всего голосов 31: ↑29 и ↓2 +27
Комментарии 1

Особенности машинного обучения в нефтегазовой отрасли

Время на прочтение 13 мин
Количество просмотров 2.8K

Привет, меня зовут Олег Свидченко, я — Chief Data Scientist. Работаю в ассоциации «Цифровые технологии в промышленности». Если вы недавно перешли из крупной технологической компании в нефтегазовую или только планируете этот переход, либо слышали про машинное обучение только в теории, но у вас нет практики его применения в конкретных, особенно промышленных проектах, эта статья для вас.

Когда я искал новое место работы, сперва рассматривал крупные IT-компании, но решил, что мне неинтересно допиливать 0,1% к точности поиска. А в промышленности — непаханное поле, можно внедрять интересные технологии крупными мазками и решать задачи, которые еще не исследовались. Хотя меня пугали страшилками, что будет строгий дресс-код, жесткий график, неудобный офис и скучные проекты...

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 3

Успешный опыт участия в Data Science хакатонах

Уровень сложности Простой
Время на прочтение 37 мин
Количество просмотров 4K

В статье я хочу поделиться успешным командным и личным опытом участия в хакатонах и ML соревнованиях. На примере 13-ти соревнований, по итогу которых мы победили или оказывались на призовых местах, я рассажу о практических советах для будущих участников.

На личном опыте я убедился, что не всегда для победы требуются сложные алгоритмы, мощное железо или большой опыт в индустрии. Иногда 5-6 строчек кода и немного смекалки достаточно, чтобы получить топ-1 решение. Я расскажу вам про не очевидные, на первый взгляд, но довольно простые решения, а также раскрою некоторые интересные моменты хакатонской кухни, которые, надеюсь, вдохновят вас на участие.

Статья будет полезна будущим участникам соревнований и data science специалистам, которые смогут применить описанные решения и практические советы в реальных задачах.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 4

Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за начало зимы

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 2.4K

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:

Читать дайджест
Всего голосов 15: ↑13 и ↓2 +11
Комментарии 0

Разметка данных в 2023 году: текущие тренды и требования будущего

Время на прочтение 5 мин
Количество просмотров 2.2K

Разметка данных и/или аннотирование данных уже давно являются критически важным компонентом многих проектов машинного обучения и ИИ. В последние годы спрос на точную и надёжную разметку данных существенно вырос, ведь этот процесс становится всё более насущным для успеха множества проектов. Что же такое разметка данных? Как она повлияет на бизнесы? На какие тренды стоит обратить внимание, потому что они сформируют образ будущего разметки данных? В своём посте мы исследуем эти вопросы, чтобы лучше понимать, в каком направлении будет двигаться технология в ближайшие несколько лет.
Читать дальше →
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 1

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн

fsspec и вообще зачем оно нам нужно

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 2.9K

Привет! Сегодня я расскажу вам про fsspec, его киллер фичи и почему он является незаменимым инструментом любого python разработчика.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 1

Заблуждения о семантической сегментации

Время на прочтение 4 мин
Количество просмотров 1.2K

Семантическая сегментация — это задача компьютерного зрения, заключающаяся в помещении в один класс связанных элементов изображения.

Семантическая сегментация состоит из трёх этапов:

Классификация: обнаружение и классификация определённого объекта на изображении.

Локализация: нахождение предмета и отрисовка вокруг него ограничивающего прямоугольника.

Сегментация: процесс группировки пикселей в локализованном изображении при помощи маски сегментации.

Существует множество подтипов семантической сегментации, но все они возникают вследствие выбора пары параметров из двух категорий: размерности данных и разрешения выходных аннотаций.
Читать дальше →
Всего голосов 2: ↑1 и ↓1 0
Комментарии 2

Расчетная архитектура платформы для A/B-тестов Mail.Ru

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 3K

Привет Хабр! Меня зовут Андрей Каймаков, я работаю в продуктовой аналитике Mail.ru в VK. Сейчас практически каждая IT-компания (да и не только IT) знает про A/B-тесты и понимает важность проверки новых фичей с помощью этого метода. Когда фичей становится много, то A/B-тесты начинают занимать значительное время в работе команд. Чтобы автоматизировать эти процессы создаются платформы для проведения A/B-тестов. Мы разрабатываем свою систему с 2017 года, а недавно сильно ее обновили. Хочу вместе со своим коллегой разработчиком Андреем Чубаркиным поделиться опытом и инсайтами, которые мы обнаружили в ходе этого проекта. 

Читать далее
Всего голосов 27: ↑25 и ↓2 +23
Комментарии 7

Фреймворк для дизайна A/B-теста

Время на прочтение 11 мин
Количество просмотров 2.4K

Сегодня мы рассмотрим простой базовый фреймворк для дизайна сплит-теста, который можно удобно использовать продуктовым аналитикам в своей работе. Разберем использование этого фреймворка, его теоретическую и математическую основу, и также поговорим о продуктовых аспектах заведения A/B-тестов — когда продакту и аналитику заводить A/B-тест не нужно. Вам понадобятся: представления о продуктовых метриках, знания python, первичные представления о математической статистике и чуточку воображения.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0

Методы балансировки в А/Б тестировании

Время на прочтение 14 мин
Количество просмотров 3.5K

Привет, Хабр! Как часто вы думаете о балансе? Балансе вселенной, личной жизни и работы, балансе БЖУ в своем рационе или балансе в банке. Мы в команде ad-hoc X5 Tech не только думаем о балансе, но и сталкиваемся с ним в работе. Сегодня поговорим о балансировке при анализе причинности. Это важный инструмент статистики, который помогает нам выяснить, как одни величины влияют на другие. Балансировка здесь — это способ убрать ошибки, которые могут возникнуть из-за разных распределений переменных в разных группах. Расскажем о различных методах балансировки, об их работе, преимуществах и недостатках каждого. Также затронем проблемы и ограничения, связанные с балансировкой. Запасайтесь чаем, мы начинаем!

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 0

Зачем Программисту Микроконтроллеров Математическая Статистика? (или так ли хороши UWB трансиверы?)

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 6.7K

Настал день, когда мне для работы программистом микроконтроллеров наконец пригодилась математическая статистика из ВУЗ(овского) курса по теории вероятностей.

Есть очень интересная технология для автоматического радиоизмерения расстояния. Технология основана на UWB трансиверах. Позволяет измерять время пролёта радиоволны.

В этом тексте написал как я исследовал измерения расстояния, при помощи ASICа UWB трансивера DWM1000.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 23

Automate the boring stuff with Julia

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 4.9K

Считается, что Julia – это нишевый язык созданный для лабораторий, научных симуляций и HPC. Хотя на самом деле благородя свой экспрессивности и динамизму Julia можно и нужно использовать для автоматизации и скриптинга. Давайте на паре простых примеров посмотрим как Julia можно использовать для решения рутинных задач.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 28

Вклад авторов

Работа

Data Scientist
66 вакансий