Как стать автором
Обновить
67.82
Рейтинг

Data Mining

Глубинный анализ данных

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

«От категорий к векторам» или нестандартное кодирование категориальных данных. Часть 1

Блог компании МегаФонData MiningBig DataМашинное обучениеData Engineering
Tutorial

Привет, Хабр! С вами Артём, аналитик больших данных МегаФона. На работе занимаюсь рекомендательными системами и интересуюсь NLP. Эти две вещи и привели меня к рассматриваемой тут теме, так что садитесь поудобнее, и поехали. Кстати, к статье прилагается код, ищите ссылки внутри.

В путь
Всего голосов 7: ↑6 и ↓1+5
Просмотры1.4K
Комментарии 0

Новости

Показать еще

Tableau: визуализация данных для каждого

Блог компании LuxoftData MiningBig DataВизуализация данныхИсследования и прогнозы в IT
Из песочницы
Tutorial

Всем привет. На связи BI Office в Luxoft и я — Ксения Агеева, причастная к анализу и визуализации данных на протяжении последних семи лет. Меня часто спрашивают, зачем в моей жизни есть Tableau, если весь мир всё равно любит эксельные таблички. Так что я решила показать, как без специального обучения можно получить профит от одного из самых популярных BI-инструментов — Tableau.

История получилась довольно длинной, так что продолжение ищите под катом.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Просмотры2.1K
Комментарии 9

Как ФБК* сами слили все данные оппозиции в открытый доступ

Информационная безопасностьData MiningDevOps
Из песочницы

Привет! Здесь я хочу указать на возможную причину, почему были слиты данные зарегистрировавшихся в УГ и предупредить, что ФБК* на несколько недель в июне была открыта, как эта калитка в меме.

Читать далее
Всего голосов 219: ↑202 и ↓17+185
Просмотры89K
Комментарии 454

Как мы анализировали на хакатоне схемы севооборота

Блог компании SkillFactoryData MiningBig DataХакатоныData Engineering

Привет, Хабр! Периодически мы делаем посты о проектах наших студентов магистратуры «Наука о данных» НИТУ МИСиС и Zavtra.Online — подразделения SkillFactory по работе с университетами, эти проекты создаются на внутренних хакатонах. Ребята уже за неделю собирали датасеты по коммерческим объектам, музыкальным трекам, вакансиям и даже котикам, пробовали кластеризовать транспорт и побеждали букмекеров с помощью ИИ. Сегодня делимся новым учебным проектом наших студентов об анализе схем севооборота. Далее речь идёт от лица команды.

Читать далее
Всего голосов 11: ↑8 и ↓3+5
Просмотры1.2K
Комментарии 5

Большая подборка телеграмм-каналов для аналитиков

PythonSQLData MiningRData Engineering

Работа аналитика требует постоянного пополнения своих знаний - новые инструменты, обновления и методы создаются, как горячие пирожочки. Но перерабатывать такие объемы информации просто нереально, а узнавать что-то новенькое и полезное хочется. И что делать?

Можно, конечно, подписаться на «стоковые» группы и каналы, которые каждый день публикуют по 10-20 постов с «полезным» материалом. Но, признайтесь, это просто самообман: во-первых, столько информации в день просто невозможно пропустить через себя - это только и надо, что статьи читать, а есть же еще работа/учеба. Во-вторых, «полезность» этих статей сомнительна - не каждый пост от умного индуса можно считать полезным, увы :(

Так как же быть? Ответ прост - читать авторские каналы, где реальные специалисты делятся информацией, которую они для себя считают полезной!

Итак, мы собрали для Вас большую подборку телеграм-каналов на любой вкус - каждый найдет для себя что-то интересное. Здесь и BI, и продуктовая аналитика, и программирование, и дашборды, и хранилища данных - одним словом, есть где разгуляться аналитической душе! 

Сохраняйте себе и подписывайтесь на ребят - они это точно заслужили! :)

Читать далее
Всего голосов 8: ↑3 и ↓5-2
Просмотры6.4K
Комментарии 5

Как мы автоматизировали для пользователей работу с данными через Google Colab

Блог компании eLamaData Mining

Как хорошо уметь читать, не так ли? А когда пользователи безопасно и организованно могут сами получать любые данные из DWH в нужном виде - это вообще сказка!

В статье описан инструмент автоматизации выдачи данных конечным пользователям. Материал будет полезен специалистам, обслуживающим хранилища данных, которых это решение сильно разгрузит.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Просмотры576
Комментарии 0
Если вы попытаетесь найти перевод термина Data Scientist на русский язык, то, скорее всего, увидите что-то вроде «аналитик базы данных», или «специалист по анализу данных», или даже «программист-аналитик». По сути это логическая ловушка, потому что, в зависимости от ситуации, это могут быть как один человек, так и три разных отдела. Мы со Сбером решили расставить точки над «i» в этой теме и узнать, как именно вы представляете себе работу Data Scientist’а. Понять, как всё устроено конкретно у вас на рабочем месте, и выяснить, какие роли могут скрываться за общим термином Data Science. Результаты опроса мы подведём в отдельном посте, так что следите за обновлениями.
А пока поехали!
Всего голосов 13: ↑8 и ↓5+3
Просмотры8.5K
Комментарии 5

Методы укладки Gephi. Force Atlas и Force Atlas 2

Анализ и проектирование системData MiningВизуализация данныхВеб-аналитика

Прежде чем определиться с выбором раскладки вашего графа, нужно понять какие цели вы преследуете, когда строите его и что именно вы хотите проанализировать и показать.

Впечатление, которое производит ваш граф, может значительно отличаться в зависимости от выбранного алгоритма. Вы должны понимать, что окончательный выбор может стать очевидным только после экспериментов и визуальной оценки. Он должен соответствовать как вашим данным, так и цели построения графа. Здесь нет абсолютно правильных или неправильных ответов: часть решения будет принята субъективно, исходя из вашего собственного визуального суждения.

Рассмотрите свои варианты с точки зрения целостности. Конечная цель создать граф, который не только понятен, но и позволяет рассказать убедительную историю. Если при достижении этих целей макет выглядит впечатляюще, даже лучше! Однако любое прочтение литературы и поиск в интернете быстро покажет, что многие графы выглядят впечатляюще, но не передают смысла данных, и они настолько плотны, что их невозможно прочитать. Не становитесь жертвой создания, чего-то впечатляющего, ради красивой картинки - всегда помните, что вы используете средство просмотра графов, и делаете все возможное, чтобы показать данные чётко. Теперь, когда мы определили приоритеты, мы можем перейти к рассмотрению различных компоновок Gephi.

Для демонстрации настроек раскладок будем использовать данные о переводах пользователей трёх различных банков.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Просмотры582
Комментарии 0

Обучение с подкреплением: как работают новые возможности библиотеки SberPM

Блог компании СберАнализ и проектирование системData MiningУправление проектами

Что такое Process Mining и как его применять, мы рассказывали в первом посте. Во второй части мы представили краткое руководство пользования библиотекой для интеллектуального анализа процессов SberPM. В данной статье мы подробнее раскроем функционал библиотеки и расскажем о новом модуле оптимизации процессов и клиентских путей, использующем обучение с подкреплением для поиска оптимального пути.  

Оптимизация бизнес-процессов играет важнейшую роль в повышении операционной эффективности компании. В SberPM обучение с подкреплением используется для реконструкции процесса в соответствии с заданными критериями:

·         Отсутствие зацикленности.

·         Минимальное время выполнения этапов.

·         Минимальное число этапов.

·         Успешное завершение процесса.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Просмотры2.2K
Комментарии 0

Как мы снова просканировали все домены в Интернете

Data MiningBig DataИсследования и прогнозы в IT

Я уверен, вы неоднократно видели заголовки“40% сайтов использует вордпресс”, “10% сайтов сидят на CloudFlare”, “Самая распространенная версия PHP X.X”. Обычно не указывается ни тип выборки сайтов для анализа, ни ее объем. Реально ли почти половина интернета работает на Wordpress?

Почти три года назад я опубликовал статью про то, как мы проанализировали “морды” более чем 250 млн доступных доменов.

В начале 2021 года мы сделали новый сбор данных, добавили определение технологий, трек пикселей, улучшили анализ контента и ссылочного.

Данная статья - это обзор текущего состояния основных показателей: сколько сайтов работает, какой процент использует HTTPs, какая сейчас доминирует версия PHP.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Просмотры12K
Комментарии 20

RamblerMeetup&Usermodel

Блог компании Rambler&CoData MiningBig DataData Engineering

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Просмотры365
Комментарии 0

Проблемы мониторинга дата-пайплайнов и как я их решал

Системное администрированиеАнализ и проектирование системData MiningDevOpsData Engineering

Мониторинг - сложная, но необходимая часть разработки, она становится вдвойне сложней, когда мониторить надо не просто технические вещи, а их фактический смысл для бизнеса.

Данные, собранные и трансформированные в дата-пайплайнах очень часто поступают сразу к аналитикам и к другим людям, принимающим бизнес-решения, так что мониторинг таких вещей должен быть удобен не только инженерам, но и для других людей, которым важно знать, можно ли доверять данным и есть ли какие-то проблемы с их обработкой.

О том, какие проблемы со сбором и обработкой данных бывают, как избежать ложных алертов и как я делал мониторинг на основе событий максимально понятным и прозрачным для бизнеса, я и приглашаю почитать в этой статье.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Просмотры1.7K
Комментарии 4

Гугл финанс перестал транслировать данные российских акций — что делать? (UPD: починили)

ПрограммированиеData MiningAPIGoogle APIФинансы в IT
Tutorial

С 5 июня 2021 года сайт гугла, и самое главное гугл таблицы - перестали отдавать данные с Московской биржи. 

При попытке получить любые котировки с префиксом MCX, например для Сбербанка, формулой из гугл таблиц =GOOGLEFINANCE("MCX:SBER") теперь всегда возвращается результат #N/A.

А при поиске любой российской бумаги на сайте Google находятся любые рынки, кроме Московской биржи.

В этой статье я рассказываю как получать в гугл таблицу биржевые данные с помощью API Московской биржи.

Google Finance давай, до свидания!
Всего голосов 23: ↑22 и ↓1+21
Просмотры14K
Комментарии 22

Маленький и быстрый BERT для русского языка

СемантикаПрограммированиеData MiningМашинное обучениеNatural Language Processing

BERT – нейросеть, способная неплохо понимать смысл текстов на человеческом языке. Впервые появившись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной прикладной задаче, например, классификации комментариев или выделении в тексте имён, названий и адресов. Стандартная версия BERT довольно толстая: весит больше 600 мегабайт, обрабатывает предложение около 120 миллисекунд (на CPU). В этом посте я предлагаю уменьшенную версию BERT для русского языка – 45 мегабайт, 6 миллисекунд на предложение. Она была получена в результате дистилляции нескольких больших моделей. Уже есть tinybert для английского от Хуавея, есть моя уменьшалка FastText'а, а вот маленький (англо-)русский BERT, кажется, появился впервые. Но насколько он хорош?

Читать далее
Всего голосов 57: ↑57 и ↓0+57
Просмотры9.4K
Комментарии 17

Вращение таблиц в Google BigQuery (PIVOT)

SQLData MiningBig DataGoogle Cloud PlatformData Engineering
Tutorial

Сводные таблицы в Excel являются чрезвычайно мощным инструментом, поскольку позволяют быстро изменять форму данных в пару кликов мышки. Например, вам необходимо построить отчёт продаж по магазинам за год, таким образом, что бы в строках были названия магазинов, а в столбцах месяца. Не проблема, кидай в область столбцов сводной таблицы поле месяц, в область строк поле с названием торговых точек, а в поле значение сумму продаж. Отчёт готов.

До недавних пор реализовать такую операцию в SQL было довольно проблематично, но недавно в функционал Google BigQuery была добавлен оператор PIVOT, о нём и пойдёт речь в этой статье.

Читать далее
Рейтинг0
Просмотры1.7K
Комментарии 4

Создание и балансировка инвестиционного портфеля с помощью ML

Блог компании Open Data ScienceData MiningМашинное обучениеИскусственный интеллектФинансы в IT

В прошлой статье я писал про свои ML-модели для оценки отдельных компаний, но вопрос формирования итогового портфеля совсем не затрагивал. В этом посте хочу рассказать о том, как я собираю свой личный портфель, а так же поделиться сайтом, на котором реализую весь описанный в статье функционал http://stocks.ml. Дисклеймер: у автора нет экономического образования и все выводы и суждения в статье делаются на основе житейского опыта и здравого смысла.

Читать далее
Всего голосов 23: ↑21 и ↓2+19
Просмотры10K
Комментарии 15

Все что вы (не) хотели знать о Data Science

Блог компании СитимобилData MiningBig DataМашинное обучениеКарьера в IT-индустрии

Всем привет! Меня зовут Михаил Дьячков, и в Ситимобил я занимаюсь анализом данных и машинным обучением. Сегодня я хочу поговорить о Data Science: что же это вообще такое в глазах кандидатов, работодателей и экспертов; о несовпадении ожиданий, грейдах и собеседованиях, а также о том, какие задачи решают дата саентисты в Ситимобил.

Вжуууух
Всего голосов 18: ↑18 и ↓0+18
Просмотры9.4K
Комментарии 7

Хочу всё знать о клиенте! Или как обогатить сухие факты DWH цифровыми путями и свойствами клиента из Amplitude

Блог компании Лига СтавокData MiningBig DataАналитика мобильных приложенийУправление продуктом
Tutorial

Корпоративное хранилище в Лиге Ставок было создано задолго до внедрения Amplitude. Преимущественно им пользуются аналитики и исследователи. Продакты и маркетологи для получения аналитических данных из хранилища обращались к аналитикам, потому что это требует навыков программирования.


Фактам DWH всегда не хватало чего-то продуктового, цифрового зрения в продуктах, которое подглядывало бы за клиентами и давало нам понимание его путей. С появлением Amplitude в компании мы начали понимать ценность накапливаемых данных в системе и очень круто использовать их в самой Amplitude, но симбиоз двух систем DWH и Amplitude не давал покоя. Мы, конечно же, реализовали механику переливки данных из Amplitude для in-house анализа в корпоративном хранилище и сделали инструкцию по настройке передачи данных из Amplitude в DWH. А также приглашаем вас на вебинар Лиги Ставок и Adventum про анализ и оптимизацию конверсии в продукте.

Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Просмотры495
Комментарии 0

Оценка структуры кредитного портфеля с помощью R

PythonData MiningBig DataRВизуализация данных

В ходе обсуждений возникла «маленькая» задачка — построить динамику структуры кредитного портфеля (динамика кредитной карты, например). Есть важная специфика — необходимо применять метод FIFO для погашения займов. Т.е. при погашении первыми должны гаситься самые ранние займы. Это накладывает определенные требования на расчет статуса каждого отдельного займа и определения его даты погашения. Задачу решаем честно.


Рассматриваем как олимпиадную задачу. Никаких «кровавых энерпрайзов с корпоративными архитекторами» и педалинга кода, подход исключительно «сначала подумать». Не более одного экрана кода на прототип и никаких циклов (закладные для производительности и читаемости). Ниже приведен код на R с прототипом подхода.


Является продолжением серии предыдущих публикаций.

Читать дальше →
Всего голосов 1: ↑1 и ↓0+1
Просмотры1.5K
Комментарии 0

Python, корреляция и регрессия: часть 4

PythonПрограммированиеData MiningУчебный процесс в ITСтатистика в IT
Tutorial

Предыдущий пост см. здесь. Этот заключительный пост посвящен процессу предсказания на основе регрессии.

Читать далее
Всего голосов 2: ↑1 и ↓10
Просмотры2.2K
Комментарии 0

Вклад авторов