Как стать автором
Обновить
37.51

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Видеозапись Data Science Meetup

Время на прочтение1 мин
Количество просмотров3K
image

11 октября провели у нас в офисе Data Science Meetup. Говорили про нагрузочное тестирование, компьютерное зрение и реализацию скоринговых карт.

Под катом — делимся видео и презентациями докладчиков.
Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии0

Как правильно «фармить» Kaggle

Время на прочтение27 мин
Количество просмотров154K

image
*фарм — (от англ. farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.).


Введение


Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в качестве начального курса всем, кто хочет, как это теперь называется, "войти" в DS). И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Если вы зададите этот вопрос на любом профильном форуме, то ответ, скорее всего, будет один — иди решай Kaggle. Kaggle — это да, но с чего начать и как наиболее эффективно использовать эту платформу для прокачки практических навыков? В данной статье автор постарается на своем опыте дать ответы на эти вопросы, а также описать расположение основных грабель на поле соревновательного DS, чтобы ускорить процесс прокачки и получать от этого фан.

проверить глубину этой кроличьей норы
Всего голосов 87: ↑86 и ↓1+85
Комментарии15

Хакатон по Data Science в СИБУРе: как это было

Время на прочтение5 мин
Количество просмотров6.2K
Привет!

С начала года мы провели около 10 хакатонов и воркшопов по всей стране. В мае мы вместе с AI-community организовывали хакатон по направлению «Цифровизация производства». До нас хакатон про data science на производстве ещё не делали, и сегодня мы решили подробно рассказать о том, как это было.



Цель была проста. Нужно было оцифровать наш бизнес на всех его этапах (от поставок сырья до производства и прямых продаж). Само собой, должны были решаться и задачи прикладного характера, например:

  • устранение простоев оборудования, технологических нарушений и сбоев;
  • повышение производительности и вместе с этим — качества продукции;
  • снижение затрат на логистику и закупки;
  • ускорение запуска и вывода на рынок новых продуктов.

В чём главная ценность таких задач? Правильно, в максимальном приближении к настоящим бизнес-кейсам, а не к абстрактным проектам. Первая задача уже подробно описана на Хабре одним из участников (спасибо, cointegrated Давид!). А второй задачей, вынесенной на хакатон, стала необходимость оптимизировать процесс совмещения плановых ремонтов ж/д-вагонов логистического парка. Это взяли прямо из нашего текущего бэклога, немного адаптировав для участников, дабы сделать её понятнее.

Итак, описание задачи.
Всего голосов 19: ↑18 и ↓1+17
Комментарии0

Что было интереснго на DataVizDay в Минске

Время на прочтение3 мин
Количество просмотров1.2K

В четверг 4 октября я побывал на конференции DataVizDay в Минске в качестве спикера. Поделюсь самыми интересными идеями и впечатлением от Миснка.


Ключевые идеи:


  1. 80% ваших усилий будет до BI и визуализации, потому что данные бывают или плохие или очень плохие и в основном вы будете тратить время на подготовку и сбор данных.
    2.Тем не менее визуализация создает ценность вашего дата продукта. Без визуализации получается просто куча цифр.
  2. К сожалению очень часто визуализация плохая, используют плохие подходы, типы графиков и гистограмм, перегружают представления деталями. В итоге часто мы видим Kill by powerpoint и обилие данные не добавляет прозрачности в аналитике.
  3. Эксель продолжает занимать значительную роль в процессах. И часто компании не готовы перейти на что-то продвинутое. Но даже на экселе можно построить много чего интересного, потому что хорошая аналитика скорее начинается с чистоты и подготовки данных, а не с красивых дашбордов.
Читать дальше →
Всего голосов 6: ↑6 и ↓0+6
Комментарии1

Истории

Поп-звезды под линзой искусственного интеллекта

Время на прочтение9 мин
Количество просмотров4.8K

Intro


Образ поп звезд привлекает миллионные аудитории, он состоит из внешнего вида, музыки, поступков и конечно же текстов их песен.
О чем поют популярные исполнители? Во все времена темы одинаковые: любовь, одиночество, секс, развлечения, вечные ценности.


Однако наверняка вы и сами чувствовали, что от каждого исполнителя остается свой осадок в душе, свой привкус. И вроде бы слова одинаковые, а оттенки разные. И у каждого — свой.


Та картина, которую артист рисует своими словами — уникальна и отображает их внутренний мир, их психологические портреты.


В статье мы пробуем через призму AI заглянуть за завесу слов и различить за ними душу таких популярных звезд как Drake, Rihanna, Coldplay, Twenty One Pilots, Dua Lipa, The Chainsmokers и Katy Perry.
Нашли кого-то из любимых артистов и Вам хочется узнать их скрытые эмоции и переживания?




Читайте дальше о том, как современная технология обработки естественного языка от IBM Watson Personality Insights помогает «читать между строк» эмоции, потребности, ценности и психологические особенности.

Читать дальше →
Всего голосов 9: ↑7 и ↓2+5
Комментарии12

Теневые профили пользователей: рекламщики в Фейсбуке найдут вас даже по непубличному номеру телефона

Время на прочтение5 мин
Количество просмотров8K
image

Четыре дня назад на Хабре очень много шума наделала статья "Наши с вами персональные данные ничего не стоят". А знаете ли вы, что это только вершина айсберга, и что в действительности все гораздо хуже? Что скажете, если у ваших недругов окажется не только ваши паспортные данные, но и список ваших покупок в аптеке или в магазине «для взрослых», который они добудут, перенаправив вас на подконтрольный сайт через персонализированное рекламное объявление?

Интересные подробности о системе таргетинговой и контекстной рекламы в Facebook выяснили исследователи из Бостонского университета и Принстона. Оказывается, рекламным агентства способны доставить персонализированную рекламу конкретному пользователю сети Facebook, используя его контактные данные, даже если тот не размещал их в самом профиле.

image
Скриншот объявления, сделанный Аланом Мисловом, с объяснением от Фейсбука, как «рекламодатель» отобрал его в свою аудиторию для показа

Кашмир Хилл, журналистка портала Gizmodo, пишет:
На прошлой неделе я запустила объявление в Facebook, которое было нацелено на профессора по информатике по имени Алан Мислов. Алан Мислов изучает, как конфиденциальность работает в социальных сетях и разработал теорию, согласно которой Facebook позволяет рекламодателям добираться до пользователей по контактной информации, собранной весьма нестандартными способами.

Я помогала ему проверить эту теорию, нацеливая рекламную кампанию на его аккаунт, таким способом, который по официальным рекомендациям от Facebook не должен был сработать. Я настроила рекламу для показа пользователю учетной запись Facebook, сопоставленной с номером стационарного телефона офиса Алана Мислова. Номером, который Мислов никогда не предоставлял в Facebook.

Алан Мислов увидел объявление всего через несколько часов

Читать дальше →
Всего голосов 26: ↑26 и ↓0+26
Комментарии19

Реализация минимизации логических функций методом Квайна\Мак-Класки при неполном входном наборе

Время на прочтение23 мин
Количество просмотров7.9K
Данная статья является, в некоторой степени, продолжением моей статьи по минимизации логических функций методом Квайна-Мак’Класки (https://habr.com/post/328506). В ней рассматривался случай с полностью определёнными логическими функциями (хотя этого в ней прямо не упоминалось, а только подразумевалось). В реальности такой случай встречается достаточно редко, когда количество входных переменных мало. Частично или не полностью определенными называются логические функции, значения которых заданы лишь для части Q из полного множества P=$2^N$ возможных наборов (термов) их аргументов (переменных) количеством N, т. е. Q < P. Такая ситуация встречается на практике в большинстве случаев применений алгоритмов оптимизации логических функций. Действительно, например, если число входных переменных N=30, что является заурядным случаем, например на финансовых рынках, то объём входной обучающей выборки должен составлять порядка $2^{30}$>$10^9$ элементарных уникальных термов. Такой массив данных встречается не в каждой даже очень крупной организации, не говоря уже о частных лицах, т. е. это уже сфера BigData, использования ЦОД-ов и т. д.

Поэтому на практике чаще всего минимизируемые логические функции будут определены не полностью просто в силу отсутствия необходимого количества накопленных данных или в силу разных других объективных причин (например, не хватает места для их хранения). Возникает вопрос о возможности «обхода» этой неприятности при использовании алгоритма, работающего с полностью определённым набором терм логической функции, таким как, например, из предыдущей моей статьи.
Читать дальше →
Всего голосов 20: ↑19 и ↓1+18
Комментарии0

Блины с ICOй на питоне или как померять людей и проекты ICO

Время на прочтение5 мин
Количество просмотров1.5K

Друзья, добрый день.


Есть четкое понимание, что большая часть ICO проектов это по сути своей совсем нематериальный актив. ICO проект это не автомобиль мерседес-бенц – который ездит вне зависимости от того что его кто любит или нет. И основное влияние на ICO оказывает настроение народа – как настрой на основателя\founder ICO, так и самого проекта.


Было бы хорошо как-то измерить настрой народа по отношению к основателю ICO и\или к ICO проекту. Что и было проделано. Отчет ниже.


Результатом стал инструмент сбора позитивного\негативного настроения из Интернетов, в частности из твиттера.


Моё окружение это Windows 10 x64, использовал язык Python 3 в редакторе Spyder в Anaconda 5.1.0, проводное подключение к сети.


Сбор данных


Настрой буду получать из постов твиттера. Сначала выясню, чем сейчас занимается основатель ICO и насколько положительно об этом отзываются на примере пары известных личностей.


Буду использовать python библиотеку tweepy. Для работы с твиттером необходимо в нем зарегистрироваться как разработчику, см. twitter/. Получить критерии доступа к твиттеру.

Читать дальше →
Всего голосов 13: ↑6 и ↓7-1
Комментарии2

«Если хочешь создать нечто действительно крутое, надо копать глубже и знать, как твой код работает в системе, на железе»

Время на прочтение11 мин
Количество просмотров8.1K
Хабр, привет! Интересно, как много программистов и разработчиков открыли для себя data science или data engineering, и строят успешную карьеру в области больших данных. Илья Маркин, Software engineer в Directual, — как раз один из разработчиков, перешедших в data engineering. Поговорили об опыте в роли тимлида, любимом инструменте в data engineering, Илья рассказал о конференциях и интересных профильных каналах джавистов, о Directual с пользовательской стороны и технической, о компьютерных играх и пр.

image

— Илья, спасибо, что нашел время встретиться. Поздравляю и с относительно недавним переходом в новую компанию, и с рождением дочки, хлопот и забот у тебя сейчас много. Сразу же первый вопрос: чем таким интересным тебе предложили заниматься в Directual, что ты ушел из DCA?

— Наверное, прежде надо рассказать, чем я в DCA занимался. В DCA (Data-Centric Alliance) я попал после прохождения программы «Специалист по большим данным». В тот момент я активно интересовался темой big data и понял, что это именно та область, в которой я хочу развиваться. Ведь там, где много данных, интересных инженерных проблем, которые необходимо решать, тоже предостаточно. Программа помогла мне довольно быстро погрузиться в экосистему мира биг дата, там я получил необходимые начальные знания о Hadoop, YARN, парадигме Map-Reduce, HBase, Spark, Flink, и многом другом, и о том, как это работает под высокой нагрузкой.
Читать дальше →
Всего голосов 12: ↑11 и ↓1+10
Комментарии3

Data mining Pubmed и Pubchem — баз медицинской и биохимической информации

Время на прочтение6 мин
Количество просмотров5.9K
PubMed представляет собой более чем 28 миллионов цитированний (абстрактов и названий) биомедицинской литературы из журналов наук о жизни, онлайн книг и MEDLINE. Также цитирование может включать в себя полный текст статей. Типичный запрос в Пабмед — type 2 diabetes natural compound

Pubchem — база данных более 100 млн химический соединений и 236 млн веществ. Также в базе результаты биоактивности 1.25 млн соединений (например активность соединений против рака или ингибирования конкретного гена). На данный момент известно о 9 млн органических химических соединений (сложных веществ). Неорганических химических веществ может быть огромное количество — от 10**18

В этой статье я приведу примеры составления списка генов ответственных за плохой прогноз по выживаемости от рака и код поиска органических соединений и их номеров среди всех химических молекул базы ПабЧем. Никакого машинного обучения в этой статье не будет (машинное обучение понадобится в следующих статья по биомаркерам диабета, определения возраста человека по рнк-экспресии, скрининга противораковых веществ).
Читать дальше →
Всего голосов 10: ↑9 и ↓1+8
Комментарии7

Применение Python для анализа смежных востребованных навыков у разработчиков

Время на прочтение5 мин
Количество просмотров8.5K

Сегодня в Сети можно найти огромное количество разнородной информации о наиболее востребованных языках программирования, библиотеках, фреймворках, операционных системах и прочих сущностях — назовём их технологиями. Число этих технологий постоянно растёт и становится ясно, что каждому, желающему пойти путём разработчика, необходимо фокусироваться на изучении некоторого наиболее востребованного стека, связанного с какой-либо ключевой технологией.

Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии5

Создаем свой датасет с пришельцами

Время на прочтение5 мин
Количество просмотров15K


Сегментацией людей с помощью нейронных сетей уже никого не удивишь. Есть много приложений, таких как Sticky Ai, Teleport Live, Instagram, которые позволяют выполнять такую сложную задачу на мобильном телефоне в реалтайме.


Итак, предположим планета Земля столкнулась с внеземными цивилизациями. И от пришельцев из звездной системы Альфа Центавра поступает запрос на разработку нового продукта. Им очень понравилось приложение Sticky Ai, которое позволяет вырезать людей и делать стикеры, поэтому они хотят портировать приложение на свой межгалактический рынок.

Читать дальше →
Всего голосов 19: ↑15 и ↓4+11
Комментарии4

Как Microsoft спрятала целый сервер и как его найти

Время на прочтение4 мин
Количество просмотров26K
— Видишь SSAS-суслика?
— Нет…
— И я не вижу. А он есть!

Суслик SSAS

(Кадр из к/ф «ДМБ»)

Поддержка относительно новой табличной (табулярной) модели данных, в противовес устоявшейся многомерной OLAP, встроена в целый ряд продуктов компании Microsoft. Начиная с SQL-сервера (SS) и заканчивая Excel. И если с SS всё понятно – в нём содержится отдельный сепаратный продукт SQL Server Analysis Services (SSAS). А как же решена поддержка языка DAX-запросов и прочей табулярной функциональности в Power BI, SharePoint или Excel? Поищем «суслика» на примере Power BI Desktop.
Читать дальше →
Всего голосов 19: ↑11 и ↓8+3
Комментарии18

Ближайшие события

MongoDB и исследование рынка ИТ-вакансий

Время на прочтение9 мин
Количество просмотров7K
Вы когда-нибудь анализировали вакансии?

Задавались вопросом, в каких технологиях наиболее сильна потребность рынка труда на текущий момент? Месяц назад? Год назад?

Как часто открываются новые вакансии Java-разработчиков в определенном районе Вашего города и как активно они закрываются?

В этой статье я расскажу Вам, как можно достичь желаемого результата и построить отчетную систему по интересующей нас теме. Поехали!


(Источник картинки)
Читать дальше →
Всего голосов 18: ↑17 и ↓1+16
Комментарии2

Анализ тональности текстов с помощью сверточных нейронных сетей

Время на прочтение11 мин
Количество просмотров58K


Представьте, что у вас есть абзац текста. Можно ли понять, какую эмоцию несет этот текст: радость, грусть, гнев? Можно. Упростим себе задачу и будем классифицировать эмоцию как позитивную или как негативную, без уточнений. Есть много способов решать такую задачу, и один из них — свёрточные нейронные сети (Convolutional Neural Networks). CNN изначально были разработаны для обработки изображений, однако они успешно справляются с решением задач в сфере автоматической обработки текстов. Я познакомлю вас с бинарным анализом тональности русскоязычных текстов с помощью свёрточной нейронной сети, для которой векторные представления слов были сформированы на основе обученной Word2Vec модели.

Статья носит обзорный характер, я сделал акцент на практическую составляющую. И сразу хочу предупредить, что принимаемые на каждом этапе решения могут быть неоптимальными. Перед прочтением рекомендую ознакомиться с вводной статьей по использованию CNN в задачах обработки естественных языков, а также прочитать материал про методы векторного представление слов.
Читать дальше →
Всего голосов 36: ↑35 и ↓1+34
Комментарии9

SmartData 2018: Первая отменённая конференция JUG.ru Group

Время на прочтение3 мин
Количество просмотров8.2K


Мы множество раз рассказывали на Хабре о том, какие IT-конференции проведём. А теперь впервые за историю этого блога сообщаем, что уже анонсированная конференция не состоится. Несмотря на то, что мы уже пригласили спикеров, забронировали площадку, сделали дизайн и поработали над многим другим, мы были вынуждены принять решение об отмене SmartData 2018.

Для тех, кому SmartData небезразлична, и для тех, кому интересно «почему мероприятие отменяется на такой стадии подготовки», под катом больше подробностей. Например, там можно узнать умное выражение «sunk cost fallacy», получив от печального события хоть какую-то пользу!
Читать дальше →
Всего голосов 43: ↑40 и ↓3+37
Комментарии20

«Storytelling with Data», Cole Nussbaumer Knaflic: неформальный обзор-конспект книги

Время на прочтение11 мин
Количество просмотров14K
«Наши сайнтисты сгенерировали кучу графиков, а мы совершенно не знаем, куда их девать. Давайте попробуем их хоть как-то пристроить». (с) подслушано

«Плохие графики везде. В моей работе я постоянно встречаю крайне сомнительные визуализации данных. Никто не делает плохие графики намеренно. Но это происходит. Опять и опять. В каждой компании во всех отраслях экономики сотрудниками всех уровней. Это происходит в СМИ. Это происходит там, где вы ожидаете, что люди должны уметь визуализировать данные». (с) автор книги

Это происходит и здесь, на Хабре: просматривая статьи в потоке «Визуализация данных», часто ловлю себя на мысли, что не понимаю и не могу схватить суть того, что отображено. В статье рассмотрим несколько примеров. И что самое неприятное для меня, это происходит и в моей работе тоже. Не постоянно, но чаще, чем хотелось бы.



Название книги «Storytelling with Data» звучало убедительно. Выбрал её для вечернего чтения и не пожалел. В книге нет формул, хитрых и необычных графиков, сложных кейсов. Понятный английский. Качественная печать. Читается как художественная литература. Книга будет полезна всем, кому приходится делать презентации на основе данных. Думаю, что особенную пользу она принесёт тем, кто занимается аналитикой данных.

Этот обзор очень неформальный: вперемешку идут мысли автора книги, мои мысли, ситуации из моей работы, а также шпаргалки по matplotlib по ссылкам. Будет много картинок. Почти все иллюстрации перерисованы из книги на Python.
Читать дальше →
Всего голосов 18: ↑18 и ↓0+18
Комментарии1

Пара мыслей об особенностях Российского Data Science

Время на прочтение1 мин
Количество просмотров7.9K


Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Люди внимательно слушали, задавали вопросы, благодарили. Но то что произошло потом было очень показательно. Об этом под катом.
Читать дальше →
Всего голосов 53: ↑38 и ↓15+23
Комментарии24

Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью

Время на прочтение7 мин
Количество просмотров11K
Автор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов.


Теория и методы обработки данных упростили решение самых разных задач в сфере технологий. Сюда относится оптимизация поисковой выдачи Google, рекомендации в LinkedIn, формирование заголовков материалов на Buzzfeed. Однако работа с данными может ощутимо повлиять и на многие сектора экономики: от розничной торговли, телекоммуникаций, сельского хозяйства до здравоохранения, грузовых перевозок и пенитенциарных систем.
 
И все же термины «наука о данных», «теория и методы анализа данных» и «специалист по анализу данных» (data scientist) остаются понятны не до конца. На практике они употребляются для описания широкого спектра методов работы с информацией.
 
Что на самом деле делают специалисты по data science? Как ведущий подкаста DataFramed я получил замечательную возможность провести интервью более чем с 30 специалистами в области анализа данных из разнообразных отраслей и академических дисциплин. В числе прочего я всякий раз спрашивал, в чем именно состоит их работа.
 
Наука о данных — это действительно обширная область. Мои гости подходили к нашим беседам со всевозможных позиций и точек зрения. Они описывали самую разную деятельность, в том числе масштабные онлайн-фреймворки для разработки продуктов на booking.com и Etsy, используемые Buzzfeed методы решения задачи многорукого бандита в ходе оптимизации заголовков материалов и влияние, которое машинное обучение оказывает на принятие бизнес-решений в Airbnb.
Читать дальше →
Всего голосов 12: ↑10 и ↓2+8
Комментарии6

Анатомия рекомендательных систем. Часть вторая

Время на прочтение12 мин
Количество просмотров33K
Неделю назад я делал здесь обзор существующих алгоритмов рекомендаций. В этой статье я продолжу данный обзор: расскажу об item-based варианте коллаборативной фильтрации, о методах, основанных на матричных разложениях, проблемах тестирования, а также о менее «раскрученных» (но не менее интересных) алгоритмах.

Читать дальше →
Всего голосов 43: ↑41 и ↓2+39
Комментарии11
12 ...
50

Вклад авторов

Работа

Data Scientist
61 вакансия