Как стать автором

Data Mining *

Глубинный анализ данных

Статьи Посты Новости Авторы Компании

beketovavenera 18 окт 2018 в 14:19

Видеозапись Data Science Meetup

1 мин

3K

Блог компании Kolesa GroupData Mining*Big Data*Машинное обучение*

11 октября провели у нас в офисе Data Science Meetup. Говорили про нагрузочное тестирование, компьютерное зрение и реализацию скоринговых карт.

Под катом — делимся видео и презентациями докладчиков.

Читать дальше →

+6

kruegger 18 окт 2018 в 14:00

Как правильно «фармить» Kaggle

27 мин

154K

Блог компании Open Data SciencePython*Data Mining*Математика*Машинное обучение*

*фарм — (от англ. farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.).

Введение

Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в качестве начального курса всем, кто хочет, как это теперь называется, "войти" в DS). И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Если вы зададите этот вопрос на любом профильном форуме, то ответ, скорее всего, будет один — иди решай Kaggle. Kaggle — это да, но с чего начать и как наиболее эффективно использовать эту платформу для прокачки практических навыков? В данной статье автор постарается на своем опыте дать ответы на эти вопросы, а также описать расположение основных грабель на поле соревновательного DS, чтобы ускорить процесс прокачки и получать от этого фан.

проверить глубину этой кроличьей норы

+85

digitalsibur 17 окт 2018 в 12:40

Хакатон по Data Science в СИБУРе: как это было

5 мин

6.2K

Блог компании Цифровой СИБУРData Mining*ХакатоныМашинное обучение*Прототипирование*

Привет!

С начала года мы провели около 10 хакатонов и воркшопов по всей стране. В мае мы вместе с AI-community организовывали хакатон по направлению «Цифровизация производства». До нас хакатон про data science на производстве ещё не делали, и сегодня мы решили подробно рассказать о том, как это было.

Цель была проста. Нужно было оцифровать наш бизнес на всех его этапах (от поставок сырья до производства и прямых продаж). Само собой, должны были решаться и задачи прикладного характера, например:

устранение простоев оборудования, технологических нарушений и сбоев;
повышение производительности и вместе с этим — качества продукции;
снижение затрат на логистику и закупки;
ускорение запуска и вывода на рынок новых продуктов.

В чём главная ценность таких задач? Правильно, в максимальном приближении к настоящим бизнес-кейсам, а не к абстрактным проектам. Первая задача уже подробно описана на Хабре одним из участников (спасибо, cointegrated Давид!). А второй задачей, вынесенной на хакатон, стала необходимость оптимизировать процесс совмещения плановых ремонтов ж/д-вагонов логистического парка. Это взяли прямо из нашего текущего бэклога, немного адаптировав для участников, дабы сделать её понятнее.

Итак, описание задачи.

+17

Shmidtk 17 окт 2018 в 10:17

Что было интереснго на DataVizDay в Минске

3 мин

1.2K

Data Mining*Визуализация данных*Конференции

В четверг 4 октября я побывал на конференции DataVizDay в Минске в качестве спикера. Поделюсь самыми интересными идеями и впечатлением от Миснка.

Ключевые идеи:

80% ваших усилий будет до BI и визуализации, потому что данные бывают или плохие или очень плохие и в основном вы будете тратить время на подготовку и сбор данных.
2.Тем не менее визуализация создает ценность вашего дата продукта. Без визуализации получается просто куча цифр.
К сожалению очень часто визуализация плохая, используют плохие подходы, типы графиков и гистограмм, перегружают представления деталями. В итоге часто мы видим Kill by powerpoint и обилие данные не добавляет прозрачности в аналитике.
Эксель продолжает занимать значительную роль в процессах. И часто компании не готовы перейти на что-то продвинутое. Но даже на экселе можно построить много чего интересного, потому что хорошая аналитика скорее начинается с чистоты и подготовки данных, а не с красивых дашбордов.

Читать дальше →

+6

dmitry_milenky 4 окт 2018 в 07:41

Поп-звезды под линзой искусственного интеллекта

9 мин

4.8K

Анализ и проектирование систем*Data Mining*Big Data*Научно-популярноеИскусственный интеллект

Intro

Образ поп звезд привлекает миллионные аудитории, он состоит из внешнего вида, музыки, поступков и конечно же текстов их песен.
О чем поют популярные исполнители? Во все времена темы одинаковые: любовь, одиночество, секс, развлечения, вечные ценности.

Однако наверняка вы и сами чувствовали, что от каждого исполнителя остается свой осадок в душе, свой привкус. И вроде бы слова одинаковые, а оттенки разные. И у каждого — свой.

Та картина, которую артист рисует своими словами — уникальна и отображает их внутренний мир, их психологические портреты.

В статье мы пробуем через призму AI заглянуть за завесу слов и различить за ними душу таких популярных звезд как Drake, Rihanna, Coldplay, Twenty One Pilots, Dua Lipa, The Chainsmokers и Katy Perry.
Нашли кого-то из любимых артистов и Вам хочется узнать их скрытые эмоции и переживания?

Читайте дальше о том, как современная технология обработки естественного языка от IBM Watson Personality Insights помогает «читать между строк» эмоции, потребности, ценности и психологические особенности.

Читать дальше →

+5

Jeditobe 27 сен 2018 в 23:53

Теневые профили пользователей: рекламщики в Фейсбуке найдут вас даже по непубличному номеру телефона

5 мин

8K

Информационная безопасность*Data Mining*Медийная реклама*Контекстная реклама*Социальные сети и сообщества

Четыре дня назад на Хабре очень много шума наделала статья "Наши с вами персональные данные ничего не стоят". А знаете ли вы, что это только вершина айсберга, и что в действительности все гораздо хуже? Что скажете, если у ваших недругов окажется не только ваши паспортные данные, но и список ваших покупок в аптеке или в магазине «для взрослых», который они добудут, перенаправив вас на подконтрольный сайт через персонализированное рекламное объявление?

Интересные подробности о системе таргетинговой и контекстной рекламы в Facebook выяснили исследователи из Бостонского университета и Принстона. Оказывается, рекламным агентства способны доставить персонализированную рекламу конкретному пользователю сети Facebook, используя его контактные данные, даже если тот не размещал их в самом профиле.

Скриншот объявления, сделанный Аланом Мисловом, с объяснением от Фейсбука, как «рекламодатель» отобрал его в свою аудиторию для показа

Кашмир Хилл, журналистка портала Gizmodo, пишет:

На прошлой неделе я запустила объявление в Facebook, которое было нацелено на профессора по информатике по имени Алан Мислов. Алан Мислов изучает, как конфиденциальность работает в социальных сетях и разработал теорию, согласно которой Facebook позволяет рекламодателям добираться до пользователей по контактной информации, собранной весьма нестандартными способами.

Я помогала ему проверить эту теорию, нацеливая рекламную кампанию на его аккаунт, таким способом, который по официальным рекомендациям от Facebook не должен был сработать. Я настроила рекламу для показа пользователю учетной запись Facebook, сопоставленной с номером стационарного телефона офиса Алана Мислова. Номером, который Мислов никогда не предоставлял в Facebook.

Алан Мислов увидел объявление всего через несколько часов

Читать дальше →

+26

Degun 26 сен 2018 в 18:16

Реализация минимизации логических функций методом Квайна\Мак-Класки при неполном входном наборе

23 мин

7.9K

.NET*Data Mining*Алгоритмы*C#*Машинное обучение*

Данная статья является, в некоторой степени, продолжением моей статьи по минимизации логических функций методом Квайна-Мак’Класки (https://habr.com/post/328506). В ней рассматривался случай с полностью определёнными логическими функциями (хотя этого в ней прямо не упоминалось, а только подразумевалось). В реальности такой случай встречается достаточно редко, когда количество входных переменных мало. Частично или не полностью определенными называются логические функции, значения которых заданы лишь для части Q из полного множества P=

$inline$ возможных наборов (термов) их аргументов (переменных) количеством N, т. е. Q < P. Такая ситуация встречается на практике в большинстве случаев применений алгоритмов оптимизации логических функций. Действительно, например, если число входных переменных N=30, что является заурядным случаем, например на финансовых рынках, то объём входной обучающей выборки должен составлять порядка

$2^{30}$ >

$inline$ элементарных уникальных термов. Такой массив данных встречается не в каждой даже очень крупной организации, не говоря уже о частных лицах, т. е. это уже сфера BigData, использования ЦОД-ов и т. д.

Поэтому на практике чаще всего минимизируемые логические функции будут определены не полностью просто в силу отсутствия необходимого количества накопленных данных или в силу разных других объективных причин (например, не хватает места для их хранения). Возникает вопрос о возможности «обхода» этой неприятности при использовании алгоритма, работающего с полностью определённым набором терм логической функции, таким как, например, из предыдущей моей статьи.

Читать дальше →

+18

GoodSpeed800 26 сен 2018 в 12:51

Блины с ICOй на питоне или как померять людей и проекты ICO

5 мин

1.5K

Python*Data Mining*Big Data*

Друзья, добрый день.

Есть четкое понимание, что большая часть ICO проектов это по сути своей совсем нематериальный актив. ICO проект это не автомобиль мерседес-бенц – который ездит вне зависимости от того что его кто любит или нет. И основное влияние на ICO оказывает настроение народа – как настрой на основателя\founder ICO, так и самого проекта.

Было бы хорошо как-то измерить настрой народа по отношению к основателю ICO и\или к ICO проекту. Что и было проделано. Отчет ниже.

Результатом стал инструмент сбора позитивного\негативного настроения из Интернетов, в частности из твиттера.

Моё окружение это Windows 10 x64, использовал язык Python 3 в редакторе Spyder в Anaconda 5.1.0, проводное подключение к сети.

Сбор данных

Настрой буду получать из постов твиттера. Сначала выясню, чем сейчас занимается основатель ICO и насколько положительно об этом отзываются на примере пары известных личностей.

Буду использовать python библиотеку tweepy. Для работы с твиттером необходимо в нем зарегистрироваться как разработчику, см. twitter/. Получить критерии доступа к твиттеру.

Читать дальше →

-1

elena_newprolab 25 сен 2018 в 14:58

«Если хочешь создать нечто действительно крутое, надо копать глубже и знать, как твой код работает в системе, на железе»

11 мин

8.1K

Блог компании New Professions LabJava*Data Mining*Big Data*

Хабр, привет! Интересно, как много программистов и разработчиков открыли для себя data science или data engineering, и строят успешную карьеру в области больших данных. Илья Маркин, Software engineer в Directual, — как раз один из разработчиков, перешедших в data engineering. Поговорили об опыте в роли тимлида, любимом инструменте в data engineering, Илья рассказал о конференциях и интересных профильных каналах джавистов, о Directual с пользовательской стороны и технической, о компьютерных играх и пр.

— Илья, спасибо, что нашел время встретиться. Поздравляю и с относительно недавним переходом в новую компанию, и с рождением дочки, хлопот и забот у тебя сейчас много. Сразу же первый вопрос: чем таким интересным тебе предложили заниматься в Directual, что ты ушел из DCA?

— Наверное, прежде надо рассказать, чем я в DCA занимался. В DCA (Data-Centric Alliance) я попал после прохождения программы «Специалист по большим данным». В тот момент я активно интересовался темой big data и понял, что это именно та область, в которой я хочу развиваться. Ведь там, где много данных, интересных инженерных проблем, которые необходимо решать, тоже предостаточно. Программа помогла мне довольно быстро погрузиться в экосистему мира биг дата, там я получил необходимые начальные знания о Hadoop, YARN, парадигме Map-Reduce, HBase, Spark, Flink, и многом другом, и о том, как это работает под высокой нагрузкой.

Читать дальше →

+10

blue_limon 25 сен 2018 в 00:44

Data mining Pubmed и Pubchem — баз медицинской и биохимической информации

6 мин

5.9K

Программирование*Data Mining*Биотехнологии

PubMed представляет собой более чем 28 миллионов цитированний (абстрактов и названий) биомедицинской литературы из журналов наук о жизни, онлайн книг и MEDLINE. Также цитирование может включать в себя полный текст статей. Типичный запрос в Пабмед — type 2 diabetes natural compound

Pubchem — база данных более 100 млн химический соединений и 236 млн веществ. Также в базе результаты биоактивности 1.25 млн соединений (например активность соединений против рака или ингибирования конкретного гена). На данный момент известно о 9 млн органических химических соединений (сложных веществ). Неорганических химических веществ может быть огромное количество — от 10**18

В этой статье я приведу примеры составления списка генов ответственных за плохой прогноз по выживаемости от рака и код поиска органических соединений и их номеров среди всех химических молекул базы ПабЧем. Никакого машинного обучения в этой статье не будет (машинное обучение понадобится в следующих статья по биомаркерам диабета, определения возраста человека по рнк-экспресии, скрининга противораковых веществ).

Читать дальше →

+8

Balexander 19 сен 2018 в 12:02

Применение Python для анализа смежных востребованных навыков у разработчиков

5 мин

8.5K

Python*Data Mining*

Из песочницы

Сегодня в Сети можно найти огромное количество разнородной информации о наиболее востребованных языках программирования, библиотеках, фреймворках, операционных системах и прочих сущностях — назовём их технологиями. Число этих технологий постоянно растёт и становится ясно, что каждому, желающему пойти путём разработчика, необходимо фокусироваться на изучении некоторого наиболее востребованного стека, связанного с какой-либо ключевой технологией.

Читать дальше →

+6

kucev 17 сен 2018 в 13:36

Создаем свой датасет с пришельцами

5 мин

15K

Python*Data Mining*Обработка изображений*Big Data*Машинное обучение*

Сегментацией людей с помощью нейронных сетей уже никого не удивишь. Есть много приложений, таких как Sticky Ai, Teleport Live, Instagram, которые позволяют выполнять такую сложную задачу на мобильном телефоне в реалтайме.

Итак, предположим планета Земля столкнулась с внеземными цивилизациями. И от пришельцев из звездной системы Альфа Центавра поступает запрос на разработку нового продукта. Им очень понравилось приложение Sticky Ai, которое позволяет вырезать людей и делать стикеры, поэтому они хотят портировать приложение на свой межгалактический рынок.

Читать дальше →

+11

McCow 10 сен 2018 в 11:57

Как Microsoft спрятала целый сервер и как его найти

4 мин

26K

Анализ и проектирование систем*Data Mining*Microsoft SQL Server*Администрирование баз данных*Microsoft Azure*

— Видишь SSAS-суслика?
— Нет…
— И я не вижу. А он есть!

Суслик SSAS

(Кадр из к/ф «ДМБ»)

Поддержка относительно новой табличной (табулярной) модели данных, в противовес устоявшейся многомерной OLAP, встроена в целый ряд продуктов компании Microsoft. Начиная с SQL-сервера (SS) и заканчивая Excel. И если с SS всё понятно – в нём содержится отдельный сепаратный продукт SQL Server Analysis Services (SSAS). А как же решена поддержка языка DAX-запросов и прочей табулярной функциональности в Power BI, SharePoint или Excel? Поищем «суслика» на примере Power BI Desktop.

Читать дальше →

+3

I_v_g 7 сен 2018 в 16:49

MongoDB и исследование рынка ИТ-вакансий

9 мин

7K

Python*SQL*Data Mining*NoSQL*MongoDB*

Из песочницы

Вы когда-нибудь анализировали вакансии?

Задавались вопросом, в каких технологиях наиболее сильна потребность рынка труда на текущий момент? Месяц назад? Год назад?

Как часто открываются новые вакансии Java-разработчиков в определенном районе Вашего города и как активно они закрываются?

В этой статье я расскажу Вам, как можно достичь желаемого результата и построить отчетную систему по интересующей нас теме. Поехали!

(Источник картинки)

Читать дальше →

+16

sismetanin 7 сен 2018 в 09:55

Анализ тональности текстов с помощью сверточных нейронных сетей

11 мин

58K

Блог компании VKPython*Data Mining*Big Data*Машинное обучение*

Туториал

Представьте, что у вас есть абзац текста. Можно ли понять, какую эмоцию несет этот текст: радость, грусть, гнев? Можно. Упростим себе задачу и будем классифицировать эмоцию как позитивную или как негативную, без уточнений. Есть много способов решать такую задачу, и один из них — свёрточные нейронные сети (Convolutional Neural Networks). CNN изначально были разработаны для обработки изображений, однако они успешно справляются с решением задач в сфере автоматической обработки текстов. Я познакомлю вас с бинарным анализом тональности русскоязычных текстов с помощью свёрточной нейронной сети, для которой векторные представления слов были сформированы на основе обученной Word2Vec модели.

Статья носит обзорный характер, я сделал акцент на практическую составляющую. И сразу хочу предупредить, что принимаемые на каждом этапе решения могут быть неоптимальными. Перед прочтением рекомендую ознакомиться с вводной статьей по использованию CNN в задачах обработки естественных языков, а также прочитать материал про методы векторного представление слов.

Читать дальше →

+34

phillennium 6 сен 2018 в 11:47

SmartData 2018: Первая отменённая конференция JUG.ru Group

3 мин

8.2K

Блог компании JUG Ru GroupData Mining*Машинное обучение*Конференции

Мы множество раз рассказывали на Хабре о том, какие IT-конференции проведём. А теперь впервые за историю этого блога сообщаем, что уже анонсированная конференция не состоится. Несмотря на то, что мы уже пригласили спикеров, забронировали площадку, сделали дизайн и поработали над многим другим, мы были вынуждены принять решение об отмене SmartData 2018.

Для тех, кому SmartData небезразлична, и для тех, кому интересно «почему мероприятие отменяется на такой стадии подготовки», под катом больше подробностей. Например, там можно узнать умное выражение «sunk cost fallacy», получив от печального события хоть какую-то пользу!

Читать дальше →

+37

AndreyGaskov 3 сен 2018 в 06:02

«Storytelling with Data», Cole Nussbaumer Knaflic: неформальный обзор-конспект книги

11 мин

14K

Блог компании True EngineeringData Mining*Визуализация данных*Машинное обучение*

«Наши сайнтисты сгенерировали кучу графиков, а мы совершенно не знаем, куда их девать. Давайте попробуем их хоть как-то пристроить». (с) подслушано

«Плохие графики везде. В моей работе я постоянно встречаю крайне сомнительные визуализации данных. Никто не делает плохие графики намеренно. Но это происходит. Опять и опять. В каждой компании во всех отраслях экономики сотрудниками всех уровней. Это происходит в СМИ. Это происходит там, где вы ожидаете, что люди должны уметь визуализировать данные». (с) автор книги

Это происходит и здесь, на Хабре: просматривая статьи в потоке «Визуализация данных», часто ловлю себя на мысли, что не понимаю и не могу схватить суть того, что отображено. В статье рассмотрим несколько примеров. И что самое неприятное для меня, это происходит и в моей работе тоже. Не постоянно, но чаще, чем хотелось бы.

Название книги «Storytelling with Data» звучало убедительно. Выбрал её для вечернего чтения и не пожалел. В книге нет формул, хитрых и необычных графиков, сложных кейсов. Понятный английский. Качественная печать. Читается как художественная литература. Книга будет полезна всем, кому приходится делать презентации на основе данных. Думаю, что особенную пользу она принесёт тем, кто занимается аналитикой данных.

Этот обзор очень неформальный: вперемешку идут мысли автора книги, мои мысли, ситуации из моей работы, а также шпаргалки по matplotlib по ссылкам. Будет много картинок. Почти все иллюстрации перерисованы из книги на Python.

Читать дальше →

+18

dmitrybugaychenko 1 сен 2018 в 21:33

Пара мыслей об особенностях Российского Data Science

1 мин

7.9K

Data Mining*Big Data*Машинное обучение*

Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Люди внимательно слушали, задавали вопросы, благодарили. Но то что произошло потом было очень показательно. Об этом под катом.

Читать дальше →

+23

wirex 31 авг 2018 в 17:00

Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью

7 мин

11K

Блог компании WirexData Mining*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Автор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов.

Теория и методы обработки данных упростили решение самых разных задач в сфере технологий. Сюда относится оптимизация поисковой выдачи Google, рекомендации в LinkedIn, формирование заголовков материалов на Buzzfeed. Однако работа с данными может ощутимо повлиять и на многие сектора экономики: от розничной торговли, телекоммуникаций, сельского хозяйства до здравоохранения, грузовых перевозок и пенитенциарных систем.

И все же термины «наука о данных», «теория и методы анализа данных» и «специалист по анализу данных» (data scientist) остаются понятны не до конца. На практике они употребляются для описания широкого спектра методов работы с информацией.

Что на самом деле делают специалисты по data science? Как ведущий подкаста DataFramed я получил замечательную возможность провести интервью более чем с 30 специалистами в области анализа данных из разнообразных отраслей и академических дисциплин. В числе прочего я всякий раз спрашивал, в чем именно состоит их работа.

Наука о данных — это действительно обширная область. Мои гости подходили к нашим беседам со всевозможных позиций и точек зрения. Они описывали самую разную деятельность, в том числе масштабные онлайн-фреймворки для разработки продуктов на booking.com и Etsy, используемые Buzzfeed методы решения задачи многорукого бандита в ходе оптимизации заголовков материалов и влияние, которое машинное обучение оказывает на принятие бизнес-решений в Airbnb.

Читать дальше →

+8

crazyhatter 30 авг 2018 в 11:39

Анатомия рекомендательных систем. Часть вторая

12 мин

33K

Блог компании ГК ЛАНИТData Mining*Алгоритмы*Big Data*Машинное обучение*

Неделю назад я делал здесь обзор существующих алгоритмов рекомендаций. В этой статье я продолжу данный обзор: расскажу об item-based варианте коллаборативной фильтрации, о методах, основанных на матричных разложениях, проблемах тестирования, а также о менее «раскрученных» (но не менее интересных) алгоритмах.

Читать дальше →

+39

1 2 ...

50