Открыть список
Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Исследование датасета с IMDB

Data MiningВизуализация данных
Из песочницы


Проблематика


Фильмы — это круто, фильмы вдохновляют нас, наполняют уверенностью, в общем дают нам многое. И поэтому в этой статье я бы хотел рассказать вам об исследовании тенденций современного кинематографа с помощью инструментов анализа данных, который уже был презентован в финале Science Slam ITMO University 2.0. Полный выпуск доступен здесь.
Читать дальше →
Всего голосов 39: ↑37 и ↓2 +35
Просмотры20.3K
Комментарии 27

Feature Engineering, о чём молчат online-курсы

Блог компании Mail.ru GroupData MiningBig DataМашинное обучениеУчебный процесс в IT


Sherlock by ThatsWhatSheSayd


Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у всех на виду. Мне кажется, что этим качеством должен обладать и каждый специалист по машинному обучению. Но тема Feature Engineering’а зачастую изучается в курсах по машинному обучению и анализу данных вскользь. В этом материале я хочу поделиться своим опытом обработки признаков с начинающими датасаентистами. Надеюсь, это поможет им быстрее достичь успеха в решении первых задач. Оговорюсь сразу, что в рамках этой части будут рассмотрены концептуальные методы обработки. Практическую часть по этому материалу совсем скоро опубликует моя коллега Osina_Anya.


Один из популярных источников данных для машинного обучения — логи. Практически в любой строчке лога есть время, а если это web-сервис, то там будут IP и UserAgent. Рассмотрим, какие признаки можно извлечь из этих данных.

Читать дальше →
Всего голосов 55: ↑52 и ↓3 +49
Просмотры22K
Комментарии 11

Как стать датасайнтистом, если тебе за 40 и ты не программист

Блог компании QIWIData MiningМашинное обучениеУчебный процесс в ITКарьера в IT-индустрии
Бытует мнение, что стать датасайентистом можно только имея соответствующее высшее образование, а лучше ученую степень.

Однако мир меняется, технологии становятся доступны и для простых смертных. Возможно, я кого-то удивлю, но сегодня любой бизнес-аналитик в состоянии освоить технологии машинного обучения и добиться результатов, конкурирующих с профессиональными математиками, и, возможно, даже лучших.

Дабы не быть голословным, я расскажу вам свою историю — как из экономиста я стал дата-аналитиком, получив необходимые знания через онлайн-курсы и участвуя в соревнованиях по машинному обучению.



Сейчас я ведущий аналитик в группе больших данных в QIWI, но еще три года назад я был довольно далек от датасайнс и об искусственном интеллекте слышал только из новостей. Но потом все изменилось, во многом благодаря Coursera и Kaggle.

Итак, обо всем по порядку.
Читать дальше →
Всего голосов 124: ↑118 и ↓6 +112
Просмотры130.1K
Комментарии 98

ok.tech: Data Толк

Блог компании ОдноклассникиData MiningBig DataМашинное обучение


UPD Презентации участников мероприятия доступны по ссылке

13 июня приглашаем всех, кто работает с данными, в московский офис Одноклассников, на ok.tech: Data Толк. Вместе с коллегами из OK.ru, Mail.ru Group, ivi.ru, Яндекс.Такси и других технологических компаний обсудим вопросы эволюции хранилищ и баз данных, поговорим о достоинствах и недостатках разных подходов к хранению данных, а также как эти подходы влияют на удобство разных команд по взаимодействию с данными.

Мероприятие пройдет в формате открытой дискуссии между спикерами и аудиторией, поэтому готовьте свои вопросы и не стесняйтесь их задавать. Модератором мероприятия будет Алексей Чернобровов.

Зарегистрироваться на мероприятие.

Под катом тезисы выступлений и расписание.
Читать дальше →
Всего голосов 13: ↑13 и ↓0 +13
Просмотры3K
Комментарии 1

Covid19, Ваше общество и Вы — с точки зрения Data Science. Перевод статьи Джереми Ховарда и Рейчел Томас (fast.ai)

Data MiningЗдоровьеData Engineering
Из песочницы
Привет, Хабр! Представляю вашему вниманию перевод статьи «Covid-19, your community, and you — a data science perspective» авторов Jeremy Howard (Джереми Ховарда) и Rachel Thomas.

От переводчика


В России проблема Covid-19 на данный момент стоит не так остро, но стоит понимать, что и в Италии две недели назад не было настолько критической ситуации. И лучше информировать общество заранее, чем сожалеть потом. В Европе многие не воспринимают эту проблему серьезно, и тем самым подвергают риску многих других людей — что сейчас видно на примере Испании (стремительный рост количества заболевших).

Статья


Мы — дата сайентисты, наша работа — анализировать и интерпретировать данные. И данные по covid-19 — повод для волнения. Наиболее уязвимые группы нашего общества, пожилые и малообеспеченные люди, находятся в зоне наибольшего риска, но для контроля распространения и влияния болезни мы все должны изменить наше привычное поведение. Мойте руки тщательно и часто, избегайте скоплений людей, отменяйте запланированные события и не трогайте лицо. В этом посте мы объясним, почему мы беспокоимся — и почему Вы тоже должны беспокоиться. Corona in Brief, написанная Итаном Элли (Ethan Alley) (президент нон-профита, который развивает технологии для уменьшения риска пандемий) — отличная статья, вкратце дающая всю ключевую информацию.
Читать дальше →
Всего голосов 12: ↑6 и ↓6 0
Просмотры4.8K
Комментарии 5

Распространение сферического коня в вакууме по территории РФ

Блог компании Open Data ScienceOpen sourcePythonData MiningЗдоровье


Привет от ODS. Мы откликнулись на идею tutu.ru поработать с их датасетом пассажиропотока РФ. И если в посте Milfgard огромная таблица выводов и научпоп, то мы хотим рассказать что под капотом.


Что, опять очередной пост про COVID-19? Да, но нет. Нам это было интересно именно с точки зрения математических методов и работы с интересным набором данных. Прежде, чем вы увидите под катом красивые картинки и графики, я обязан сказать несколько вещей:


  • любое моделирование — это очень сложный процесс, внутри которого невероятное количество ЕСЛИ и ПРЕДПОЛОЖИМ. Мы о них расскажем.
  • те, кто работал над этой статьей — не эпидемиологи или вирусологи. Мы просто группа любителей теории графов, практикующих методы моделирования сложных систем. Забавно, но именно в биоинформатике сейчас происходит наиболее существенный прогресс этой узкой области математики. Поэтому мы понимаем язык биологов, хоть и не умеем правильно обосновывать эпидемиологические модели и делать медицинские заключения.
  • наша симуляция всего лишь распространение сферического коня в вакууме по территории РФ. Не стоит относиться к этому серьезно, но стоит задуматься об общей картине. Она определенно интересная.
  • эта статья не существовала бы без датасета tutu.ru, за что им огромное спасибо.
  • мы хотим пригласить других заинтересованных исследователей в ODS.ai и под инициативой ML for Social Good (канал #ml4sg в ODS) вместе улучшать эту модель, чтобы получить опыт и возможность применять ее в будущем. Все интересные задачи, которые мы еще не решили, будут помечены в статье как TODO.

Под катом — результаты нашего марш-броска на датасет.

Читать дальше →
Всего голосов 100: ↑89 и ↓11 +78
Просмотры47.5K
Комментарии 36

Простая модель эпидемии базовыми инструментами Python

PythonВизуализация данных
Из песочницы

“Почему бы не разжечь эпидемию” — эта мысль пришла внезапно. Работа из дома при правильной организации может оказаться эффективнее офисной, в результате появляется честное дополнительное время на “подумать” над чем-нибудь еще.


Началось все, конечно, из построения ежедневной визуализации данных о COVID-19 Европейского центра контроля заболеваний. Простой алгоритм ежедневно в полдень рисует графики по обновляемым данным. В графиках привлекают внимание эффективные противоэпидемические действия Китая, когда эпидемия в начале марта пошла на спад. Но эстафету подхватывают страны Европы — сначала Италия (может помните как в конце февраля власти Милана просили вернуться туристов в город, т.к. страдает экономика?), дальше Испания.


image

Читать дальше →
Всего голосов 15: ↑12 и ↓3 +9
Просмотры4.4K
Комментарии 4

Роль математики в машинном обучении

Блог компании OTUSBig DataМатематикаМашинное обучение
Перевод

Прямо сейчас OTUS открывает набор на новый поток продвинутого курса "Математика для Data Science", в связи с этим хотим пригласить вас на бесплатный вебинар, в рамках которого наш эксперт - Петр Лукьянченко, подробно расскажет о программе курса, а также ответит на интересующие вас вопросы.

«Так ли необходимо разбираться в математике, лежащей в основе алгоритмов машинного обучения? В Python ведь уже есть масса широко доступных библиотек, которые можно без труда использовать для построения моделей!»

Я слышал это от дата-сайентистов любителей не один раз. Это заблуждение распространено куда больше, чем хотелось бы, и продолжает порождать наивные фантазии среди начинающих профессионалов в области обработки данных.

Давайте проясним это раз и навсегда - чтобы стать дата-сайентистом, вам нужно понимать математику, стоящую за алгоритмами машинного обучения. Это неотъемлемая часть роли специалиста по работе с данными, и каждый рекрутер и эксперт в области машинного обучения подтвердит это.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Просмотры3.3K
Комментарии 0

Делаем печатные ссылки кликабельными с помощью TensorFlow 2 Object Detection API

PythonМашинное обучениеИскусственный интеллект
Перевод

Links Detector Cover


TL;DR


В этой статье мы начнем решать проблему того, как сделать печатные ссылки в книгах или журналах кликабельными используя камеру смартфона.


С помощью TensorFlow 2 Object Detection API мы научим TensorFlow модель находить позиции и габариты строк https:// в изображениях (например в каждом кадре видео из камеры смартфона).


Текст каждой ссылки, расположенный по правую сторону от https://, будет распознан с помощью библиотеки Tesseract. Работа с библиотекой Tesseract не является предметом этой статьи, но вы можете найти полный исходный код приложения в репозитории links-detector repository на GitHub.


Запустить Links Detector со смартфона, чтобы увидеть конечный результат.

Открыть репозиторий links-detector на GitHub с полным исходным кодом приложения.

Вот так в итоге будет выглядеть процесс распознавания печатных ссылок:


Читать дальше →
Всего голосов 16: ↑16 и ↓0 +16
Просмотры3.3K
Комментарии 2