How to become an author

Vladimir Mladov @vmladov

Health Technology Assessment

Profile Publications 1Comments 13Bookmarks 38

snikolenko Jul 24 2020 at 16:44

MCMC-методы и коронавирус: часть первая, вступительная

8 min

2.8K

VK corporate blogAlgorithms*Mathematics*Machine learning*Studying in IT

Привет, коллеги! Сто лет не писал на Хабр, но вот время настало. Весной этого года я вёл курс «Advanced ML» в Академии больших данных MADE от Mail.ru Group; кажется, слушателям понравилось, и вот сейчас меня попросили написать не столько рекламный, сколько образовательный пост об одной из тем моего курса. Выбор был близок к очевидному: в качестве примера сложной вероятностной модели мы обсуждали крайне актуальную (казалось бы… но об этом позже) в наше время эпидемиологическую SIR-модель, которая моделирует распространение болезней в популяции. В ней есть всё: и приближённый вывод через марковские методы Монте-Карло, и скрытые марковские модели со стохастическим алгоритмом Витерби, и даже presence-only data.

С этой темой вышло только одно небольшое затруднение: я начал было писать о том, что я собственно рассказывал и показывал на лекции… и как-то быстро и незаметно набралось страниц двадцать текста (ну ладно, с картинками и кодом), который всё ещё не был закончен и совершенно не был self-contained. А если рассказывать всё так, чтобы было понятно с «нуля» (не с абсолютного нуля, конечно), то можно было бы и сотню страниц написать. Так что когда-нибудь я их обязательно напишу, а сейчас пока представляю вашему вниманию первую часть описания SIR-модели, в которой мы сможем только поставить задачу и описать модель с её порождающей стороны — а если у уважаемой публики будет интерес, то можно будет и продолжить.

Читать дальше →

+23

avecoder Jun 21 2020 at 12:17

Прощай, Google! 15 Альтернативных поисковиков, которые не шпионят, а сажают деревья и раздают воду

5 min

235K

Search engines*EcologyIT-companies

Аве Кодер!

В этой статье речь пойдет о крутых инди поисковиках, которые могут составить конкуренцию поисковым гигантам, а также удовлетворить вкусы как утонченного мусьё, так и идейного борца за личную жизнь.

Читать дальше →

+46

ashagraev Jun 11 2020 at 09:09

Агломеративная кластеризация: алгоритм, быстродействие, код на GitHub

6 min

15K

High performance*Open source*Яндекс corporate blogAlgorithms*Mathematics*

Несколько лет назад мне потребовалось очень качественно кластеризовать относительно неплотные графы среднего размера (сотни тысяч объектов, сотни миллионов связей). Тогда оказалось, что алгоритма с подходящим набором свойств просто не существует, несмотря на всё разнообразие методов, придуманных человечеством за многие десятилетия. Имеющиеся решения работали либо просто очень плохо, либо очень плохо и к тому же медленно.

К счастью, оказалось, что идеи, заложенные в метрики качества кластеризации, о которых я рассказывал в прошлой статье, можно адаптировать и создать на их основе алгоритм кластеризации. Он достигает очень высоких показателей качества и к тому же работает очень быстро благодаря некоторым удачным аналитическим свойствам оптимизируемых величин. Алгоритм относится к классу агломеративных: основной операцией является слияние нескольких уже имеющихся кластеров в один более крупный кластер.

Об этом алгоритме и пойдёт речь в статье. Под катом читателей ждут математическое описание алгоритма, техники уменьшения его временной сложности, код на GitHub и модельные наборы данных.

Читать дальше →

+22

neon1ks Mar 11 2020 at 15:48

Создание виртуальных окружений и установка библиотек для Python 3 в IDE PyCharm

8 min

331K

Python*Programming*

Язык программирования Python считается достаточно простым. На нем легче и быстрее пишутся программы, по сравнению с компилируемыми языками программирования. Для Python существует множество библиотек, позволяющих решать практически любые задачи. Есть, конечно, и минусы и другие нюансы, но это отдельная тема.

Довольно часто я вижу, как мои знакомые и друзья начинают изучать Python и сталкиваются с проблемой установки и использования сторонних библиотек. Они могут несколько часов потратить на установку библиотеки, и даже, могут не справиться с этим и забить на неё. В то время как, в большинстве случаев, это можно было сделать за несколько минут.

Статья начинается с базовых вещей: с установки Python 3, инструментов разработки Pip и Virtualenv и среды разработки PyCharm в Windows и в Ubuntu. Для многих это не представляет трудностей и возможно, что уже всё установлено.

После чего будет то, ради чего задумывалась статья, я покажу как в PyCharm создавать и использовать виртуальные окружения и устанавливать в них библиотеки с помощью Pip.

Читать дальше →

+9

FooBar167 Jan 1 2020 at 23:10

Письмо начинающему изучать Data Science

2 min

63K

Python*Programming*Image processing*Machine learning*Artificial Intelligence

Я бы хотел получить такое письмо три года назад, когда только начинал изучать Data Science (DS). Чтобы там были необходимые ссылки на полезные материалы. Статья не претендует на полноту охвата необъятной области DS. Однако для начинающего специалиста будет полезна.

Нейронные сети – это...

Читать дальше →

+28

i_shutov Dec 26 2019 at 12:31

R, Монте-Карло и enterprise задачи

3 min

3.3K

При решении практических задач с завидной регулярностью приходится сталкиваться с двумя типовыми подходами, которые выдвигаются на совещаниях или витают в воздухе.

Вариант 1 — давайте решать частную задачу в общем виде. Решив ее таким образом, мы сможем попутно много чего еще порешать.
Вариант 2 — давайте для предсказания поведения нелинейной системы притянем сюда прогнозы, ML и массу модных штучек. Круто ведь.

Однако не всегда применение таких подходов адекватно исходной постановке задачи.
Является продолжением предыдущих публикаций.

Читать дальше →

+5

sovesttut Dec 2 2019 at 15:59

Эффективные и не эффективные методы кодинга на Python

7 min

27K

Python*Programming*

Привет, Хабр! Предлагаю Вашему вниманию перевод статьи Good and Bad Practices of Coding in Python автора Duomly.

Python – высокоуровневый язык программирования, акцентирующий внимание на удобочитаемости. Он разрабатывается, поддерживается и часто используется в соответствии с The Zen of Python или PEP 20.

В этой статье показано несколько примеров хороших и плохих методов кодинга в Python, с которыми вы, вероятно, столкнетесь.

Читать дальше →

+28

EugeneBang Nov 28 2019 at 14:00

Как я решал соревнование по машинному обучению data-like

7 min

19K

Python*Programming*Data Mining*Machine learning*Open Data Science corporate blog

Привет, Хабр. Недавно прошло соревнование от Тинькофф и McKinsey. Конкурс проходил в два этапа: первый — отборочный, в kaggle формате, т.е. отсылаешь предсказания — получаешь оценку качества предсказания; побеждает тот, у кого лучше оценка. Второй — онсайт хакатон в Москве, на который проходит топ 20 команд первого этапа. В этой статье я расскажу об отборочном этапе, где мне удалось занять первое место и выиграть макбук. Команда на лидерборде называлась "дети Лёши".

Соревнование проходило с 19 сентября до 12 октября. Я начал решать ровно за неделю до конца и решал почти фулл-тайм.

Краткое описание соревнования:

Летом в банковском приложении Тинькофф появились stories (как в Instagram). На story можно отреагировать лайком, дизлайком, скипнуть или просмотреть до конца. Задача предсказать реакцию пользователя на story.

Соревнование по большей части табличное, но в самих историях есть текст и картинки.

Читать дальше →

+26

rssdev10 Nov 15 2019 at 11:45

Julia NLP. Обрабатываем тексты

27 min

6K

Programming*Julia*Natural Language Processing*

Tutorial

Анализ и обработка текстов на естественном языке является постоянно актуальной задачей, которая решалась, решается и будет решаться всеми доступными способами. На сегодня хотелось бы поговорить о средствах решения для решения этой задачи, именно, на языке Julia. Безусловно, в виду молодости языка, здесь нет столь развитых средств анализа, как, например Stanford CoreNLP, Apache OpenNLP, GATE и пр., как, например, для языка Java. Однако, даже уже разработанные библиотеки, вполне могут использоваться как для решения типовых задач, так и быть рекомендованными в качестве точки входа для студентов, которым интересна область обработки текстов. А синтаксическая простота Julia и её развитые математические средства, позволяют с лёгкостью погрузиться в задачи кластеризации и классификации текстов.

Читать дальше →

+17

m31 Oct 31 2019 at 14:17

Data Science Digest (October 2019)

2 min

3.9K

Python*Algorithms*Big Data*Machine learning*Artificial Intelligence

Приветствую всех!

Встречайте свежий выпуск дайджеста c подборкой интересных и полезных материалов под катом.

Читать дальше →

+9

rishat_edison Nov 1 2019 at 17:55

Python за месяц

6 min

111K

Python*Programming*Edison corporate blogStudying in IT

Translation

Руководство для абсолютных ~~чай~~новичков.
(Прим. пер.: это советы от автора-индуса, но вроде дельные. Дополняйте в комментах.)

Месяц — это много времени. Если тратить на обучение по 6-7 часов каждый день, то можно сделать дофига.

Цель на месяц:

Ознакомиться с основными понятиями (переменная, условие, список, цикл, функция)
Освоить на практике более 30 проблем программирования
Собрать два проекта, чтобы применить на практике новые знания
Ознакомиться хотя бы с двумя фреймворками
Начать работу с IDE (средой разработки), Github, хостингом, сервисами и т. д.

Так вы станете младшим разработчиком (джуном) Python.

Теперь план по неделям.

Читать дальше →

+16

tomleto Oct 24 2019 at 11:29

План прокачки для получения профессии Data engineer

2 min

24K

Big Data*Data storages*

Последние восемь лет я работаю руководителем проектов (не пишу код на работе), что естественно негативно влияет на мой технологический бекэнд. Я решил сократить своё технологическое отставание и получить профессию Data engineer. Основной навык Data engineer — способность разрабатывать, строить и поддерживать хранилища данных.

Составил план обучения, думаю он будет полезен не только для меня. План ориентирован на самостоятельное изучение курсов. Приоритет отдается бесплатным курсам на русском языке.

Разделы:

Алгоритмы и структуры данных. Ключевой раздел. Изучишь его — всё остальное тоже получится. Важно набить руку в написании кода и использовании основных структур и алгоритмов.
Базы и хранилища данных, Business Intelligence. От алгоритмов переходим в хранению и обработке данных.
Hadoop and Big Data. Когда база не входит на винчестер, или когда данные нужно анализировать, но Excel уже не может их загрузить начинаются большие данные. На мой взгляд, переходить к этому разделу нужно только после глубокого изучения двух предыдущих.

Читать дальше →

+9

MaxRokatansky Oct 8 2019 at 16:11

Математика для Data Science. Новый курс от OTUS

3 min

9.8K

Mathematics*Machine learning*IT careerOTUS corporate blog

Всем привет, сегодня хотим поговорить о запуске нового курса «Математика для Data Science», а точнее целой серии курсов, подробнее об этом в нашей публикации.

Не все, учась в школе, понимают, как в жизни им пригодится математика. Самый распространенный ответ – считать деньги, но не все рождаются крутыми финансистами. Это понимают и учителя математики, поэтому часто преподают через пень-колоду. И вот человек школу закончил, зачем нужна математика, так и не понял, но деньги считать (и свои, и чужие) научился, посчитал и захотел работать в IT, например, в сфере машинного обучения, чтобы зарабатывать немало. Тут-то и стало ясно, для чего нужна математика! Но школа, как и институт, уже давно прошли…

Читать дальше →

+14

JamaGava Oct 8 2019 at 11:55

Нескучный туториал по NumPy

19 min

219K

Python*Programming*Perfect code*Algorithms*

Tutorial

Меня зовут Вячеслав, я хронический математик и уже несколько лет не использую циклы при работе с массивами…

Ровно с тех пор, как открыл для себя векторные операции в NumPy. Я хочу познакомить вас с функциями NumPy, которые чаще всего использую для обработки массивов данных и изображений. В конце статьи я покажу, как можно использовать инструментарий NumPy, чтобы выполнить свертку изображений без итераций (= очень быстро).

Не забываем про

import numpy as np

и поехали!

Читать дальше →

+26

Syurmakov Jul 17 2019 at 00:32

Галерея лучших блокнотов по ML и Data Science

3 min

33K

Python*Data Mining*Big Data*Machine learning*

Привет, читатель.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

Итак, приступим.

Вводные курсы в Jupyter Notebook

Читать дальше →

+27

i_shutov Apr 22 2019 at 10:19

Как начать применять R в Enterprise. Пример практического подхода

2 min

2.7K

Data Mining*Big Data*R*

Публикация по выступлению на секции R meetup @ Moscow Data Science Major (Spring 2019).
Вся презентация в pdf формате.

Почему этот вопрос актуален?

Бизнес-кейсы различны, техническая суть одинакова

Аналитика работы колл-центра
Аналитика продаж, включая прогнозы
Антифрод системы
Business process mining
Различные аудиты (технические, финансовые)
Складские и логистические задачи
Activity-based costing
Business-process monitoring
Log-based аналитика
Capacity management
Текстовая аналитика (e-mail, service-desk)
"Гибкие" дашборды и отчеты
"интеллектуальные шины" между учетными системами (1С, СКУД, SAP, ...) и исполнительными
...

Является продолжением предыдущих публикаций.

Читать дальше →

+10

fokus-lop Apr 5 2019 at 17:33

Создаем анимированные гистограммы при помощи R

4 min

7.6K

Programming*Image processing*R*Studying in ITSkillbox corporate blog

Translation

Анимированные гистограммы, которые можно встроить прямо в публикацию на любом сайте, становятся все более популярными. Они отображают динамику изменений любых характеристик за определенное время и делают это наглядно. Давайте посмотрим, как их создать при помощи R и универсальных пакетов.

Читать дальше →

+29

Yermack Mar 12 2019 at 21:50

6 нежданчиков от Джулии

19 min

9.5K

High performance*Programming*Julia*

Наконец-таки появилось русскоязычное руководство по языку Julia. Там реализовано полноценное введение в язык для тех, у кого мало опыта в программировании (остальным будет полезно для общего развития), так же имеется введение в машинное обучение и куча заданий для закрепления материала.

Во время поисков наткнулся на курс программирования для экономистов (помимо Джулии там есть и Питон). Опытные могут пробежаться по экспресс курсу или ознакомиться с книгой How to Think Like a Computer Scientist

Далее предоставлен перевод материала из блога Christopher Rackauckas 7 Julia Gotchas and How to Handle Them

Читать дальше →

+22

Plarium Mar 6 2019 at 12:44

Математика для Data Scientist: необходимые разделы

3 min

94K

Data Mining*Big Data*Mathematics*Plarium corporate blogReading room

Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко анализировать и систематизировать огромные массивы данных.

Для специалиста Data Science важны следующие направления математики:

статистика;
теория вероятностей;
математический анализ;
линейная алгебра.

В предыдущей статье «Data Science: книги для начального уровня» специалисты Plarium Krasnodar рекомендовали литературу по программированию на Python, а также по визуализации результатов и machine learning. В этой статье они предлагают подборку материалов и книг по математике, полезных в Data Science.

Читать дальше →

+12

fokus-lop Mar 1 2019 at 15:30

10 Git-команд, которые стоит знать разработчику

4 min

90K

Programming*Git*Studying in ITSkillbox corporate blog

Translation

В этой статье мы обсудим разные Git-команды, которые могут оказаться полезными для разработчика или специалиста по Big Data. Вы узнаете, как проверять, удалять и приводить код в порядок. А еще рассмотрим способы выхода из Vim и экономию времени с помощью псевдонимов Bash и конфигурации редактора Git.

Читать дальше →

+11

1