Articles / Bookmarks / Profile of Mangol31 / Habr

@Mangol31

Пользователь

Profile Publications Comments 63Bookmarks 27

fionaaya Nov 12 2019 at 17:28

Словарик айтишника или Что? Где? Куда? Часть 1

8 min

206K

IT TerminologyWrike corporate blogCommunity management*IT careerLifehacks for geeks

«Привет! Добро пожаловать! Спасибо, что приняла наш оффер. Пойдем знакомиться с твоей командой. У них как раз сейчас дейли. Ты вышла под конец спринта, поэтому пока работы для тебя не запланировали. Как стендап закончится, можешь почитать спеки, командные окиары и просмотреть бэклог на следующий спринт. По всем вопросам обращайся к своему пио.»

Это бессмыслица какая-то или деловой язык? Попробуем разобраться.

Читать дальше →

+17

157

slava_py Nov 7 2019 at 18:21

Конспект по «Машинному обучению». Математическая статистика. Метод максимального правдоподобия

3 min

12K

Mathematics*Machine learning*

Вспомним некоторые определения математической статистики

Пусть задано вероятностное пространство

$(\Omega, \Sigma, P)$ .

Определение 1:

Случайной величиной

$\xi = \xi(w)$ , принимающей значения в множестве

$inline$ c

$\sigma$ -алгеброй подмножеств

$\Phi$ называется любая

$(\Sigma, \Phi)$ -измеримая функция

$\xi \colon \Omega \to S$ , то есть

$\forall A \subseteq S, A \in \Phi$ выполняется условие

$\xi^{-1}(A)=\{\omega \in \Omega \space \colon \space \xi(w) \in A\} \in \Sigma$ .

Читать дальше →

AlexanderPetrenko Nov 5 2019 at 17:16

Решаем уравнение простой линейной регрессии

23 min

30K

Python*Mathematics*Machine learning*Artificial Intelligence

Tutorial

В статье рассматривается несколько способов определения математического уравнения линии простой (парной) регрессии.

Все рассматриваемые здесь способы решения уравнения основаны на методе наименьших квадратов. Обозначим способы следующим образом:

Аналитическое решение
Градиентный спуск
Стохастический градиентный спуск

Для каждого из способов решения уравнения прямой, в статье приведены различные функции, которые в основном делятся на те, которые написаны без использования библиотеки NumPy и те, которые для проведения расчетов применяют NumPy. Считается, что умелое использование NumPy позволит сократить затраты на вычисления.

Весь код, приведенный в статье, написан на языке python 2.7 с использованием Jupyter Notebook. Исходный код и файл с данными выборки выложен на гитхабе

Статья в большей степени ориентирована как на начинающих, так и на тех, кто уже понемногу начал осваивать изучение весьма обширного раздела в искусственном интеллекте — машинного обучения.

Для иллюстрации материала используем очень простой пример.

Читать дальше →

sahsAGU Nov 5 2019 at 10:00

7 бесплатных курсов для разработчиков от Microsoft

5 min

82K

Programming*.NET*Microsoft corporate blogMicrosoft Azure*Studying in IT

Привет, Хабр! Сегодня мы начинаем серию статей, в которую войдет 5 подборок бесплатных обучающих курсов от компании Microsoft. В этой статье у нас самые крутые курсы для разработчиков, которые сильнее всего нравятся программистам.

Кстати!

Все курсы бесплатные (вы даже сможете попробовать платные продукты бесплатно);
6/7 на русском языке;
Начать обучение можно мгновенно;
По окончании вы получите бейдж об успешном прохождении обучения.

Присоединяйтесь, подробности под катом!

Новая серия статей

8 самых новых курсов Microsoft Learn

10 бесплатных курсов для начинающих специалистов

10 бесплатных курсов для продвинутых специалистов

Следующая серия статей, начало 2020 года

5 бесплатных курсов для ИИ-инженеров

6 бесплатных курсов для безопасников

7 бесплатных курсов для специалистов по работе с данными (Data-Science и Data-Engineering)

Эта серия статей, 2019 год

7 бесплатных курсов для разработчиков

5 бесплатных курсов для IT-Администраторов

7 бесплатных курсов для архитекторов решений

6 самых свежих курсов по Azure

10 самых популярных курсов Microsoft на русском

Читать дальше →

+27

MaxRokatansky Oct 28 2019 at 17:45

Понимаем теорему Байеса

8 min

38K

Big Data*Mathematics*Machine learning*OTUS corporate blog

Translation

Перевод статьи подготовлен специально для студентов базового и продвинутого курсов «Математика для Data Science».

Теорема Байеса – одна из самых известных теорем в статистике и теории вероятности. Даже если вы не работаете с расчетами количественных показателей, вероятно, вам в какой-то момент пришлось познакомиться с этой теоремой во время подготовки к экзамену.

P(A|B) = P(B|A) * P(A)/P(B)

Вот так она выглядит, но что это значит и как работает? Сегодня мы это узнаем и углубимся в теорему Байеса.

Читать дальше →

+19

sashaeve Aug 14 2009 at 14:23

Кластеризация: алгоритмы k-means и c-means

3 min

171K

Data Mining*

Добрый день!

Как и обещал, продолжаю серию публикаций о технологии Data Mining. Сегодня хочу рассказать о двух алгоритмах кластеризации (k-means и c-means), описать преимущества и недостатки, дать некоторые рекомендации по их использованию. Итак, поехали…

Кластеризация — это разделение множества входных векторов на группы (кластеры) по степени «схожести» друг на друга.

Кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой из них отдельную стратегию (Википедия).

Читать дальше →

tomleto Oct 24 2019 at 11:29

План прокачки для получения профессии Data engineer

2 min

24K

Big Data*Data storages*

Последние восемь лет я работаю руководителем проектов (не пишу код на работе), что естественно негативно влияет на мой технологический бекэнд. Я решил сократить своё технологическое отставание и получить профессию Data engineer. Основной навык Data engineer — способность разрабатывать, строить и поддерживать хранилища данных.

Составил план обучения, думаю он будет полезен не только для меня. План ориентирован на самостоятельное изучение курсов. Приоритет отдается бесплатным курсам на русском языке.

Разделы:

Алгоритмы и структуры данных. Ключевой раздел. Изучишь его — всё остальное тоже получится. Важно набить руку в написании кода и использовании основных структур и алгоритмов.
Базы и хранилища данных, Business Intelligence. От алгоритмов переходим в хранению и обработке данных.
Hadoop and Big Data. Когда база не входит на винчестер, или когда данные нужно анализировать, но Excel уже не может их загрузить начинаются большие данные. На мой взгляд, переходить к этому разделу нужно только после глубокого изучения двух предыдущих.

Читать дальше →

sadr0b0t Oct 21 2019 at 23:04

Градиентный спуск по косточкам

37 min

60K

Python*Algorithms*Mathematics*Machine learning*Artificial Intelligence

В интернете есть много статей с описанием алгоритма градиентного спуска. Здесь будет еще одна.

8 июля 1958 года The New York Times писала: «Психолог показывает эмбрион компьютера, разработанного, чтобы читать и становиться мудрее. Разработанный ВМФ… стоивший 2 миллиона долларов компьютер "704", обучился различать левое и правое после пятидесяти попыток… По утверждению ВМФ, они используют этот принцип, чтобы построить первую мыслящую машину класса "Перцептрон", которая сможет читать и писать; разработку планируется завершить через год, с общей стоимостью $100 000… Ученые предсказывают, что позже Перцептроны смогут распознавать людей и называть их по имени, мгновенно переводить устную и письменную речь с одного языка на другой. Мистер Розенблатт сказал, что в принципе возможно построить "мозги", которые смогут воспроизводить самих себя на конвейере и которые будут осознавать свое собственное существование» (цитата и перевод из книги С. Николенко, «Глубокое обучение, погружение в мир нейронный сетей»).

Ах уж эти журналисты, умеют заинтриговать. Очень интересно разобраться, что на самом деле представляет из себя мыслящая машина класса «Перцептрон».

Читать дальше →

+35

YaphetS7 Oct 14 2019 at 18:48

Линейная регрессия и градиентный спуск

3 min

22K

Python*Machine learning*

From sandbox

Пусть в некоторой предметной области исследуются показатели X и Y, которые имеют количественное выражение.

При этом есть все основания полагать, что показатель Y зависит от показателя X. Это положение может быть как научной гипотезой, так и основываться на элементарном здравом смысле. К примеру, возьмем продовольственные магазины.

Обозначим через:

X — торговую площадь(кв. м.)

Y — годовой товарооборот(млн. р.)

Очевидно, что чем выше торговая площадь, тем выше годовой товарооборот(предполагаем линейную зависимость).

Представим, что у нас есть данные о некоторых n магазинах(торговая площадь и годовой товарооборот) — наш датасет и k торговых площадей(X), для которых мы хотим предсказать годовой товарооборот(Y) — наша задача.

Выдвинем гипотезу, что наше значение Y зависит от X в виде: Y = a + b * X

Чтобы решить нашу задачу, мы должны подобрать коэффициенты a и b.

Читать дальше →

ph_piter Oct 12 2019 at 13:49

Грокаем PyTorch

10 min

18K

Python*Algorithms*Издательский дом «Питер» corporate blogProfessional literature*Machine learning*

Translation

Привет, Хабр!

У нас в предзаказе появилась долгожданная книга о библиотеке PyTorch.

Поскольку весь необходимый базовый материал о PyTorch вы узнаете из этой книги, мы напоминаем о пользе процесса под названием «grokking» или «углубленное постижение» той темы, которую вы хотите усвоить. В сегодняшней публикации мы расскажем, как Кай Арулкумаран (Kai Arulkumaran) грокнул PyTorch (без картинок). Добро пожаловать под кат.

Читать дальше →

Matshishkapeu Oct 10 2019 at 09:40

О прелестях перехода на панель и не только

5 min

5.8K

Python*Data visualization*Infographics

Tutorial

Как очевидно из заголовка, речь пойдет о библиотеке Panel, которая позволяет конвертировать Jupyter блокноты в безопасные веб приложения, где начинка скрыта от нетехнических пользователей, но остается свобода манипулирования внутренними параметрами, то есть не просто перестраивать данные, но и делать запросы в кернел. TL;DR Shiny for Python.

Читать дальше →

darsus Oct 8 2019 at 18:02

Подготовка данных в Data Science-проекте: рецепты для молодых хозяек

10 min

21K

Data Mining*Big Data*

В предыдущей статье я рассказывала про структуру Data Science-проекта по материалам методологии IBM: как он устроен, из каких этапов состоит, какие задачи решаются на каждой стадии. Теперь я бы хотела сделать обзор самой трудоемкой стадии, которая может занимать до 90% общего времени проекта: это этапы, связанные с подготовкой данных －сбор, анализ и очистка.

В оригинальном описании методологии Data Science-проект сравнивается с приготовлением блюда, а аналитик － с шеф поваром. Соответственно, этап подготовки данных сравнивается с подготовкой продуктов: после того, как на этапе анализа бизнес-задачи мы определились с рецептом блюда, которое будем готовить, необходимо найти, собрать в одном месте, очистить и нарезать ингредиенты. Соответственно, от того, насколько качественно был выполнен этот этап, будет зависеть вкус блюда (предположим, что с рецептом мы угадали, тем более рецептов в открытом доступе полно). Работа с ингредиентами, то есть подготовка данных － это всегда ювелирное, трудоемкое и ответственное дело: один испорченный или недомытый продукт － и весь труд впустую.

Читать дальше →

JamaGava Oct 8 2019 at 11:55

Нескучный туториал по NumPy

19 min

219K

Python*Programming*Perfect code*Algorithms*

Tutorial

Меня зовут Вячеслав, я хронический математик и уже несколько лет не использую циклы при работе с массивами…

Ровно с тех пор, как открыл для себя векторные операции в NumPy. Я хочу познакомить вас с функциями NumPy, которые чаще всего использую для обработки массивов данных и изображений. В конце статьи я покажу, как можно использовать инструментарий NumPy, чтобы выполнить свертку изображений без итераций (= очень быстро).

Не забываем про

import numpy as np

и поехали!

Читать дальше →

+26

Impressive_i Oct 8 2019 at 03:38

Интеграл Эйлера — Пуассона. Подробно о способах вычисления

4 min

50K

Algorithms*Mathematics*Statistics in ITPhysics

В статье подробно, вплоть до самых мелочей, рассмотрены три способа взятия интеграла Эйлера-Пуассона. В одном из способов выводится вспомогательная формула редукции. Для нахождения некоторых сложных интегралов можно использовать формулы редукции, которые позволяют понизить степень подынтегрального выражения и вычислить соответствующие интегралы за конечное число шагов.

Читать дальше →

+13

kolarist Oct 7 2019 at 20:53

Способы создания гистограмм с помощью Python

2 min

165K

Python*

From sandbox

За последний год я сталкивалась с необходимостью рисования гистограмм и столбчатых диаграмм достаточно часто для того, чтобы появилось желание и возможность об этом написать. Кроме того, мне самой довольно сильно не хватало подобной информации. В этой статье приведен обзор 3 методов создания таких графиков на языке Python.

Начнем с того, чего я сама по своей неопытности не знала очень долго: столбчатые диаграммы и гистограммы — разные вещи. Основное отличие состоит в том, что гистограмма показывает частотное распределение — мы задаем набор значений оси Ox, а по Oy всегда откладывается частота. В столбчатой диаграмме (которую в англоязычной литературе уместно было бы назвать barplot) мы задаем и значения оси абсцисс, и значения оси ординат.

Для демонстрации я буду использовать избитый набор данных библиотеки scikit learn Iris. Начнем c импортов:

import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from sklearn import datasets
iris = datasets.load_iris()

Преобразуем набор данных iris в dataframe — так нам удобнее будет с ним работать в будущем.

data = pd.DataFrame(data= np.c_[iris['data'], iris['target']], columns= iris['feature_names'] + ['target'])

Из интересующих нас параметров data содержит информацию о длине чашелистиков и лепестков и ширине чашелистиков и лепестков.

Используем Matplotlib
Построение гистограммы
Cтроим обычную гистограмму, показывающую частотное распределение длин лепестков и чашелистиков:

fig, axs = plt.subplots(1, 2)
n_bins = len(data)
axs[0].hist(data['sepal length (cm)'], bins=n_bins)
axs[0].set_title('sepal length')
axs[1].hist(data['petal length (cm)'], bins=n_bins)
axs[1].set_title('petal length')

Читать дальше →

+15

WhiteBlackGoose Sep 21 2019 at 13:38

50 оттенков matplotlib — The Master Plots (с полным кодом на Python)

39 min

364K

Python*Data visualization*Machine learning*Matlab*

Translation

Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала проанализировать корреляции, выбрать нужные данные, выкинуть ненужные и так далее. Для подобных целей часто используется визуализация с помощью библиотеки matplotlib.

Встретимся «внутри»!

Читать дальше →

+67

zoldaten Sep 17 2019 at 22:00

Как оптимизировать pandas при работе с большими datasetами (очерк)

3 min

9.4K

Python*

Tutorial

Когда памяти вагоны и/или dataset небольшой можно смело закидывать его в pandas безо всяких оптимизаций. Однако, если данные большие, остро встает вопрос, как их обрабатывать или хотя бы считать.

Предлагается взглянуть на оптимизацию в миниатюре, дабы не вытаскивать из сети гигантские датасеты.

В качестве датасета будем использовать хабрастатистику с комментариями пользователей за 2019 г., которая является общедоступной благодаря одному трудолюбивому пользователю:
dataset

В качестве инфо-основы будет использоваться ранее переведенная статья с Хабра, в которой намешано много интересного.

Читать дальше →

DellTechTeam Apr 22 2019 at 11:32

Dell Latitude 5491: строгий корпоративный ноутбук с мощным процессором

9 min

21K

Dell Technologies corporate blogComputer hardwareDesktop PC'sLaptops

Найти компактный ноутбук с мощным процессором не так-то просто. В подавляющее большинство моделей с диагоналями экранов менее 15 дюймов устанавливаются низковольтные процессоры Intel Core U. Что делать, если нужна существенно большая производительность CPU? Для таких случаев есть Dell Latitude 5491. Строгий и достаточно компактный 14-дюймовый ноутбук корпоративного класса с шестиядерными процессорами и дискретной графикой внутри. Сегодня рассказываем о нём подробно – добро пожаловать под кат.

Читать дальше →

pushtaev Sep 5 2019 at 16:19

Подборка @pythonetc, август 2019

4 min

7.4K

Python*Programming*VK corporate blog

Новая подборка советов про Python и программирование из моего авторского канала @pythonetc.

← Предыдущие подборки

Если у экземпляра класса нет атрибута с заданным именем, то он пытается обратиться к атрибуту класса с тем же именем.

>>> class A:
...     x = 2
...
>>> A.x
2
>>> A().x
2

Читать дальше →

+49

Syurmakov Sep 3 2019 at 10:17

Полезная help-ссылка для работы с данными

3 min

Python*VK corporate blogData Mining*Big Data*

Хабр, привет. Представляю вам главную help-ссылку для работы с данными. Материал в Гугл-доке подойдет как профессионалам, так и тем, кто только учится работать с данными. Пользуйтесь и прокачивайте скиллы сами + делитесь с коллегами.

Дальнейшее описание поста — это содержание help-ссылки. Поэтому, можете сразу ознакомиться с документом. Либо начать с её содержания, которую прикрепляю ниже.

Конечно, весь список книг/сервисов/видео и лекций в файле неполный. Поэтому предлагаю сделать этот пост ценнейшим — добавляйте в комментарии свои полезные ссылки, самые крутые из них я добавлю к себе в файл.

Читать дальше →

+46