Как стать автором
Обновить
78.74
Рейтинг
Plarium
Разработчик мобильных и браузерных игр

Математика для Data Scientist: необходимые разделы

Блог компании PlariumData MiningBig DataМатематикаЧитальный зал
Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко анализировать и систематизировать огромные массивы данных.

Для специалиста Data Science важны следующие направления математики:

  • статистика;
  • теория вероятностей;
  • математический анализ;
  • линейная алгебра.

В предыдущей статье «Data Science: книги для начального уровня» специалисты Plarium Krasnodar рекомендовали литературу по программированию на Python, а также по визуализации результатов и machine learning. В этой статье они предлагают подборку материалов и книг по математике, полезных в Data Science.



Статистика и теория вероятностей


Сложно переоценить важность знания статистики для Data Scientist любого уровня. Все классическое machine learning основано на statistical learning. Более того, на нем же основываются стандартные A/B-тесты.

Источники для вдохновения:



All of Statistics
Larry Wasserman


Как пишет сам автор: «This book is for people who want to learn probability and statistics quickly».

В книге даются все основные положения теории вероятностей и статистики.



Основы статистики (3 части)
Образовательная платформа Stepik


Курс по статистике для новичков. Охватывает все элементарные понятия.



Statistics Fundamentals Succinctly Katharine
Alexis Kormanik

В предыдущей статье уже была рекомендована эта книга, но повторить будет не лишним. :-)

В первых разделах приведены основные определения с иллюстрациями и комментариями, в последних раскрывается значимость T- и Z-тестов. Материалы изложены доступным языком, с минимально необходимым математическим аппаратом. Это руководство — отличное введение в статистику с точки зрения практики.



Теория вероятностей и математическая статистика
Н. Ш. Кремер


Учебник ориентирован на экономистов, поэтому сложность и глубина понятий не шокирует новичка в Data Science. Подходит для изучения основ перед погружением в профильную литературу.



Теория вероятностей и математическая статистика
А. И. Кибзун, Е. Р. Горяинова, А. В. Наумов, А. Н. Сиротин


Этот базовый курс дает более глубокие представления, чем предыдущий. Кроме
теории включает практические задания и справочные материалы.



Основные понятия теории вероятностей и математической статистики
М. Я. Кельберт, Ю. М. Сухов


Прекрасный вариант для тех, кто уже хорошо знаком с темой и хочет получить более глубокие знания.

Математический анализ


На первый взгляд это направление необходимо больше в стенах университетов, однако без него не удастся разобраться с backpropagation или качественно освоить курс по deep learning.

Восполнив пробелы в статистике, самое время приступить к изучению материалов по этому разделу. А их превеликое множество.



Calculus
edX


Курс от Массачусетского технологического института, состоящий из 3 частей:

  • Calculus 1A: Differentiation — курс о нахождении производной, ее геометрической интерпретации и физическом смысле.
  • Calculus 1B: Integration — курс о нахождении интеграла, его связи с производной и применении в инженерном проектировании, научном анализе, теории вероятностей и статистике.
  • Calculus 1C: Coordinate Systems & Infinite Series — курс об исчислении кривых, системах координат, приближении функций к полиномам и бесконечных рядах. Все это необходимо для построения математических моделей реального мира.



Calculus One
Образовательная платформа Coursera


Курс ориентирован на новичков, но удобная подача материала поможет освежить память и бывалым Data Scientist.



Khan Academy
Образовательная платформа


Разнообразные материалы, представленные на ресурсе, отлично подойдут для старта изучения математики, программирования и информатики.



Calculus
James Stewart


Книга славится тщательно проработанным содержанием и довольно простым языком.



Курс математического анализа
Л. Д. Кудрявцев


Для тех, кто хочет получить более фундаментальные знания о дифференциальных и интегральных исчислениях, теории рядов, функциональном и гармоническом анализе.

Также можно обратить внимание на два курса от MIT:
  1. Single Variable Calculus — курс для самостоятельного изучения дифференцирования, интегральных исчислений и бесконечных рядов.
  2. Multivariable Calculus — еще один курс для самостоятельного изучения дифференцирования, а также интегрального и векторного исчислений функций нескольких переменных.

Линейная алгебра


Без этого раздела математики не получится разработать методы machine learning, смоделировать поведение различных объектов или оптимизировать процесс кластеризации и уменьшения размерности описания данных.



Linear Algebra
Georgi E. Shilov


В учебнике изложен прекрасно проработанный материал. Книга подойдет для изучения вводного курса в линейную алгебру.



Линейная алгебра
В. А. Ильин, Э. Г. Позняк

Этот учебник был написан на базе лекций преподавателей физического факультета МГУ. Все материалы изложены доступным языком и подойдут для глубокого изучения основных теорий линейной алгебры.

И напоследок еще одна рекомендация — учебный курс Linear Algebra от MIT. Он раскрывает теорию матриц и положения линейной алгебры.
Теги:data scienceматематикачтение книгсамообучениесаморазвитиеновичкам на заметкулинейная алгебратеория вероятностейстатистикаматематический анализ
Хабы: Блог компании Plarium Data Mining Big Data Математика Читальный зал
Всего голосов 16: ↑14 и ↓2 +12
Просмотры52.4K

Похожие публикации

Data Scientist
PLARIUMМожно удаленно
Data Engineer
PLARIUMКраснодарМожно удаленно
.Net Software Developer in Big Data
PLARIUMМожно удаленно
Intern Community Quality Manager
PLARIUMКраснодар
Project Manager
PLARIUMКраснодар

Лучшие публикации за сутки

Информация

Дата основания
2009
Местоположение
Израиль
Сайт
company.plarium.com
Численность
1 001–5 000 человек
Дата регистрации

Блог на Хабре