Pull to refresh

Как мы делаем новый учебник ШАДа по машинному обучению

Reading time3 min
Views8.6K
Привет! Это снова Стас Федотов, я руковожу Школой анализа данных и несколькими университетскими проектами Яндекса в Москве. Совсем недавно на YaC on Education мы запустили учебник по машинному обучению от ШАДа и открыли первые несколько глав. Я бы хотел рассказать, что нас к этому подтолкнуло и каких принципов мы придерживаемся в написании учебника.

Читать дальше →
Total votes 13: ↑13 and ↓0+13
Comments0

Опросил больше 1000 айтишников: вранье в резюме и котируемость курсов по «вкатыванию в IT»

Reading time7 min
Views127K

Получилось отследить довольно интересные тренды: как размер стажа в индустрии коррелирует с отношением к выдумыванию опыта в резюме, как в IT-среде на самом деле относятся к выпускникам школ в стиле «стань айтишником за год», а также рейтинг самых ненавидимых и респектуемых в среде профи школ.

Читать далее
Total votes 189: ↑168 and ↓21+147
Comments318

Пять лет Школе анализа данных

Reading time2 min
Views9.8K
Ровно пять лет назад Яндекс объявил об открытии Школы анализа данных (ШАД). Для нас это был серьезный, хотя и рискованный шаг. Сегодня можно смело сказать, что всё получилось. Нам удалось создать сильную магистерскую программу, которая ценится в профессиональном сообществе. Сейчас конкурс в ШАД составляет пять-шесть человек на место, как в престижном вузе. В день рождения Школы мы хотим вспомнить о том, как все начиналось.

В середине 2000-х стало понятно, что на рынке почти нет специалистов, которые нам нужны. Многие представители советской школы анализа данных, которая была сильна в 60-70 годы, уехали из страны. Даже ВМиК или мехмат МГУ не давали достаточных знаний для решения задач, связанных с обработкой данных (текстов, изображений, музыки, голоса). Необходимо было возрождать научную среду и выращивать новое поколение программистов. А талантливые ребята в России были всегда, сколько бы отсюда ни уезжали.

Поначалу мы верили, что рядом с нами кипит жизнь, что где-то есть студенты и аспиранты, которые занимаются анализом данных — их нужно только поискать. Мы провели несколько конкурсов по анализу интернет-данных, но среди их участников студентов и аспирантов почти не было. Тогда мы попробовали договориться с вузами о создании курсов, которые готовили бы специалистов для Яндекса. Однако вузы предлагали свои программы и не были готовы разрабатывать новые. Так постепенно мы пришли к мысли, что нужно создавать свою школу. Огромную роль в ее создании сыграли Илья Мучник, Григорий Кондаков, Елена Бунина, Максим Бабенко.

Читать дальше →
Total votes 29: ↑25 and ↓4+21
Comments0

Берём не только крутых математиков. Новый способ поступить в ШАД с опытом в IT

Reading time2 min
Views22K
До 2020 года в Школу анализа данных могли попасть только те, кто очень глубоко и творчески владеет высшей математикой. Но этим качеством обладают не все способные люди, интересующиеся data science и инфраструктурой больших данных. Нередко разработчики, аналитики и молодые исследователи не помнят математику 1-2 курса вуза настолько хорошо, чтобы преодолеть наши вступительные экзамены. В этом году мы хотим дать таким людям возможность всё-таки попасть в ШАД. Мы организовали для них специальный трек поступления, о котором я расскажу ниже.

Но мало в ШАД попасть. Матанализ, линейная алгебра и теория вероятностей будут нужны дальше: без них не удастся разобраться с байесовскими методами, корректно оценить асимптотику сложности быстрой сортировки, написать хитрый метод многомерной оптимизации. Поэтому мы создаём принципиально новый адаптационный курс по математике. Все, кто поступят в ШАД по новым правилам, должны будут пройти этот курс.


Читать дальше →
Total votes 14: ↑14 and ↓0+14
Comments13

Открылся новый набор в Школу анализа данных Яндекса

Reading time3 min
Views41K
На днях мы открыли новый набор в Школу анализа данных. Чтобы стать её студентом, нужно ответить на вопросы в тесте, сдать экзамены и пройти собеседование. Занятия, как всегда, будут проходить в офисе Яндекса в Москве, а также в Екатеринбурге, Киеве и Минске. В Питере у ШАД есть отделение в Computer Science Center. Если вы живёте в других городах, то можете учиться у нас заочно: общаться с преподавателями по электронной почте и смотреть видеолекции. Обучение в Школе бесплатное.

Аудитории Школы анализа данных Яндекса

В ШАД преподают ведущие российские ученые — и те, кто живет в России, и те, кто работает за рубежом. Например, теорию машинного обучения ведёт Алексей Червоненкис, профессор Лондонского университета и один из создателей отечественной школы анализа данных. Автор курса по анализу данных и научный руководитель ШАД — профессор Rutgers University Илья Мучник, который когда-то был научным руководителем Аркадия Воложа.
Подробнее о том, как и чему учат в ШАД, читайте под катом
Total votes 56: ↑50 and ↓6+44
Comments25

Яндекс в новом эксперименте ЦЕРНа: как найти тёмную материю всего за 13 лет

Reading time13 min
Views28K
Несмотря на то, что физиков иногда пытаются представить консервативными, на деле они только и ждут того, чтобы найти что-то, что выходит за пределы нынешнего понимания природы. Но у них давно такого не получалось.

В очередной раз надежды на обновление Стандартной модели разрушились после того, как в ЦЕРНе нашли бозон Хиггса. И несмотря на то, что, по мнению Стивена Хокинга, это открытие сделало физику скучнее, проблемы, которые Стандартная модель объяснить не может, всё еще остаются. Одна из них — какая частица может стать кандидатом на тёмную материю? Как вы знаете, она содержится во Вселенной, но увидеть её мы не можем.

И вот учёные в ЦЕРНе начинают новый эксперимент — SHiP (Search for Hidden Particles). Если такие частицы обнаружат, то Стандартную модель можно расширить. Это будет означать, что наше представление о структуре и эволюции Вселенной может поменяться. А учёные вполне могут претендовать на Нобелевскую премию. Проводить астрофизические исследования для SHiP будет космический телескоп Astro-H. Яндекс для этого эксперимента не только предоставит ЦЕРНу свои технологии машинного обучения: студенты и исследователи Школы анализа данных Яндекса будут работать совместно с его учёными.

Сотрудничество Яндекса и ЦЕРНа началось в 2011 году, когда мы предоставили ему свои сервера. В 2012 году мы разработали для организации поисковый сервис, который использовался в рамках одного из четырех основных экспериментов ЦЕРНа на Большом адронном коллайдере — Large Hadron Collider beauty experiment (LHCb). В 2013 году ученые-физики получили возможность использовать нашу собственную технологию машинного обучения — Матрикснет. Тогда же Яндекс стал ассоциированным членом европейского Центра ядерных исследований в рамках проекта CERN openlab.



Два года назад в Яндексе выступал Андрей Голутвин, научный консультант директора ЦЕРНа. Это было ровно за день до того, как было официально объявлено об обнаружении бозона Хиггса. А на прошлой неделе Андрей на специальном семинаре рассказал о новом эксперименте SHiP, в котором уже на этапе планирования предполагается использование технологий и знаний Яндекса. Лекция состоит из пяти частей:

  • зачем нужен эксперимент SHiP,
  • проблемы Стандартной модели,
  • как устроен детектор и что он должен измерить,
  • как создаётся международная коллаборация для создания и проведения большого эксперимента,
  • основные этапы эксперимента,
  • что коллаборация SHiP ожидает от Яндекса.

Подробная расшифровка — под катом.
Читать дальше →
Total votes 94: ↑90 and ↓4+86
Comments32

Машинное обучение — микроскоп современного ученого. Зачем ЦЕРНу технологии Яндекса

Reading time14 min
Views20K
В начале июля в нашем офисе прошел семинар, посвященный взаимодействию Яндекса и ЦЕРН. В понедельник мы опубликовали первую его часть — доклад Андрея Голутвина о новом эксперименте SHiP (Search for Hidden Particles). Вторая часть этого семинара была отведена Андрею Устюжанину о совместных проектах Яндекса и ЦЕРН.



Андрей рассказал о применении технологий Яндекса в физике высоких энергий. В наши дни над экспериментами зачастую работает огроное количество людей из разных стран. Объединенная экосистема для автоматизации экспериментов может сделать работу исследователей более скоординированной и поможет решить множество других проблем. Единый интерфейс, онлайн-доступ к результатам других участников, система версионирования и возможность обмена библиотеками — все это может сильно упростить исследователям жизнь.

Кроме того, в современной физике высоких энергий активно применяется машинное обучение. На основе тестовых выборок обучаются классификаторы, которые в дальнейшем определяют наличие тех или иных событий уже в реальных данных. При этом количество формул, которые может потребоваться обучить для одного анализа, достигает нескольких сотен или даже тысяч. Надо, однако, иметь в виду, что наши разработки применимы не только в этой сфере, но и в других отраслях науки. Этот доклад — скорее про исследования в целом, про процесс экспериментального подтверждения различных теорий, гипотез и моделей. С такими задачами обычно сталкиваются люди из научно-исследовательских организаций, но сейчас все чаще они возникают и в коммерческих компаниях.
Читать дальше →
Total votes 60: ↑54 and ↓6+48
Comments2

Задачи и разборы экзамена ШАД. Часть первая — разогрев

Reading time7 min
Views11K
Мы решили поделиться с Хабром заданиями из письменного экзамена в Школу анализа данных. Если вы помните высшую математику, попробуйте решить одну или несколько задач. Если нет, можно посмотреть видео- или текстовый разбор — мы постарались сделать их максимально дружелюбными. Задачи взяты из вариантов 2019 года — в этом году они, конечно, будут другими, но в разборах есть полезные факты и приёмы.

Задача 1. Предел отношения


Известно, что:

$\lim_{x \to 0} \frac {f(x)}{\sin x}= 2$


Нужно найти:

$\lim_{x \to 0} \frac {ln(1+3x)}{f(x)}$


Разбор и другие задачи, посложнее
Total votes 13: ↑13 and ↓0+13
Comments4

Задачи и разборы экзамена ШАД. Часть вторая — с визуальными приёмами

Reading time10 min
Views5.4K
Набор в ШАД продолжается, а тем временем мы с Егором Хайруллиным Mikari разобрали ещё несколько задач из письменного экзамена 2019 года (первая часть — здесь). Сначала пробуйте свои силы и постарайтесь решить задачи самостоятельно — например, номер 8 вообще не содержит формул, к решению можно прийти простыми рассуждениями и рисованием на листочке.

Задача 5. Предел и вероятности


Найдите предел:

$ \begin{align*} \lim _{n\to \infty }\sum _{k=n}^{5n}C_{k-1}^{n-1}\left(\frac{1}{5}\right)^n\left(\frac{4}{5}\right)^{k-n} \end{align*} $


Видеоразбор

Разбор текстом и другие задачи
Total votes 11: ↑11 and ↓0+11
Comments0

Полный разбор экзамена ШАД-2019

Reading time6 min
Views37K
Привет! Меня зовут Азат, я студент 3 курса Факультета Компьютерных Наук ВШЭ. На днях ко мне обратился знакомый с Экономики ВШЭ и попросил помочь с решением задач вступительного экзамена в ШАД. Мы с однокурсником Даниилом посмотрели на задания, они показались нам довольно сложными, но очень интересными, захотелось поломать над ними голову. В итоге мы прорешали 1 из вариантов 2019 года и хотим показать наши решения миру.


Читать дальше →
Total votes 17: ↑16 and ↓1+15
Comments21

Дискретная математика на экзамене в ШАД

Reading time3 min
Views7.2K

Привет! Меня зовут Азат, я создаю курсы по подготовке к экзамену в ШАД. Недавно мы запустили курс по дискретной математике, поэтому наша команда активно прорешивает задачки по соответствующей теме. После разбора экзамена в ШАД 2019 года мы увидели большой интерес пользователей Хабра к занимательным задачкам из экзамена. Поэтому выкладываем здесь 4 избранных по дискретной математике. Наслаждайтесь!


Читать дальше →
Total votes 11: ↑10 and ↓1+9
Comments0

Полный разбор первой части экзамена в ШАД 2020

Reading time9 min
Views17K
Привет! С вами Азат Калмыков, куратор в «ШАД Helper». Мы продолжаем наш цикл статей, в которых разбираем задачи для поступления в ШАД. На этот раз мы (я, Николай Проскурин и Александр Курилкин) посмотрим на решения первого этапа отбора в ШАД в этом году, который закончился совсем недавно. Итак, приступим.
Читать дальше →
Total votes 8: ↑6 and ↓2+4
Comments4

Как правильно готовиться к ШАД

Reading time4 min
Views35K

Я, Александр Лыков, кандидат физико-математических наук на мехмате МГУ и уже несколько лет я готовлю своих студентов к ШАД. В этой статье я решил разобрать наиболее важные моменты при подготовке к экзамену.

Читать далее
Total votes 23: ↑14 and ↓9+5
Comments6

Что такое мат.анализ и с чем его едят?

Reading time5 min
Views22K

Давайте знакомиться: я Меликян Маргарита, кандидат физико-математических наук, уже 4й год работаю на мехмате МГУ и кафедре высшей математики МФТИ, а также несколько лет как преподаю в ШАД Helper. Преподаю я как разнообразные курсы из блока анализа, так и вероятностного блока, и сегодня я хочу немного поговорить о том, каково это – осваивать математический анализ и каких ошибок следует избегать, какие лайфхаки применить.

Первая препона, с которой сталкивается человек в самом начале освоения новой дисциплины, даже если он это делает “под присмотром” преподавателя – это литература. На что нужно обращать внимание и ориентироваться при выборе?

Читать далее
Total votes 42: ↑40 and ↓2+38
Comments87

Все про Школу анализа данных от Яндекса

Level of difficultyEasy
Reading time5 min
Views15K

Привет, Хабр! Меня зовут Владислав и уже какой год готовлю студентов в ШАД и занимаюсь сообществом Поступашки - ШАД, Стажировки и Магистратура. В этой статье обсужу все ключевые вопросы, связанные с ШАД, о которых вам не расскажут на дне открытых дверей.

Читать далее
Total votes 7: ↑1 and ↓6-5
Comments6

Какую Data Science школу выбрать?

Level of difficultyEasy
Reading time4 min
Views11K

Сегодня мы рассмотрим три школы: ШАД от Яндекс, Школу анализа данных от VK и AI Masters.

Школа анализа данных ШАД, Школа анализа данных от Vk и AI Masters — это образовательные учреждения, специализирующиеся на обучении анализу данных и машинному обучению. Они имеют некоторые сходства, но также и различия, которые могут быть важны для потенциальных студентов при выборе школы.

Мы проанализируем сильные стороны каждой школы, процесс поступления, программы, сроки и сложность обучения.

Читать далее
Total votes 3: ↑0 and ↓3-3
Comments8

Школа анализа данных Яндекса: снова выпускной

Reading time2 min
Views21K
Сегодня мы отпраздновали очередной выпускной в ШАДе. Два года обучения были действительно трудными, но пролетели незаметно.


Аркадий Волож и Елена Бунина

Читать дальше →
Total votes 49: ↑38 and ↓11+27
Comments16

Machine Learning. Курс от Яндекса для тех, кто хочет провести новогодние каникулы с пользой

Reading time8 min
Views264K
Новогодние каникулы – хорошее время не только для отдыха, но и для самообразования. Можно отвлечься от повседневных задач и посвятить несколько дней тому, чтобы научиться чему-нибудь новому, что будет помогать вам весь год (а может и не один). Поэтому мы решили в эти выходные опубликовать серию постов с лекциями курсов первого семестра Школы анализа данных.

Сегодня — о самом важном. Современный анализ данных без него представить невозможно. В рамках курса рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами.



Читает курс лекций Константин Вячеславович Воронцов, старший научный сотрудник Вычислительного центра РАН. Заместитель директора по науке ЗАО «Форексис». Заместитель заведующего кафедрой «Интеллектуальные системы» ФУПМ МФТИ. Доцент кафедры «Математические методы прогнозирования» ВМиК МГУ. Эксперт компании «Яндекс». Доктор физико-математических наук.
Содержание и видео всех лекций курса
Total votes 172: ↑166 and ↓6+160
Comments47

Лекции от Яндекса для тех, кто хочет провести каникулы с пользой. Дискретный анализ и теория вероятностей

Reading time3 min
Views143K
Для тех, кому одного курса на праздники мало и кто хочет больше, продолжаем нашу серию курсов от Школы анализа данных Яндекса. Сегодня подошла очередь курса «Дискретный анализ и теория вероятностей» – даже более фундаментального, чем предыдущий. Но без него нельзя представить ещё большую часть современной обработки данных.

В рамках курса рассматриваются основные понятия и методы комбинаторного, дискретного и асимптотического анализа, теории вероятностей, статистики и на примере решения классических задач демонстрируется их применение.



Читает курс Андрей Райгородский. Доктор физико-математических наук. Профессор кафедры математической статистики и случайных процессов механико-математического факультета МГУ им. М. В. Ломоносова. Заведующий кафедрой Дискретной математики ФИВТ МФТИ. Профессор и научный руководитель бакалавриата кафедры «Анализ данных» факультета инноваций и высоких технологий МФТИ. Руководитель отдела теоретических и прикладных исследований компании «Яндекс». (Ещё больше можно узнать в статье о нём на Википедии).

Содержание курса и тезисы лекций
Total votes 121: ↑115 and ↓6+109
Comments21

Параллельные и распределенные вычисления. Лекции от Яндекса для тех, кто хочет провести праздники с пользой

Reading time3 min
Views78K
Праздничная неделя подходит к концу, но мы продолжаем публиковать лекции от Школы анализа данных Яндекса для тех, кто хочет провести время с пользой. Сегодня очередь курса, важность которого в наше время сложно переоценить – «Параллельные и распределенные вычисления».

Что внутри: знакомство с параллельными вычислениями и распределёнными системами обработки и хранения данных, а также выработка навыков практического использования соответствующих технологий. Курс состоит из четырех основных блоков: concurrence, параллельные вычисления, параллельная обработка больших массивов данных и распределенные вычисления.



Лекции читает Олег Викторович Сухорослов, старший научный сотрудник Центра грид-технологий и распределенных вычислений ИСА РАН. Доцент кафедры распределенных вычислений ФИВТ МФТИ. Кандидат технических наук.
Содержание и тезисы лекций
Total votes 106: ↑98 and ↓8+90
Comments31
1