Как стать автором
Обновить

Компания New Professions Lab временно не ведёт блог на Хабре

Сначала показывать

Генератор кликов на Python для программы Data Engineer

Время на прочтение5 мин
Количество просмотров7K
Процесс разработки образовательной программы очень похож на процесс разработки нового продукта. И там, и там ты пытаешься вначале понять, а есть ли спрос на то, что ты собираешься производить? Существует ли в реальности та проблема, которую ты хочешь решить?

Предыстория


В этот раз для нас всё было довольно просто. Несколько выпускников нашей программы «Специалист по большим данным» в течение, наверное, года просили:
Сделайте для нас еще одну программу, где мы бы могли научиться работать с Kafka, Elasticsearch и разными инструментами экосистемы Hadoop, чтобы собирать пайплайны данных.

Потом со стороны работодателей стали «прилетать» запросы, которые собирательно можно описать так:
Data Engineer'ы – это очень горячие вакансии!
Реально их уже на протяжении полугода никак не можем закрыть.
Очень здорово, что вы обратили внимание именно на эту специальность. Сейчас на рынке очень большой перекос в сторону Data Scientist'ов, а больше половины работы по проектам – это именно инженерия.

С этого момента стало понятно, что спрос есть, и проблема существует. Надо бросаться в разработку программы!
Читать дальше →
Всего голосов 9: ↑6 и ↓3+3
Комментарии3

Распознавание дорожных знаков с помощью CNN: Инструменты для препроцессинга изображений

Время на прочтение11 мин
Количество просмотров26K
Привет, Хабр! Продолжаем серию материалов от выпускника нашей программы Deep Learning, Кирилла Данилюка, об использовании сверточных нейронных сетей для распознавания образов — CNN (Convolutional Neural Networks)

Введение


За последние несколько лет сфера компьютерного зрения (CV) переживает если не второе рождение, то огромный всплеск интереса к себе. Во многом такой рост популярности связан с эволюцией нейросетевых технологий. Например, сверточные нейронные сети (convolutional neural networks или CNN) отобрали себе большой кусок задач по генерации фич, ранее решаемых классическими методиками CV: HOG, SIFT, RANSAC и т.д.

Маппинг, классификация изображений, построение маршрута для дронов и беспилотных автомобилей — множество задач, связанных с генерацией фич, классификацией, сегментацией изображений могут быть эффективно решены с помощью сверточных нейронных сетей.


MultiNet как пример нейронной сети (трех в одной), которую мы будем использовать в одном из следующих постов. Источник.
Читать дальше →
Всего голосов 16: ↑13 и ↓3+10
Комментарии13

Анализируем карьеру игроков NHL с помощью Survival Regression и Python

Время на прочтение6 мин
Количество просмотров8.6K
Привет, Хабр! Сегодня рассмотрим один из подходов к оценке временного риска, который основан на кривой выживаемости и одноименной регрессии, и применим его к анализу продолжительности карьеры игроков НХЛ.

Когда у данного пациента произойдет рецидив? Когда наш клиент уйдет? Ответы на подобные вопросы можно найти с помощью анализа выживания, который может быть использован во всех областях, где исследуется временной промежуток от «рождения» до «смерти» объекта, либо аналогичные события: период от поступления оборудования до его выхода из строя, от начала использования услуг компании и до отказа от них и т.д. Чаще всего данные модели используются в медицине, где необходимо оценить риск летального исхода у больного, чем и обусловлено название модели, однако они также применимы в сфере производства, банковском и страховом секторах.

image
Читать дальше →
Всего голосов 16: ↑14 и ↓2+12
Комментарии8

Поддержка исследователей в области Deep Learning

Время на прочтение1 мин
Количество просмотров4.9K
Хабр, нам тут пришла одна идея… В настоящий момент у нас возникло некое межсезонье между разными образовательными программами. Мы подумали, зачем нашей инфраструктуре зря простаивать, когда есть люди, которые могли бы на этой инфраструктуре что-то классное сделать.

Мы решили сделать небольшой вклад в развитие deep learning в России и выделить 3 виртуальных сервера с GPU тем, кто что-то делает в этой области. 2 виртуалки мы решили отдать нашим выпускникам, а 1 виртуалку дать в пользование кому-то «со стороны».

image

Читать дальше →
Всего голосов 21: ↑16 и ↓5+11
Комментарии3

Старт big data проекта: 6 важных вопросов

Время на прочтение6 мин
Количество просмотров6.8K
Использование данных в своей деятельности давно стало очевидным для многих, потенциальные преимущества ясны, но порой непонятно, с чего все-таки начать и как двигаться в это будущее, которое где-то уже наступило.


Читать дальше →
Всего голосов 9: ↑6 и ↓3+3
Комментарии3

Введение в OpenCV применительно к распознаванию линий дорожной разметки

Время на прочтение7 мин
Количество просмотров36K
Привет, Хабр! Публикуем материал выпускника нашей программы Deep Learning и координатора программы по большим данным, Кирилла Данилюка о его опыте использования фреймворка компьютерного зрения OpenCV для определения линий дорожной разметки.

image
Всего голосов 17: ↑15 и ↓2+13
Комментарии8

Конфигурирование Spark на YARN

Время на прочтение5 мин
Количество просмотров18K
Хабр, привет! Вчера на митапе, посвященном Apache Spark, от ребят из Rambler&Co, было довольно много вопросов от участников, связанных с конфигурированием этого инструмента. Решили по его следам поделиться своим опытом. Тема непростая — поэтому предлагаем делиться опытом тоже в комментариях, может быть, мы тоже что-то не так понимаем и используем.
Читать дальше →
Всего голосов 9: ↑8 и ↓1+7
Комментарии7

«Big Data — это понятно и просто» — интервью с руководителем проектов по большим данным в QIWI Сергеем Чеканским

Время на прочтение9 мин
Количество просмотров11K
Хабр, привет! Мы взяли интервью у выпускника программы «Специалист по большим данным», руководителя проектов по машинному обучению и большим данным в компании QIWI, Сергея Чеканского, в рамках которого Сергей рассказал об опыте разработки и внедрения кластеров big data, типичном дне Data Scientist-a, а также дал практические советы начинающим аналитикам.

image
Читать дальше →
Всего голосов 16: ↑10 и ↓6+4
Комментарии0

Быстрый старт: обзор основных Deep Learning фреймворков

Время на прочтение6 мин
Количество просмотров24K
Привет, Хабр! Предлагаем вам перевод поста “Getting Started with Deep Learning” от Мэтью Рубашкина из Silicon Valley Data Science о преимуществах и недостатках существующих Deep Learning технологий и о том, какой фреймворк выбрать, учитывая специфику задачи и способности команды.
image
Читать дальше →
Всего голосов 29: ↑23 и ↓6+17
Комментарии4

7 кейсов использования технологий Big Data в сфере производства

Время на прочтение5 мин
Количество просмотров16K
Хабр, привет! На сегодняшний день технологии Big Data нашли свое применение практически в любых отраслях: ритейл, банкинг, здравоохранение, и, в свою очередь, сфера производства не стала исключением. Оптимизация производственной цепочки, выявление дефектов и контроль качества продукции, улучшение удобства использования продукта на основе поведения потребителей – неполный список результатов, которых можно достичь в производственной сфере благодаря Big Data. Рассмотрим несколько кейсов зарубежных и отечественных компаний, внедривших технологии больших данных в свою деятельность.
Читать дальше →
Всего голосов 23: ↑12 и ↓11+1
Комментарии10

Обзор Data Science Weekend

Время на прочтение6 мин
Количество просмотров2.1K
Всем привет! 3-4 марта состоялся Data Science Weekend, который организовывала вот уже третий раз наша компания при поддержке GVA. Для тех, кто не был на мероприятии, мы подготовили краткий обзор того, что происходило.

image
Читать дальше →
Всего голосов 5: ↑2 и ↓3-1
Комментарии0

Data Science Weekend. Презентации спикеров

Время на прочтение1 мин
Количество просмотров4.2K
Хабр, привет! 3-4 марта команда New Professions Lab провела в Москве Data Science Weekend. Как и обещали, публикуем презентации наших спикеров. Если вы хотите получить доступ к видео выступлений, заполните, пожалуйста, короткую форму здесь.

image
Читать дальше →
Всего голосов 16: ↑12 и ↓4+8
Комментарии3

Обзор буткэмпов в области data science за рубежом

Время на прочтение3 мин
Количество просмотров4.9K
Хабр, привет. Последнее время в мире образования стали пользоваться популярностью, так называемые, bootcamps. Например, по этой ссылке неплохо описано, что такое bootcamp в области программирования и чем это отличается от привычных образовательных программ в университетах.

Буткэмп — это техническая образовательная программа, которая направлена на то, чтобы научить участников наиболее релевантным рынку навыкам. Это позволяет участникам с небольшим опытом в программировании сфокусироваться на тех аспектах программирования, которые можно применить здесь и сейчас для решения реальных проблем.

Мы решили сосредоточиться и подготовить обзор нескольких буткэмпов за рубежом в области data science, являющихся наиболее известными и находящихся на рынке уже несколько лет.
Читать дальше →
Всего голосов 17: ↑9 и ↓8+1
Комментарии4

Учиться можно увлекательно, учиться можно эффективно

Время на прочтение4 мин
Количество просмотров4K
Привет, Хабр! Поднимите руку те, кто уже подустал немного от этого шума, связанного с Big Data?

Мне тоже кажется, что эта тема всем слегка поднадоела уже. Каждую неделю по этой теме вываливается большое количество статей на Хабре, на Medium, на Facebook, на LinkedIn, на куче других тематических сайтов, которые присылают письма на почтовый ящик. Каждый желает поделиться своим опытом, своими мыслями, своими планами, делая этот поток информации невыносимым.
Читать дальше →
Всего голосов 15: ↑6 и ↓9-3
Комментарии7

Data Science Weekend 3-4 марта

Время на прочтение1 мин
Количество просмотров2.6K
Хабр, привет! Приглашаем на Data Science Weekend 2017, который пройдет в Москве, на площадке Deworkacy, 3 и 4 марта.


Читать дальше →
Всего голосов 7: ↑4 и ↓3+1
Комментарии2

Будут ли data scientist’ы в ближайшее время заменены автоматизированными алгоритмами и искусственным интеллектом?

Время на прочтение7 мин
Количество просмотров12K
Хабр, привет! В современном машинном обучении и науке о данных можно выделить несколько трендов. Прежде всего, это глубокое обучение: распознавание изображений, аудио и видео, обработка текстов на естественных языках. Еще одним трендом становится обучение с подкреплением — reinforcement learning, позволяющее алгоритмам успешно играть в компьютерные и настольные игры, и дающее возможность постоянно улучшать построенные модели на основе отклика внешней среды.

Есть и еще один тренд, менее заметный, так как его результаты для внешних наблюдателей выглядят не так впечатляюще, но не менее важный — автоматизация машинного обучения. В связи с его стремительным развитием вновь актуальным становится вопрос о том, не будут ли data scientist’ы в конце концов автоматизированы и вытеснены искусственным интеллектом.
Читать дальше →
Всего голосов 20: ↑14 и ↓6+8
Комментарии8

Данные лучше, чем нефть, или шестой набор на программу по big data

Время на прочтение2 мин
Количество просмотров9.3K
Хабр, привет! Сложно поверить, но 16 марта мы запустим уже 6 набор нашей программы “Специалист по большим данным”.

image

На текущий момент у нас уже около 160 выпускников, которые с разной степенью вовлеченности применяют знания и навыки, полученные на программе. Наверное, можно задаться вопросом, нужно ли такое количество кадров. Ответа на это резонное сомнение есть два. Во-первых, мы держим руку на пульсе и периодически проводим анализ рынка. Во-вторых, рынок не является статичной сущностью и растет, причем количество открытых вакансий не является достаточной метрикой для измерения этого спроса.
Читать дальше →
Всего голосов 15: ↑11 и ↓4+7
Комментарии5

Обзор рынка труда в области big data и data science

Время на прочтение5 мин
Количество просмотров22K
Хабр, привет! По релевантным поисковым запросам нашлось около 1000 вакансий, затем они были вручную отфильтрованы по заголовкам и описаниям, и для подготовки обзора мы использовали 288 активных вакансий в области big data и data science с HeadHunter.

В действительности активных вакансий больше, так как во внимание не принимались другие ресурсы (например, SuperJob, Blastim, социальные сети, сайты компаний). Кроме того, нужно понимать, что это всего лишь снимок текущей ситуации, каждый день вакансии заполняются и появляются новые.
Читать дальше →
Всего голосов 12: ↑10 и ↓2+8
Комментарии6

Еще 12 big data кейсов

Время на прочтение11 мин
Количество просмотров22K
Хабр, привет. Сегодня мы подготовили еще 12 примеров того, как технологии больших данных приносят компаниям деньги.
Читать дальше →
Всего голосов 18: ↑15 и ↓3+12
Комментарии2

Как мы запускали программу Deep Learning

Время на прочтение8 мин
Количество просмотров11K
Хабр, привет.

Как вы знаете, для обучения глубоких нейронных сетей оптимально использовать машины с GPU. Наши образовательные программы всегда имеют практический уклон, поэтому для нас было обязательно, чтобы во время обучения у каждого участника была своя виртуальная машина с GPU, на которой он мог решать задачи во время занятий, а также лабораторную работу в течение недели. О том, как мы выбирали инфраструктурного партнера для реализации наших планов и подготавливали среду для наших участников, и пойдет речь в нашем посте.
Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии4