Как стать автором

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Посты Новости Авторы Компании

alconost 23 мая 2019 в 09:59

Как я сдал сертификационный экзамен Google Cloud Professional Data Engineer

9 мин

12K

Блог компании AlconostОбразование за рубежомGoogle Cloud Platform*Google Cloud Vision API*Data Engineering*

Перевод

Без рекомендуемого трехлетнего практического опыта

*Примечание: статья посвящена сертификационному экзамену Google Cloud Professional Data Engineer, который был актуален до 29 марта 2019 г. После этого произошли некоторые изменения — они описаны в разделе «Дополнительно»*

Толстовка Google: есть. Серьезное выражение лица: есть. Фото из видеоверсии этой статьи на Ютубе.

Хотите заполучить новенькую толстовку, как у меня на фото?

Или, может, вас интересует сертификат Google Cloud Professional Data Engineer и вы пытаетесь понять, как его получить?

За последние несколько месяцев я прошел несколько курсов и параллельно работал с Google Cloud — для подготовки к экзамену Professional Data Engineer. Затем я пошел на экзамен и сдал его. Через несколько недель прибыла толстовка — но сертификат пришел быстрее.

В этой статье будут приведены некоторые сведения, которые могут оказаться полезны, и шаги, которые я предпринял для получения сертификата Google Cloud Professional Data Engineer.

Переведено в Alconost

Читать дальше →

+4

MaxRokatansky 20 мая 2019 в 18:41

Кто такие дата-инженеры, и как ими становятся?

9 мин

148K

Блог компании OTUSBig Data*Хранение данных*Data Engineering*

Перевод

И снова здравствуйте! Заголовок статьи говорит сам о себе. В преддверии старта курса «Data Engineer» предлагаем разобраться в том, кто же такие дата-инженеры. В статье очень много полезных ссылок. Приятного прочтения.

Простое руководство о том, как поймать волну Data Engineering и не дать ей затянуть вас в пучину.

Складывается впечатление, что в наши дни каждый хочет стать дата-саентистом (Data Scientist). Но как насчет Data Engineering (инжиниринга данных)? По сути, это своего рода гибрид дата-аналитика и дата-саентиста; дата-инженер обычно отвечает за управление рабочими процессами, конвейерами обработки и ETL-процессами. Ввиду важности этих функций, в настоящее время это очередной популярный профессиональный жаргонизм, который активно набирает обороты.

Высокая зарплата и огромный спрос — это лишь малая часть того, что делает эту работу чрезвычайно привлекательной! Если вы хотите пополнить ряды героев, никогда не поздно начать учиться. В этом посте я собрал всю необходимую информацию, чтобы помочь вам сделать первые шаги.

Итак, начнем!

Читать дальше →

+8

Barrayar 30 апр 2019 в 15:03

Почему data scientist — это не data engineer?

15 мин

17K

Блог компании VKBig Data*Машинное обучение*Управление продуктом*Data Engineering*

Перевод

«Ученый может открыть новую звезду, но не может создать её. Для этого ему пришлось бы обратиться к инженеру». Гордон Линдсей Глегг, «Дизайн дизайна» (1969)

Несколько месяцев назад я писал о различиях между специалистами по теории и методам анализа данных (data scientist) и специалистами по обработке данных (data engineer). Я говорил об их навыках и общих отправных точках. Произошло кое-что интересное: data scientist'ы начали наступать, утверждая, что они на самом деле так же компетентны в области инженерии данных, как и специалисты по обработке данных. Это было интересно, потому что специалисты по обработке данных не высказывали возражений и не говорили, что они являются специалистами по теории анализа данных.

Поэтому последние несколько месяцев я занимался сбором информации и наблюдением за поведением специалистов по теории анализа данных в их естественной рабочей среде. В этом посте я подробнее расскажу о том, почему data scientist не является data engineer'ом.

Читать дальше →

+26

elena_newprolab 5 апр 2019 в 15:37

«Так я понял, что теперь я дата инженер, и по-другому можно себя спозиционировать на рынке»

11 мин

8.8K

Блог компании New Professions LabData Mining*Карьера в IT-индустрииИнтервьюData Engineering*

Recovery Mode

Хабр, привет! Еще одно интервью с нашим выпускником – Николай Рекубратский, тимлид команды разработчиков в компании XING. Николай рассказал о жизни в Германии, о ресурсе, на котором он нашел работу, чем европейские специалисты отличаются от российских в подходе к работе, о востребованности профессии data engineer в Европе, о проектах в XING и пр.

— Коля, какой у тебя бэкграунд и как складывался твой карьерный путь в data engineer и тимлида?

— Тимлидом я стал примерно год назад, но до сих пор стараюсь не упускать возможности немножко попрограммировать, когда доходят руки. До этого я долгое время был разработчиком и тем, кого сейчас называют дата инженером.

В своей прошлой конторе я занимался видеорекламой, строил аналитическую систему для наших клиентов. Это был стартап, который постепенно рос, пока не лопнул. Росли объемы бизнеса, и с ними – количество обрабатываемых данных, и в какой-то момент инструменты, которые я использовал и архитектуры, которые у нас применялись, перестали работать. В итоге я притащил новые инструменты, новые архитектуры, тогда была очень модной lambda-архитектура.

Потом был проект по составлению профилей для сотен миллионов пользователей, тоже довольно интересно. И во всех этих проектах мне нравился вызов: есть какие-то требования по отклику, по консистентности данных, еще по чему-то. Чтобы соответствовать этим ожиданиям и требованиям, нужно очень сильно переосмыслить текущую архитектуру. Это был и вызов, и свобода действий одновременно, именно это меня так и привлекало.

Читать дальше →

+10

Wriketeam 20 ноя 2018 в 13:26

Data Engineering и не только: видеозаписи и слайды с митапа в Wrike

1 мин

3.1K

Блог компании WrikeData Mining*Big Data*КонференцииData Engineering*

15 ноября в офисе Wrike прошел митап «Data Engineering и не только». Поговорили об инженерах данных как об отдельной специальности, наметили отличия процессов в софтверном и дата-инжениринге, посмотрели, как можно писать тесты для Apache Spark, и чуть-чуть коснулись особенностей семантических технологий.

Для тех, кто не смог прийти, мы публикуем видеозаписи докладов.

Смотреть

+11

fediq 21 июл 2018 в 01:33

Личный опыт: Data Engineering на Upwork

8 мин

42K

Big Data*Машинное обучение*ФрилансКарьера в IT-индустрииData Engineering*

Я много лет работал Data Engineer'ом и Data Scientist'ом, решал сложные бизнес-кейсы, строил большие системы, выводил это все в продакшен. В начале 2017го я бросил ~~пить, курить и~~ работать в офисе и ушел фрилансить, экспериментировать с альтернативными формами занятости. Довольно много времени я провел на Upwork. Судя по многочисленным комментариям, уважаемая аудитория не до конца представляет себе, что это такое. Вещаю.

Upwork это крупнейшая в мире биржа фриланса. Дата сатанисты и дата инженеры мало кому в этом мире нужны (по сравнению с переводчиками, веб-мастерами и переписывателями текстов), так что задач для нас относительно мало, так что они тяготеют к крупнейшей бирже в мире. Других фриланс-бирж с постоянным потоком задач для дата саентистов в мире нет — ни Guru, ни Toptal, ни отечественный fl.ru спросом похвастаться не могут. Что важно — для специалистов более массовых специальностей опыт фриланса может сильно отличаться.

Читать дальше →

+84

a-pichugin 14 мая 2018 в 12:18

Введение в Data Engineering. ETL, схема «звезды» и Airflow

10 мин

55K

Блог компании New Professions LabSQL*Data Mining*Big Data*Data Engineering*

Перевод

Способность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.

При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.

Читать дальше →

+13

a-pichugin 26 мар 2018 в 11:29

Обзор второго дня Data Science Weekend 2018. Data Engineering, ETL, поисковые сервисы и многое другое

9 мин

4K

Блог компании New Professions LabPython*Data Mining*Big Data*Data Engineering*

Несколько дней назад мы публиковали обзор первого дня Data Science Weekend 2018, который прошел 2-3 марта на Мансарде Rambler&Co. Изучив практику использования алгоритмов машинного обучения, теперь перейдем к обзору второго дня конференции, в течении которого спикеры рассказывали об использовании различных инструментов дата инженера для нужд дата-платформ, ETL, сервисах подсказок при поиске и многом другом.

Читать дальше →

+8

a-pichugin 26 фев 2018 в 13:22

Как собрать сильную команду аналитиков и инженеров данных? Опыт компании Wish. Часть 2

7 мин

4.6K

Блог компании New Professions LabPython*Data Mining*Бизнес-модели*Data Engineering*

Перевод

В первой части мы рассмотрели, как в компании Wish была перестроена инфраструктура данных для того, чтобы увеличить их аналитические возможности. На этот раз уделим внимание человеческим ресурсам и поговорим о том, как дальше масштабировать компанию и создать идеальные команды инженеров и аналитиков. Также расскажем и о нашем подходе к найму самых талантливых кандидатов на рынке.

Читать дальше →

+8

a-pichugin 26 окт 2017 в 17:15

1-я лабораторная работа программы Data Engineer

7 мин

14K

Блог компании New Professions LabData Mining*Серверное администрирование*Администрирование баз данных*Data Engineering*

Как говорится, никогда такого не было, и вот опять. Мы подумали и решили выложить в свободный доступ первую лабораторную работу нашей новой программы Data Engineer. Бесплатно. Без смс.

Чуть ранее мы писали, зачем вообще стоит присмотреться к этой профессии. Недавно взяли интервью у одного из таких специалистов, и по совместительству, нашего преподавателя.

Так вот. Потенциально каждый самостоятельно может пройти эту лабу и почувствовать себя немножко этим дата инженером. Для этого будет все, что требуется.

А делать в этой лабе мы будем следующее.

Зарегимся на облачном сервисе.
Поднимем на нем 4 виртуальных машины.
Развернем кластер при помощи Ambari.
Поднимем сайт на nginx на одной из виртуалок.
Добавим специальный javascript на каждую страницу этого сайта.
Соберем кликстрим на HDFS.
Соберем его же в Kafka.

Читать дальше →

+5

a-pichugin 24 окт 2017 в 09:44

“Главный вызов — это кадровый голод” — панельная дискуссия о подборе команд по работе с данными. Data Science Week 2017

10 мин

6.3K

Блог компании New Professions LabData Mining*Big Data*Машинное обучение*Data Engineering*

Привет, Хабр! Публикуем заключительную часть обзора Data Science Week 2017, прошедшем в Москве 12-14 сентября. Сегодня расскажем о панельной дискуссии по теме “Подбор команд по работе с данными и оценка их эффективности”. Модератором выступила Ольга Филатова, вице-президент по персоналу и образовательным проектам Mail.ru Group, а участниками были Виктор Кантор (Яндекс), Андрей Уваров (МегаФон), Павел Клеменков (Rambler&Co) и Александр Ерофеев (Сбербанк).

Читать дальше →

+5

a-pichugin 20 окт 2017 в 15:43

“Без data engineer-а ценность модели аналитика стремится к нулю” — интервью с дата инженером Николаем Марковым

10 мин

16K

Блог компании New Professions LabData Mining*Машинное обучение*ИнтервьюData Engineering*

Привет, Хабр! Data Engineering становится все более популярным, многие компании постепенно открывают соответствующие вакансии. В связи с этим мы взяли интервью у Senior Data Science Engineer, Aligned Research Group LLC и преподавателя на программах “Специалист по большим данным” и “Data Engineer” Николая Маркова о том, что должны уметь data scientist-ы и data engineer-ы, чего им чаще всего не хватает и как найти свое место в анализе данных.

Читать дальше →

+7

elena_newprolab 14 сен 2017 в 13:55

4 причины стать Data Engineer

5 мин

36K

Блог компании New Professions LabData Mining*Big Data*Машинное обучение*Data Engineering*

Recovery Mode

Привет, Хабр! На данный момент в Data Science образовался огромный перекос в сторону data scientist-ов, об этой профессии сейчас знают даже те, кто никак не связан с IT, а новые вакансии появляются ежедневно. В свою очередь data engineer-ы не получают того внимания, которое бы соответствовало их важности для компании, поэтому в сегодняшнем посте мы бы хотели исправить эту несправедливость и объяснить, почему разработчикам и администраторам стоит немедленно начинать изучать Kafka и Spark и строить свой первый пайплайн.

В скором времени ни одна компания не сможет обойтись без Data Engineer

Давайте рассмотрим типичный рабочий день data scientist-а:

Получается, что около 80% своего времени data scientist тратит на сбор данных, их предобработку и очистку — процессы, которые напрямую не связаны с главной его обязанностью: поиском инсайтов и паттернов в данных. Конечно, подготовка данных требует высшего уровня мастерства, но это не data science, это не то, зачем тысячи людей сегодня стремятся попасть в эту отрасль.

Читать дальше →

+4

a-pichugin 3 авг 2017 в 11:39

Генератор кликов на Python для программы Data Engineer

5 мин

7K

Блог компании New Professions LabPython*Data Mining*Big Data*Data Engineering*

Процесс разработки образовательной программы очень похож на процесс разработки нового продукта. И там, и там ты пытаешься вначале понять, а есть ли спрос на то, что ты собираешься производить? Существует ли в реальности та проблема, которую ты хочешь решить?

Предыстория

В этот раз для нас всё было довольно просто. Несколько выпускников нашей программы «Специалист по большим данным» в течение, наверное, года просили:

Сделайте для нас еще одну программу, где мы бы могли научиться работать с Kafka, Elasticsearch и разными инструментами экосистемы Hadoop, чтобы собирать пайплайны данных.

Потом со стороны работодателей стали «прилетать» запросы, которые собирательно можно описать так:

Data Engineer'ы – это очень горячие вакансии!
Реально их уже на протяжении полугода никак не можем закрыть.
Очень здорово, что вы обратили внимание именно на эту специальность. Сейчас на рынке очень большой перекос в сторону Data Scientist'ов, а больше половины работы по проектам – это именно инженерия.

С этого момента стало понятно, что спрос есть, и проблема существует. Надо бросаться в разработку программы!

Читать дальше →

+3

inoventica 2 фев 2017 в 14:30

Восхождение дата-инженера

11 мин

16K

Блог компании Inoventica ServicesАдминистрирование баз данных*Хранение данных*Хранилища данных*Data Engineering*

Перевод

Я присоединился к команде Facebook в 2011 году в качестве инженера бизнес-аналитика. К моменту, когда я покинул команду в 2013 году я уже был дата-инженером.

Меня не продвигали или назначали на эту новую позицию. Фактически, Facebook пришла к выводу, что выполняемая нами работа является классической бизнес-аналитикой. Роль, которую в итоге мы для себя создали, была полностью новой дисциплиной, а я и моя команда находились на острие этой трансформации. Мы разрабатывали новые подходы, способы решения задач и инструменты. При этом, чаще всего, мы игнорировали традиционные методы. Мы были пионерами. Мы были дата-инженерами!

Дата-инжиниринг?

Наука о данных как самостоятельная дисциплина переживает период отроческого самоутверждения и определения себя. В тоже время дата-инжиниринг можно было назвать ее «младшим братом», который тоже проходил через нечто подобное. Дата-инжиниринг принимал от своего «старшего родственника» сигналы, искал свое место и собственную идентичность. Как и ученые, занимающиеся обработкой данных, дата-инженеры тоже пишут код. Он является высокоаналитическим, с большой долей визуализации.

Но в отличие от ученых, работающих с данными и вдохновленными более зрелым прародителем сферы — программированием — дата-инженеры создают собственные инструменты, инфраструктуру, фреймворки и сервисы. На самом деле, мы намного ближе к программированию, чем к науке о данных.

Читать дальше →

+15

NNikolay 6 июн 2016 в 08:55

Наблюдаем за пользователем – два типа timestamp

2 мин

10K

Data Mining*Big Data*Data Engineering*

Давным-давно, один специалист по базам данных (из тех, бородатых и уже седых) сказал мне, что метки времени (timestamp) — это самая сложная тема в базах данных. Я ему, правда, не поверил, но приколы со временем реально встречаются.

Есть стандартная проблема, которую часто вижу в чужих данных. Положим собрались вы отслеживать события/действия пользователя. Обычно у вас будет это делать некий код (JS в вебе или SDK для аппов), который будет слать данные серверу.

Каждому событию нужна метка времени. И есть выбор из двух: локальное время на клиенте или время получения события сервером. Один хороший совет что делать и загадка без ответа под катом

Читать дальше →

+9

1 2 ...

47