Как стать автором
Обновить
63.61

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Как я сдал сертификационный экзамен Google Cloud Professional Data Engineer

Время на прочтение9 мин
Количество просмотров12K

Без рекомендуемого трехлетнего практического опыта


*Примечание: статья посвящена сертификационному экзамену Google Cloud Professional Data Engineer, который был актуален до 29 марта 2019 г. После этого произошли некоторые изменения — они описаны в разделе «Дополнительно»*


Толстовка Google: есть. Серьезное выражение лица: есть. Фото из видеоверсии этой статьи на Ютубе.

Хотите заполучить новенькую толстовку, как у меня на фото?

Или, может, вас интересует сертификат Google Cloud Professional Data Engineer и вы пытаетесь понять, как его получить?

За последние несколько месяцев я прошел несколько курсов и параллельно работал с Google Cloud — для подготовки к экзамену Professional Data Engineer. Затем я пошел на экзамен и сдал его. Через несколько недель прибыла толстовка — но сертификат пришел быстрее.

В этой статье будут приведены некоторые сведения, которые могут оказаться полезны, и шаги, которые я предпринял для получения сертификата Google Cloud Professional Data Engineer.

Переведено в Alconost
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии1

Кто такие дата-инженеры, и как ими становятся?

Время на прочтение9 мин
Количество просмотров148K
И снова здравствуйте! Заголовок статьи говорит сам о себе. В преддверии старта курса «Data Engineer» предлагаем разобраться в том, кто же такие дата-инженеры. В статье очень много полезных ссылок. Приятного прочтения.



Простое руководство о том, как поймать волну Data Engineering и не дать ей затянуть вас в пучину.

Складывается впечатление, что в наши дни каждый хочет стать дата-саентистом (Data Scientist). Но как насчет Data Engineering (инжиниринга данных)? По сути, это своего рода гибрид дата-аналитика и дата-саентиста; дата-инженер обычно отвечает за управление рабочими процессами, конвейерами обработки и ETL-процессами. Ввиду важности этих функций, в настоящее время это очередной популярный профессиональный жаргонизм, который активно набирает обороты.

Высокая зарплата и огромный спрос — это лишь малая часть того, что делает эту работу чрезвычайно привлекательной! Если вы хотите пополнить ряды героев, никогда не поздно начать учиться. В этом посте я собрал всю необходимую информацию, чтобы помочь вам сделать первые шаги.

Итак, начнем!
Читать дальше →
Всего голосов 14: ↑11 и ↓3+8
Комментарии3

Почему data scientist — это не data engineer?

Время на прочтение15 мин
Количество просмотров17K


«Ученый может открыть новую звезду, но не может создать её. Для этого ему пришлось бы обратиться к инженеру». Гордон Линдсей Глегг, «Дизайн дизайна» (1969)

Несколько месяцев назад я писал о различиях между специалистами по теории и методам анализа данных (data scientist) и специалистами по обработке данных (data engineer). Я говорил об их навыках и общих отправных точках. Произошло кое-что интересное: data scientist'ы начали наступать, утверждая, что они на самом деле так же компетентны в области инженерии данных, как и специалисты по обработке данных. Это было интересно, потому что специалисты по обработке данных не высказывали возражений и не говорили, что они являются специалистами по теории анализа данных.

Поэтому последние несколько месяцев я занимался сбором информации и наблюдением за поведением специалистов по теории анализа данных в их естественной рабочей среде. В этом посте я подробнее расскажу о том, почему data scientist не является data engineer'ом.
Читать дальше →
Всего голосов 34: ↑30 и ↓4+26
Комментарии2

«Так я понял, что теперь я дата инженер, и по-другому можно себя спозиционировать на рынке»

Время на прочтение11 мин
Количество просмотров8.8K
Хабр, привет! Еще одно интервью с нашим выпускником – Николай Рекубратский, тимлид команды разработчиков в компании XING. Николай рассказал о жизни в Германии, о ресурсе, на котором он нашел работу, чем европейские специалисты отличаются от российских в подходе к работе, о востребованности профессии data engineer в Европе, о проектах в XING и пр.

— Коля, какой у тебя бэкграунд и как складывался твой карьерный путь в data engineer и тимлида?

— Тимлидом я стал примерно год назад, но до сих пор стараюсь не упускать возможности немножко попрограммировать, когда доходят руки. До этого я долгое время был разработчиком и тем, кого сейчас называют дата инженером.

image

В своей прошлой конторе я занимался видеорекламой, строил аналитическую систему для наших клиентов. Это был стартап, который постепенно рос, пока не лопнул. Росли объемы бизнеса, и с ними – количество обрабатываемых данных, и в какой-то момент инструменты, которые я использовал и архитектуры, которые у нас применялись, перестали работать. В итоге я притащил новые инструменты, новые архитектуры, тогда была очень модной lambda-архитектура.

Потом был проект по составлению профилей для сотен миллионов пользователей, тоже довольно интересно. И во всех этих проектах мне нравился вызов: есть какие-то требования по отклику, по консистентности данных, еще по чему-то. Чтобы соответствовать этим ожиданиям и требованиям, нужно очень сильно переосмыслить текущую архитектуру. Это был и вызов, и свобода действий одновременно, именно это меня так и привлекало.
Читать дальше →
Всего голосов 20: ↑15 и ↓5+10
Комментарии1

Истории

Data Engineering и не только: видеозаписи и слайды с митапа в Wrike

Время на прочтение1 мин
Количество просмотров3.1K


15 ноября в офисе Wrike прошел митап «Data Engineering и не только». Поговорили об инженерах данных как об отдельной специальности, наметили отличия процессов в софтверном и дата-инжениринге, посмотрели, как можно писать тесты для Apache Spark, и чуть-чуть коснулись особенностей семантических технологий.

Для тех, кто не смог прийти, мы публикуем видеозаписи докладов.
Смотреть
Всего голосов 11: ↑11 и ↓0+11
Комментарии0

Личный опыт: Data Engineering на Upwork

Время на прочтение8 мин
Количество просмотров42K
Я много лет работал Data Engineer'ом и Data Scientist'ом, решал сложные бизнес-кейсы, строил большие системы, выводил это все в продакшен. В начале 2017го я бросил пить, курить и работать в офисе и ушел фрилансить, экспериментировать с альтернативными формами занятости. Довольно много времени я провел на Upwork. Судя по многочисленным комментариям, уважаемая аудитория не до конца представляет себе, что это такое. Вещаю.

Upwork это крупнейшая в мире биржа фриланса. Дата сатанисты и дата инженеры мало кому в этом мире нужны (по сравнению с переводчиками, веб-мастерами и переписывателями текстов), так что задач для нас относительно мало, так что они тяготеют к крупнейшей бирже в мире. Других фриланс-бирж с постоянным потоком задач для дата саентистов в мире нет — ни Guru, ни Toptal, ни отечественный fl.ru спросом похвастаться не могут. Что важно — для специалистов более массовых специальностей опыт фриланса может сильно отличаться.
Читать дальше →
Всего голосов 94: ↑89 и ↓5+84
Комментарии120

Введение в Data Engineering. ETL, схема «звезды» и Airflow

Время на прочтение10 мин
Количество просмотров55K
Способность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.

При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.


Читать дальше →
Всего голосов 15: ↑14 и ↓1+13
Комментарии1

Обзор второго дня Data Science Weekend 2018. Data Engineering, ETL, поисковые сервисы и многое другое

Время на прочтение9 мин
Количество просмотров4K
Несколько дней назад мы публиковали обзор первого дня Data Science Weekend 2018, который прошел 2-3 марта на Мансарде Rambler&Co. Изучив практику использования алгоритмов машинного обучения, теперь перейдем к обзору второго дня конференции, в течении которого спикеры рассказывали об использовании различных инструментов дата инженера для нужд дата-платформ, ETL, сервисах подсказок при поиске и многом другом.


Читать дальше →
Всего голосов 10: ↑9 и ↓1+8
Комментарии0

Как собрать сильную команду аналитиков и инженеров данных? Опыт компании Wish. Часть 2

Время на прочтение7 мин
Количество просмотров4.6K
В первой части мы рассмотрели, как в компании Wish была перестроена инфраструктура данных для того, чтобы увеличить их аналитические возможности. На этот раз уделим внимание человеческим ресурсам и поговорим о том, как дальше масштабировать компанию и создать идеальные команды инженеров и аналитиков. Также расскажем и о нашем подходе к найму самых талантливых кандидатов на рынке.


Читать дальше →
Всего голосов 10: ↑9 и ↓1+8
Комментарии0

1-я лабораторная работа программы Data Engineer

Время на прочтение7 мин
Количество просмотров14K

Как говорится, никогда такого не было, и вот опять. Мы подумали и решили выложить в свободный доступ первую лабораторную работу нашей новой программы Data Engineer. Бесплатно. Без смс.


Чуть ранее мы писали, зачем вообще стоит присмотреться к этой профессии. Недавно взяли интервью у одного из таких специалистов, и по совместительству, нашего преподавателя.



Так вот. Потенциально каждый самостоятельно может пройти эту лабу и почувствовать себя немножко этим дата инженером. Для этого будет все, что требуется.


А делать в этой лабе мы будем следующее.


  1. Зарегимся на облачном сервисе.
  2. Поднимем на нем 4 виртуальных машины.
  3. Развернем кластер при помощи Ambari.
  4. Поднимем сайт на nginx на одной из виртуалок.
  5. Добавим специальный javascript на каждую страницу этого сайта.
  6. Соберем кликстрим на HDFS.
  7. Соберем его же в Kafka.
Читать дальше →
Всего голосов 11: ↑8 и ↓3+5
Комментарии4

“Главный вызов — это кадровый голод” — панельная дискуссия о подборе команд по работе с данными. Data Science Week 2017

Время на прочтение10 мин
Количество просмотров6.3K
Привет, Хабр! Публикуем заключительную часть обзора Data Science Week 2017, прошедшем в Москве 12-14 сентября. Сегодня расскажем о панельной дискуссии по теме “Подбор команд по работе с данными и оценка их эффективности”. Модератором выступила Ольга Филатова, вице-президент по персоналу и образовательным проектам Mail.ru Group, а участниками были Виктор Кантор (Яндекс), Андрей Уваров (МегаФон), Павел Клеменков (Rambler&Co) и Александр Ерофеев (Сбербанк).


Читать дальше →
Всего голосов 11: ↑8 и ↓3+5
Комментарии26

“Без data engineer-а ценность модели аналитика стремится к нулю” — интервью с дата инженером Николаем Марковым

Время на прочтение10 мин
Количество просмотров16K
Привет, Хабр! Data Engineering становится все более популярным, многие компании постепенно открывают соответствующие вакансии. В связи с этим мы взяли интервью у Senior Data Science Engineer, Aligned Research Group LLC и преподавателя на программах “Специалист по большим данным” и “Data Engineer” Николая Маркова о том, что должны уметь data scientist-ы и data engineer-ы, чего им чаще всего не хватает и как найти свое место в анализе данных.


Читать дальше →
Всего голосов 13: ↑10 и ↓3+7
Комментарии14

4 причины стать Data Engineer

Время на прочтение5 мин
Количество просмотров36K
Привет, Хабр! На данный момент в Data Science образовался огромный перекос в сторону data scientist-ов, об этой профессии сейчас знают даже те, кто никак не связан с IT, а новые вакансии появляются ежедневно. В свою очередь data engineer-ы не получают того внимания, которое бы соответствовало их важности для компании, поэтому в сегодняшнем посте мы бы хотели исправить эту несправедливость и объяснить, почему разработчикам и администраторам стоит немедленно начинать изучать Kafka и Spark и строить свой первый пайплайн.



В скором времени ни одна компания не сможет обойтись без Data Engineer


Давайте рассмотрим типичный рабочий день data scientist-а:

Получается, что около 80% своего времени data scientist тратит на сбор данных, их предобработку и очистку — процессы, которые напрямую не связаны с главной его обязанностью: поиском инсайтов и паттернов в данных. Конечно, подготовка данных требует высшего уровня мастерства, но это не data science, это не то, зачем тысячи людей сегодня стремятся попасть в эту отрасль.
Читать дальше →
Всего голосов 24: ↑14 и ↓10+4
Комментарии12

Ближайшие события

Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
OTUS CONF: GameDev
Дата30 мая
Время19:00 – 20:30
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область

Генератор кликов на Python для программы Data Engineer

Время на прочтение5 мин
Количество просмотров7K
Процесс разработки образовательной программы очень похож на процесс разработки нового продукта. И там, и там ты пытаешься вначале понять, а есть ли спрос на то, что ты собираешься производить? Существует ли в реальности та проблема, которую ты хочешь решить?

Предыстория


В этот раз для нас всё было довольно просто. Несколько выпускников нашей программы «Специалист по большим данным» в течение, наверное, года просили:
Сделайте для нас еще одну программу, где мы бы могли научиться работать с Kafka, Elasticsearch и разными инструментами экосистемы Hadoop, чтобы собирать пайплайны данных.

Потом со стороны работодателей стали «прилетать» запросы, которые собирательно можно описать так:
Data Engineer'ы – это очень горячие вакансии!
Реально их уже на протяжении полугода никак не можем закрыть.
Очень здорово, что вы обратили внимание именно на эту специальность. Сейчас на рынке очень большой перекос в сторону Data Scientist'ов, а больше половины работы по проектам – это именно инженерия.

С этого момента стало понятно, что спрос есть, и проблема существует. Надо бросаться в разработку программы!
Читать дальше →
Всего голосов 9: ↑6 и ↓3+3
Комментарии3

Восхождение дата-инженера

Время на прочтение11 мин
Количество просмотров16K
image

Я присоединился к команде Facebook в 2011 году в качестве инженера бизнес-аналитика. К моменту, когда я покинул команду в 2013 году я уже был дата-инженером.

Меня не продвигали или назначали на эту новую позицию. Фактически, Facebook пришла к выводу, что выполняемая нами работа является классической бизнес-аналитикой. Роль, которую в итоге мы для себя создали, была полностью новой дисциплиной, а я и моя команда находились на острие этой трансформации. Мы разрабатывали новые подходы, способы решения задач и инструменты. При этом, чаще всего, мы игнорировали традиционные методы. Мы были пионерами. Мы были дата-инженерами!

Дата-инжиниринг?


Наука о данных как самостоятельная дисциплина переживает период отроческого самоутверждения и определения себя. В тоже время дата-инжиниринг можно было назвать ее «младшим братом», который тоже проходил через нечто подобное. Дата-инжиниринг принимал от своего «старшего родственника» сигналы, искал свое место и собственную идентичность. Как и ученые, занимающиеся обработкой данных, дата-инженеры тоже пишут код. Он является высокоаналитическим, с большой долей визуализации.

Но в отличие от ученых, работающих с данными и вдохновленными более зрелым прародителем сферы — программированием — дата-инженеры создают собственные инструменты, инфраструктуру, фреймворки и сервисы. На самом деле, мы намного ближе к программированию, чем к науке о данных.
Читать дальше →
Всего голосов 21: ↑18 и ↓3+15
Комментарии3

Наблюдаем за пользователем – два типа timestamp

Время на прочтение2 мин
Количество просмотров10K
Давным-давно, один специалист по базам данных (из тех, бородатых и уже седых) сказал мне, что метки времени (timestamp) — это самая сложная тема в базах данных. Я ему, правда, не поверил, но приколы со временем реально встречаются.

Есть стандартная проблема, которую часто вижу в чужих данных. Положим собрались вы отслеживать события/действия пользователя. Обычно у вас будет это делать некий код (JS в вебе или SDK для аппов), который будет слать данные серверу.

Каждому событию нужна метка времени. И есть выбор из двух: локальное время на клиенте или время получения события сервером. Один хороший совет что делать и загадка без ответа под катом
Читать дальше →
Всего голосов 15: ↑12 и ↓3+9
Комментарии33
12 ...
47