Skyeng-Habr Feb 8 2019 at 13:47

Нужен ли вашей команде Data Engineer?

13 min

9.3K

Skyeng corporate blogBig Data*Data visualization*Start-up developmentIT career

+11

Comments 10

molec Feb 8 2019 at 18:11

Если честно, не понял ваш тезис о том, что вам не нужен дата-инженер, потому что все ваши данные в облаках. Либо у вас есть много разнородных данных и/или аналитики над ними, и вам нужен человек, который будет разгружать специалистов в этом плане, либо у вас немного данных и/или аналитики, и специалист вам не нужен. Также специалисты по работе с данными могут справляться без помощника, но это заставляет страдать либо их, либо ваши бюджеты :). По крайней мере, мне так кажется.

mngr Feb 8 2019 at 19:51

Мы как раз ищем дата-инженера, написал об этом в конце. А тезис статьи в том, что без него можно обойтись до поры до времени, аналитики сами могут все настроить, а дата-инженер потом просто поможет оптимизировать и ускорить их работу.

molec Feb 8 2019 at 20:57

Меня просто зацепила строчка с противопоставлением облака — необходимость в инженере
«У нас в Skyeng сейчас 30+ аналитиков-фулстеков и пока нет ни одного дата-инженера… потому что вся наша инфраструктура данных построена на облачных сервисах»
Не суть. Видимо, неправильно вас понял.

sshikov Feb 9 2019 at 10:04

На самом деле я точно также понял. Связь с облаками далеко не очевидна.

sshikov Feb 8 2019 at 20:28

Может я конечно чего не понимаю, но Airflow позиционирует себя как аналог Oozie (хотя конечно, это именно аналог, а не буквально замена). Так вот — на Oozie не разрабатывают ни ETL, ни какие либо пайплайны. Это лишь вспомогательный инструмент, реальная логика не в нем — на нем просто невозможно выразить. Поэтому и тезис вида «а мы тут сделали супер-пупер Airflow, на котором просто все зашибись» — он слегка сомнительный.

>если, конечно, вам не нужно обрабатывать петабайты данных или миллиарды событий в день.
А вот это выглядит примерно так: «Если у вас данных на самом деле мало, то вам и не нужен специалист по большим данным, а достаточно будет хорошего SQL DBA». Как-то так. Ну так это достаточно очевидно, разве нет?

mngr Feb 9 2019 at 19:33

Смотрите, тут вот о чем речь. Несколько лет назад было только две опции, либо обычная база, например, Postgres, либо большие данные и Hadoop. Сейчас у быстрорастущего стартапа есть опция использовать облачное аналитическое хранилище типа BigQuery или Redshift, куда класть довольно много данных, но обойтись без дата-инженера в течение довольно большого времени.

sshikov Feb 9 2019 at 19:55

Так если у вас данных например немного, а еще они изначально хорошо структурированы — то вы и на хадупе в общем-то можете спокойно обходиться без оптимизации, без специалистов по разработке ETL, и все будет ровно тоже самое. И данные в принципе сможете держать в облаке.

mngr Feb 9 2019 at 22:05

Конкретно у нас более 30 продакшен баз, несколько мобильных и веб-приложений, откуда мы собираем данные и события. Лично я слабо представляю, как без специалиста по ETL сгрузить это всё в Hadoop.

wildraid Feb 8 2019 at 23:15

Сколько у вас данных примерно? Насколько они структурированы? Не думали попробовать Snowflake?

Скорее всего, получится подешевле, чем Redshift, а вопросы оптимизации отодвинутся ещё на два порядка.

mngr Feb 9 2019 at 19:35

У нас много чего другого в облаке Amazon, поэтому нам удобнее Redshift.
А так, да, Snowflake одна из отличных опций.