Pull to refresh

Comments 10

Если честно, не понял ваш тезис о том, что вам не нужен дата-инженер, потому что все ваши данные в облаках. Либо у вас есть много разнородных данных и/или аналитики над ними, и вам нужен человек, который будет разгружать специалистов в этом плане, либо у вас немного данных и/или аналитики, и специалист вам не нужен. Также специалисты по работе с данными могут справляться без помощника, но это заставляет страдать либо их, либо ваши бюджеты :). По крайней мере, мне так кажется.

Мы как раз ищем дата-инженера, написал об этом в конце. А тезис статьи в том, что без него можно обойтись до поры до времени, аналитики сами могут все настроить, а дата-инженер потом просто поможет оптимизировать и ускорить их работу.

Меня просто зацепила строчка с противопоставлением облака — необходимость в инженере
«У нас в Skyeng сейчас 30+ аналитиков-фулстеков и пока нет ни одного дата-инженера… потому что вся наша инфраструктура данных построена на облачных сервисах»
Не суть. Видимо, неправильно вас понял.
На самом деле я точно также понял. Связь с облаками далеко не очевидна.
Может я конечно чего не понимаю, но Airflow позиционирует себя как аналог Oozie (хотя конечно, это именно аналог, а не буквально замена). Так вот — на Oozie не разрабатывают ни ETL, ни какие либо пайплайны. Это лишь вспомогательный инструмент, реальная логика не в нем — на нем просто невозможно выразить. Поэтому и тезис вида «а мы тут сделали супер-пупер Airflow, на котором просто все зашибись» — он слегка сомнительный.

>если, конечно, вам не нужно обрабатывать петабайты данных или миллиарды событий в день.
А вот это выглядит примерно так: «Если у вас данных на самом деле мало, то вам и не нужен специалист по большим данным, а достаточно будет хорошего SQL DBA». Как-то так. Ну так это достаточно очевидно, разве нет?
Смотрите, тут вот о чем речь. Несколько лет назад было только две опции, либо обычная база, например, Postgres, либо большие данные и Hadoop. Сейчас у быстрорастущего стартапа есть опция использовать облачное аналитическое хранилище типа BigQuery или Redshift, куда класть довольно много данных, но обойтись без дата-инженера в течение довольно большого времени.
Так если у вас данных например немного, а еще они изначально хорошо структурированы — то вы и на хадупе в общем-то можете спокойно обходиться без оптимизации, без специалистов по разработке ETL, и все будет ровно тоже самое. И данные в принципе сможете держать в облаке.
Конкретно у нас более 30 продакшен баз, несколько мобильных и веб-приложений, откуда мы собираем данные и события. Лично я слабо представляю, как без специалиста по ETL сгрузить это всё в Hadoop.
Сколько у вас данных примерно? Насколько они структурированы? Не думали попробовать Snowflake?

Скорее всего, получится подешевле, чем Redshift, а вопросы оптимизации отодвинутся ещё на два порядка.
У нас много чего другого в облаке Amazon, поэтому нам удобнее Redshift.
А так, да, Snowflake одна из отличных опций.
Sign up to leave a comment.