Как стать автором
Обновить

Комментарии 8

Хорошо, если данные уже дают. Но вот, когда их еще предстоит спарсить с сайтов, что в общем то тоже задача дата инженера, то вам придется еще впитать в себя DevOps.

В теории, под обязанности дата инженера можно вписать практически все, что угодно)

эту фразу можно работодателю передать.

Отличная картинка в статье, долго не мог понять конкретно чем дата инженер занимается и чем отличается от смежных специальностей. На многих сайтах пишут много текста про отличие того же дата инженера от data scientist, но все слишком абстрактно рассказывают

но в некоторых местах пользуются также и другими языками - Java или Scala

А почему именно они а, не скажем, C#? Какой-то специфический софт написан на Java?

Например Apache Spark, Hadoop, Kafka и так далее.

В значительной мере это связано с применением Spark'a в областях Big Data, который в "истинном" виде существует именно на Java/Scala. В действительности, что Java, что Scala выполнются через JVM.

Конечно, можно использовать, например, Pyspark и писать на Python, но в таком случае снижается производительность, так как все Python-объекты будут проходить преобразования в Java-объекты, что не эффективно.

Всё стандартное почти без потери в производительности, есть много тестов, под капотом всё переписано и оптимизировано. А вот если писать что-то своё, всякие разные UDF... Вот тут уже на питоне потери в производительности.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории