Как стать автором

Apache *

Свободный веб-сервер

Статьи Посты Новости Авторы Компании

Lifailon 1 мар в 09:30

REST API сервер на Bash с использованием сокетов и Apache

Средний

14 мин

6.1K

*nix*Оболочки*API*Apache*

Кейс

Всем привет! Ранее рассказывал о том, как создать REST API и Web-сервер на PowerShell для Windows, а также упоминал, что подобный сервер будет работать и в системе Linux, благодаря кроссплатформенной версии PowerShell Core. Безусловно, для подобных целей лучше используются специализированные серверные фреймворки или библиотеки, такие как Flask или Django в Python, но меня не покидала идея реализации похожего сервера, где описание логики будет производиться на языке одного только Bash. Приведу примеры, с помощью которых можно создать такой сервер используя сетевые сокеты netcat , socat и ncat, а также веб-сервера Apache с использованием встроенных модулей.

Читать далее

+16

Hramoff 23 фев в 16:31

Алертинг состояния выполения DAG`ов Apache Airflow в Telegram за 1 минуту

Простой

4 мин

3.5K

Из песочницы

Коллеги, здарова! Часто бывает что нужно отправить сообщение в мессенджер к разработчикам, в случае возникновения различных проблем.

Представляю небольшое решение, которое позволит отправить сообщение в Telegram с информацией о состоянии DAG`а Apache Airflow

Читать далее

+6

m0bikylym 16 фев в 09:30

С нуля до плагина JMeter: пишем свой продукт без опыта

Средний

10 мин

4K

Тестирование IT-систем*Java*Apache*

Из песочницы

От проблемы к практике: как привязать JMeter к Allure Report если нет опыта программирования, но очень хочется

Читать далее

+5

Malakhova-Natalya 11 фев в 10:30

Мой опыт в Airflow: как повысить стабильность загрузки данных в 5 раз

Простой

4 мин

6.7K

Apache*Учебный процесс в ITData Engineering*

Из песочницы

Когда я пришла на проект, в нём уже было много всего: много данных, много источников, много задач в Airflow. Чтобы ощутить масштаб, достаточно, пожалуй, взглянуть на одну картинку.

Читать далее

+15

badcasedaily1 1 фев в 10:47

Основы репликации в Kafka

Простой

5 мин

6.6K

Блог компании OTUSApache*

Привет, Хабр!

Репликация в Apache Kafka - это механизм, который обеспечивает доступность и надежность в обработке потоков данных. Она представляет собой процесс дублирования данных с одной части темы в другие, называемые репликами.

В этой статье рассмотрим основы репликации в кафке.

Читать далее

+6

badcasedaily1 30 янв в 12:25

Продюсеры и консьюмеры с Apache Kafka в Python

Простой

7 мин

8.3K

Блог компании OTUSPython*Apache*

Обзор

Салют, Хабр!

Apache Kafka - это распределенная платформа потоковой обработки, предназначенная для построения систем обработки данных. Kafka позволяет публиковать, подписываться, хранить и обрабатывать потоки данных в реальном времени. Все это дает нам очень высокую пропускную способность и масштабируемость.

Основные фигуры в кафке это продюсеры и консюмеры. Продюсеры — это компоненты, которые производят и отправляют данные в Kafka. Они могут быть чем угодно: от простых скриптов до сложных систем. Консюмеры — это те, кто подписывается на данные и обрабатывает их. Они могут быть реализованы в различных формах, например, для анализа данных или мониторинга.

В статье мы и поговорим именно про продюсерах и консюмерах в экосистеме Kafka в коннекте с Python.

Читать далее

+9

skonik_dev 26 янв в 11:23

Разбираемся с работой брокеров, или Что такое гарантия доставки сообщений и как с этим жить…

Средний

12 мин

4.6K

Блог компании СамолетIT-инфраструктура*Apache*Хранение данных*Микросервисы*

Туториал

В эпоху мгновенной коммуникации, гарантия доставки сообщений становится не просто плюсом, но и неотъемлемой частью репутации сервиса. Как быть уверенным, что ваше сообщение дойдет до адресата именно тогда, когда это нужно? Привет, Хабр, меня зовут Сергей Коник, я работаю в Самолете на должности старшего разработчика и одна из проблем, с которой сталкивались наши команды, – это потеря важных сообщений при общении между сервисами. Расскажу сегодня основы, как с этим работать.

Читать далее

+13

ngis 21 янв в 08:59

CyberOffice.pro – обновление, ребрендинг

Простой

2 мин

3.9K

Open source*Apache*Софт

Обзор

В статье краткое описание и ссылка на дистрибутив CyberOffice.pro.

CyberOffice.pro – открытый проект для ценящих стабильность, реентерабельность и совместимость, работая со сложными документами; практикующих цифровую гигиену без фанатизма.

Читать далее

+1

m11 16 янв в 09:13

Что нового в документации YDB в декабре 2023

Простой

2 мин

1.4K

Блог компании YDBOpen source*Apache*Kubernetes*Подготовка технической документации*

Дайджест

Перевод

Краткий дайджест свежего контента и новой функциональности в документации YDB за декабрь прошлого года.

Читать далее

+4

exc3pti0n 7 янв в 13:16

OpenWire — смотрим на атаку с платформы Cyberdefenders

Простой

4 мин

1.7K

Информационная безопасность*Apache*CTF*

Во время вашей смены в качестве аналитика второй линии SOC вы получаете информацию с первой линии относительно общедоступного сервера. Этот сервер был помечен как установивший подключения к нескольким подозрительным IP-адресам. В ответ вы запускаете стандартный протокол реагирования на инциденты, который создает изоляцию сервера от сети для предотвращения потенциального горизонтального перемещения или утечки данных и получение перехваченного пакета от утилиты NSM для анализа. Ваша задача — проанализировать PCAP и проверить наличие признаков вредоносной активности.

Читать далее

+3

aasmc 4 янв в 17:56

Рассчитываем рейтинг товара на основе оценок пользователей с KafkaStreams и OpenSearch

Средний

14 мин

3.4K

Java*Apache*Kotlin*

Туториал

Всем привет! Меня зовут Александр. Последний год тружусь фрилансером на проекте по созданию очередного маркетплейса. Мои задачи включают разработку скоринговой системы продуктов, которая бы позволяла формировать выборку товаров по популярности на основе нескольких показателей. Одним из показателей являются оценки пользователей по шкале от 1 до 5. Думаю, что не станет открытием Америки то, что расчет рейтинга товара по среднему арифметическому всех оценок приводит к насовсем корректным результатам выборки. Например, при таком подходе товар "А" с одной оценкой 5 в рейтинге будет выше товара "Б", у которого сотня оценок 5 и одна оценка 4. Решение данной проблемы давно найдено - для расчета следует применить доверительный интервал биномиального распределения по методу Уилсона (Wilson Score Confidence Interval).

Читать далее

+9

svtDanny 2 янв в 10:58

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Простой

5 мин

2.4K

Apache*Big Data*Хранение данных*Data Engineering*

Кейс

Перевод

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

Читать далее

+3

Albert_Wesker 28 дек 2023 в 17:01

Построение архитектур для обработки данных в режиме реального времени при помощи Apache Kafka, Flink и Druid

Сложный

11 мин

8.5K

Блог компании Timeweb CloudСистемное администрирование*IT-инфраструктура*Apache*Хранилища данных*

Обзор

Перевод

Командам, которые занимаются обработкой данных (поступающих пакетными партиями в рабочих потоках) сложно соответствовать современным требованиям по обработке данных в режиме реального времени. Почему? Потому что пакетный поток данных – от доставки данных до их дальнейшей обработки и анализа – это такая вещь, при работе с которой нужно уметь ждать.

Требуется ждать тех данных, которые пойдут на отправку в ETL-инструмент, дожидаться, пока будет обработана куча данных, ждать, пока информация будет загружена в хранилище данных и даже ждать, пока закончат выполняться сделанные запросы.

Но в опенсорсном пространстве есть решение, разработанное в опенсорсе. В сочетании друг с другом Apache Kafka, Flink и Druid, позволяют создать архитектуру для обработки данных, которая работает в режиме реального времени и позволяет исключить все эти этапы ожидания. В этом посте мы исследуем, как комбинация этих инструментов позволяет создавать широкий спектр приложений для обработки данных в режиме реального времени.

Читать дальше →

+18

MaxRokatansky 13 дек 2023 в 17:57

Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle

8 мин

2.2K

Блог компании OTUSApache*Data Engineering*

Перевод

Spark Connect — это, пожалуй, самая ожидаемая фича Apache Spark 3.4.0. Она была анонсирована на конференции Data+AI Summit 2022 и сейчас широко освещается в социальных сетях. Вот и я решил приобщиться и внести свой небольшой вклад в это дело, продемонстрировав вам несколько интересных деталей реализации.

Читать далее

+5

aasmc 10 дек 2023 в 18:12

Kafka Connect на примере Debezium PostgresConnector

Средний

19 мин

11K

PostgreSQL*Java*Apache*Kotlin*

Туториал

В предыдущей статье про микросервисную архитектуру на основе событий с использованием Kafka Streams достаточно поверхностно был упомянут io.confluent.connect.jdbc.JdbcSourceConnector, который использовался для вычитания данных из SQLite и отправки их в топик Kafka. Сейчас я бы хотел более подробно разобрать технологию Kafka Connect на примере io.debezium.connector.postgresql.PostgresConnector. Как и в прошлый раз, я реализовал небольшой демо проект, код которого доступен на GitHub. В проекте кода совсем немного, однако чтобы понять все настройки, примененные в коннекторе, придется достаточно подробно пройтись по теоретической части. Итак, приступим.

Читать далее

+4

alexeyinkin 4 дек 2023 в 14:02

Как я стал Google Developer Expert по Flutter

Простой

5 мин

6.8K

Apache*Dart*Flutter*

Ретроспектива

У Google есть программа для экспертов в их технологиях. Чтобы попасть в неё, нужно выступать, писать, обучать, менторить или делать open-source в технологиях Google. Программа называется “Google Developer Experts”, и это самое привилегированное сообщество разработчиков, о котором я знаю.

Читать далее

+4

plotn1 30 ноя 2023 в 18:26

Нетипичные сценарии использования BI-системы (Apache Superset)

Средний

12 мин

8.7K

Блог компании РостелекомApache*Визуализация данных*

Туториал

Всем привет!

Сегодня поговорим о немного нетипичной для меня теме, а именно — Apache Superset. Обычно я пишу длинные «философские» статьи «на свободную тему», но в этот раз — это будет туториал. Так что кому‑то может показаться банальностью, но, опять таки, вдруг кому поможет. Почему‑то именно по суперсету на Хабре оскорбительно мало материалов. Да, у него в целом неплохая документация, но она все же — документация, поэтому в меру сухая, в ней нет дополнительных объяснений, примеров. Попробуем хоть немного исправить эту ситуацию.

Читать далее

+16

Falcon_eye 29 ноя 2023 в 18:33

Apache Spark… Это база

Средний

6 мин

8.1K

Data Mining*Apache*Big Data*Data Engineering*

Обзор

✏️ Технотекст 2023

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.

Читать далее

0

Georgiy_Ubilava 24 ноя 2023 в 19:09

Анализируем 15 млн чеков за 3 секунды: как мы прошли путь от калькулятора акций до CDP-платформы

12 мин

5.2K

Блог компании Crystal Service IntegrationАнализ и проектирование систем*Apache*Визуализация данных*

Из песочницы

Рассказываем историю о том, как калькулятор скидок в составе кассового ПО стал CDP-платформой с аналитическим модулем, управляемым с минимальным участием разработчиков.

Читать далее

+10

aasmc 23 ноя 2023 в 13:19

Микросервисы на основе событий с Kafka Streams и Spring Boot

Средний

32 мин

15K

Java*Apache*Kotlin*

Туториал

Из песочницы

Всем привет! Это моя первая статья на Habr, так что не судите строго за стиль, а вот по содержанию буду рад любой конструктивной критике.

Статья основана на публикациях Confluent о том, как можно реализовать микросервисную архитектуру на основе событий с помощью Kafka Streams и KSQL.

Читать далее

+7

2

3 4 ...