Как стать автором
Обновить
11.15

Apache *

Свободный веб-сервер

Сначала показывать
Порог рейтинга
Уровень сложности

Основные функции Apache Tomcat

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 1.9K

Привет, дорогие читатели!

Apache Tomcat — это открытое программное обеспечение, реализующее спецификации Java Servlet, JSP и Java WebSocket, предоставляя таким образом платформу для запуска веб-приложений, написанных на языке Java. Разработанный и поддерживаемый Apache Software Foundation, Tomcat служит контейнером сервлетов, который позволяет веб-приложениям использовать Java для создания динамичных веб-страниц.

Tomcat может работать как самостоятельный веб-сервер, где он обрабатывает как статические страницы, так и динамические запросы через Servlets и JSP. Однако часто Tomcat используется в сочетании с традиционными веб-серверами, такими как Apache HTTP Server или Nginx, для обработки статического контента, в то время как динамический контент обрабатывается через Tomcat.

В этой статье мы рассмотрим основной функционал Tomcat.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 0

Новости

Apache NiFi. Как быстро подружиться с LDAP и Registry

Уровень сложности Простой
Время на прочтение 17 мин
Количество просмотров 1.3K

Казалось бы, про Apache NiFi уже писали не раз. Но если ты только знакомишься с инструментом, разобраться в таких статьях бывает нелегко. Обычно с тобой говорят так, будто ты уже давно в теме, да и задачи чаще решают явно не твои. С официальной документацией тоже все сложно: она есть, но для быстрого погружения явно не подходит.

Вот почему я решил подготовить свой гайд для новичка. Попробуем максимально быстро разобраться с первичной настройкой NiFi и NiFi Registry, подключить авторизацию по LDAP, протестировать работоспособность, рассмотреть возможные ошибки настройки и отдебажить их. 

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 6

REST API сервер на Bash с использованием сокетов и Apache

Уровень сложности Средний
Время на прочтение 14 мин
Количество просмотров 4.9K

Всем привет! Ранее рассказывал о том, как создать REST API и Web-сервер на PowerShell для Windows, а также упоминал, что подобный сервер будет работать и в системе Linux, благодаря кроссплатформенной версии PowerShell Core. Безусловно, для подобных целей лучше используются специализированные серверные фреймворки или библиотеки, такие как Flask или Django в Python, но меня не покидала идея реализации похожего сервера, где описание логики будет производиться на языке одного только Bash. Приведу примеры, с помощью которых можно создать такой сервер используя сетевые сокеты netcat , socat и ncat, а также веб-сервера Apache с использованием встроенных модулей.

Читать далее
Всего голосов 19: ↑17 и ↓2 +15
Комментарии 3

Алертинг состояния выполения DAG`ов Apache Airflow в Telegram за 1 минуту

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 2.5K

Коллеги, здарова! Часто бывает что нужно отправить сообщение в мессенджер к разработчикам, в случае возникновения различных проблем.

Представляю небольшое решение, которое позволит отправить сообщение в Telegram с информацией о состоянии DAG`а Apache Airflow

Читать далее
Всего голосов 10: ↑8 и ↓2 +6
Комментарии 8

Истории

С нуля до плагина JMeter: пишем свой продукт без опыта

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 2.7K

От проблемы к практике: как привязать JMeter к Allure Report если нет опыта программирования, но очень хочется

Читать далее
Всего голосов 11: ↑8 и ↓3 +5
Комментарии 6

Мой опыт в Airflow: как повысить стабильность загрузки данных в 5 раз

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 6.2K

Когда я пришла на проект, в нём уже было много всего: много данных, много источников, много задач в Airflow. Чтобы ощутить масштаб, достаточно, пожалуй, взглянуть на одну картинку.

Читать далее
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 4

Основы репликации в Kafka

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 4.8K

Привет, Хабр!

Репликация в Apache Kafka - это механизм, который обеспечивает доступность и надежность в обработке потоков данных. Она представляет собой процесс дублирования данных с одной части темы в другие, называемые репликами.

В этой статье рассмотрим основы репликации в кафке.

Читать далее
Всего голосов 12: ↑9 и ↓3 +6
Комментарии 2

Продюсеры и консьюмеры с Apache Kafka в Python

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 4.6K

Салют, Хабр!

Apache Kafka - это распределенная платформа потоковой обработки, предназначенная для построения систем обработки данных. Kafka позволяет публиковать, подписываться, хранить и обрабатывать потоки данных в реальном времени. Все это дает нам очень высокую пропускную способность и масштабируемость.

Основные фигуры в кафке это продюсеры и консюмеры. Продюсеры — это компоненты, которые производят и отправляют данные в Kafka. Они могут быть чем угодно: от простых скриптов до сложных систем. Консюмеры — это те, кто подписывается на данные и обрабатывает их. Они могут быть реализованы в различных формах, например, для анализа данных или мониторинга.

В статье мы и поговорим именно про продюсерах и консюмерах в экосистеме Kafka в коннекте с Python.

Читать далее
Всего голосов 13: ↑11 и ↓2 +9
Комментарии 1

Разбираемся с работой брокеров, или Что такое гарантия доставки сообщений и как с этим жить…

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 3.7K

В эпоху мгновенной коммуникации, гарантия доставки сообщений становится не просто плюсом, но и неотъемлемой частью репутации сервиса. Как быть уверенным, что ваше сообщение дойдет до адресата именно тогда, когда это нужно? Привет, Хабр, меня зовут Сергей Коник, я работаю в Самолете на должности старшего разработчика и одна из проблем, с которой сталкивались наши команды, – это потеря важных сообщений при общении между сервисами. Расскажу сегодня основы, как с этим работать.

Читать далее
Всего голосов 15: ↑14 и ↓1 +13
Комментарии 10

CyberOffice.pro – обновление, ребрендинг

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 3.8K

В статье краткое описание и ссылка на дистрибутив CyberOffice.pro.

CyberOffice.pro – открытый проект для ценящих стабильность, реентерабельность и совместимость, работая со сложными документами; практикующих цифровую гигиену без фанатизма.

Читать далее
Всего голосов 5: ↑3 и ↓2 +1
Комментарии 13

Что нового в документации YDB в декабре 2023

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 1.3K

Краткий дайджест свежего контента и новой функциональности в документации YDB за декабрь прошлого года.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 1

OpenWire — смотрим на атаку с платформы Cyberdefenders

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 1.5K

Во время вашей смены в качестве аналитика второй линии SOC вы получаете информацию с первой линии относительно общедоступного сервера. Этот сервер был помечен как установивший подключения к нескольким подозрительным IP-адресам. В ответ вы запускаете стандартный протокол реагирования на инциденты, который создает изоляцию сервера от сети для предотвращения потенциального горизонтального перемещения или утечки данных и получение перехваченного пакета от утилиты NSM для анализа. Ваша задача — проанализировать PCAP и проверить наличие признаков вредоносной активности.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Рассчитываем рейтинг товара на основе оценок пользователей с KafkaStreams и OpenSearch

Уровень сложности Средний
Время на прочтение 14 мин
Количество просмотров 2.9K

Всем привет! Меня зовут Александр. Последний год тружусь фрилансером на проекте по созданию очередного маркетплейса. Мои задачи включают разработку скоринговой системы продуктов, которая бы позволяла формировать выборку товаров по популярности на основе нескольких показателей. Одним из показателей являются оценки пользователей по шкале от 1 до 5. Думаю, что не станет открытием Америки то, что расчет рейтинга товара по среднему арифметическому всех оценок приводит к насовсем корректным результатам выборки. Например, при таком подходе товар "А" с одной оценкой 5 в рейтинге будет выше товара "Б", у которого сотня оценок 5 и одна оценка 4. Решение данной проблемы давно найдено - для расчета следует применить доверительный интервал биномиального распределения по методу Уилсона (Wilson Score Confidence Interval).

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 0

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 2.4K

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 0

Построение архитектур для обработки данных в режиме реального времени при помощи Apache Kafka, Flink и Druid

Уровень сложности Сложный
Время на прочтение 11 мин
Количество просмотров 7.7K
image

Командам, которые занимаются обработкой данных (поступающих пакетными партиями в рабочих потоках) сложно соответствовать современным требованиям по обработке данных в режиме реального времени. Почему? Потому что пакетный поток данных – от доставки данных до их дальнейшей обработки и анализа – это такая вещь, при работе с которой нужно уметь ждать.

Требуется ждать тех данных, которые пойдут на отправку в ETL-инструмент, дожидаться, пока будет обработана куча данных, ждать, пока информация будет загружена в хранилище данных и даже ждать, пока закончат выполняться сделанные запросы.

Но в опенсорсном пространстве есть решение, разработанное в опенсорсе. В сочетании друг с другом Apache Kafka, Flink и Druid, позволяют создать архитектуру для обработки данных, которая работает в режиме реального времени и позволяет исключить все эти этапы ожидания. В этом посте мы исследуем, как комбинация этих инструментов позволяет создавать широкий спектр приложений для обработки данных в режиме реального времени.
Читать дальше →
Всего голосов 20: ↑19 и ↓1 +18
Комментарии 0

Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle

Время на прочтение 8 мин
Количество просмотров 2K

Spark Connect — это, пожалуй, самая ожидаемая фича Apache Spark 3.4.0. Она была анонсирована на конференции Data+AI Summit 2022 и сейчас широко освещается в социальных сетях. Вот и я решил приобщиться и внести свой небольшой вклад в это дело, продемонстрировав вам несколько интересных деталей реализации.

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Комментарии 0

Kafka Connect на примере Debezium PostgresConnector

Уровень сложности Средний
Время на прочтение 19 мин
Количество просмотров 7.2K

В предыдущей статье про микросервисную архитектуру на основе событий с использованием Kafka Streams достаточно поверхностно был упомянут io.confluent.connect.jdbc.JdbcSourceConnector, который использовался для вычитания данных из SQLite и отправки их в топик Kafka. Сейчас я бы хотел более подробно разобрать технологию Kafka Connect на примере io.debezium.connector.postgresql.PostgresConnector. Как и в прошлый раз, я реализовал небольшой демо проект, код которого доступен на GitHub. В проекте кода совсем немного, однако чтобы понять все настройки, примененные в коннекторе, придется достаточно подробно пройтись по теоретической части. Итак, приступим.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 2

Как я стал Google Developer Expert по Flutter

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 6.5K

У Google есть программа для экспертов в их технологиях. Чтобы попасть в неё, нужно выступать, писать, обучать, менторить или делать open-source в технологиях Google. Программа называется “Google Developer Experts”, и это самое привилегированное сообщество разработчиков, о котором я знаю.

Читать далее
Всего голосов 10: ↑7 и ↓3 +4
Комментарии 2

Нетипичные сценарии использования BI-системы (Apache Superset)

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 6.9K

Всем привет!

Сегодня поговорим о немного нетипичной для меня теме, а именно — Apache Superset. Обычно я пишу длинные «философские» статьи «на свободную тему», но в этот раз — это будет туториал. Так что кому‑то может показаться банальностью, но, опять таки, вдруг кому поможет. Почему‑то именно по суперсету на Хабре оскорбительно мало материалов. Да, у него в целом неплохая документация, но она все же — документация, поэтому в меру сухая, в ней нет дополнительных объяснений, примеров. Попробуем хоть немного исправить эту ситуацию.

Читать далее
Всего голосов 16: ↑16 и ↓0 +16
Комментарии 7

Apache Spark… Это база

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 6.7K

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.

Читать далее
Всего голосов 12: ↑6 и ↓6 0
Комментарии 4