Примеры для двух неблокирующих библиотек доступа к SQL базам данных — Vert.X SQL и R2DBC. Примеры будут основаны на PostgreSQL и реактивных обертках Java.
Начнем с главного: JDBC — это отличный стандарт. Служил и служит верой и правдой.
Но новые веяния просят новых решений. И даже есть смысл иногда потеснить JDBC.
Я предлагаю взглянуть на две альтернативных реализации доступа к SQL базам из JVM приложений и их (реализаций) применимости.
В статье будет теоретическая часть, практические примеры и в конце немного сравнения. Кому интересна практическая часть — просто перематывайте текст, к конкретной реализации теория отношение имеет весьма посредственное.
Пояснения к материалу
Базу данных я взял отсюда. Её я загрузил на отдельный сервер, чтобы сервер БД (PostgreSQL 12) не мешал смотреть на работу клиента. Производительность приложения зависит от версии СУБД, от схемы данных, от количества данных в ответе, от типов данных и, наверное, много чего еще.
Также не стоит забывать, что производительность самого JDK меняется — для потоков OpenJDK 11, который я использовал, не обязательно такая же для Oracle JDK 8, например.
Для эмуляции медленных запросов можно использовать вызов pg_sleep(seconds) из PostgreSQL.
Не стоит экспериментировать с разными библиотеками в одном модуле — могут быть конфликтующие зависимости (netty). Есть различия даже в patch-версиях, которые сломают работу. Это потенциально может стать сильной головной болью, если netty используется в других частях проекта, например, при обработке HTTP-запросов.
В примерах выполняется по одному запросу, без транзакций. Рассмотрение более сложных случаев выходит за рамки статьи. Стоит отметить, что как и в JDBC, транзакции привязываются к соединению. То есть пока соединение полностью не использовано и не возвращено в пул, его использовать для других запросов нельзя, как и в JDBC. Использовать менеджеры транзакций без серьезного изучения не стоит — как правило, они используют ThreadLocal для поддержки транзакций, что для данных библиотек недопустимо.
Полностью код, использованный в качестве примера тут, можно найти у меня на GitHub.
Если разрабатывается конечное приложение, то скорость и производительность имеет смысл мерять в полной связке со всеми частями. Например, если есть веб-фреймворк, то стоит мерять производительность в связке с ним, а не "чистый" доступ к данным. Может оказаться, что какой-то фреймворк лучше работает с какой-то одной библиотекой, даже если "вчистую" выигрывает другая.
Зачем нужны неблокирующие вызовы. Теория.
Неблокирующие вызовы — это про распределение ресурсов, а не про скорость. Скорость иногда приходит, но в целом это больше про масштабирование. Соответственно, лучше всего проявляет это себя при масштабировании.
Вот говорят, что потоки очень "тяжеловесные", что переключение контекста — это накладные расходы. Что-то в этом есть. Проявляется это на тысячах, в лучшем случае, потоках. С десятками тысяч проблемы заметны, с сотнями — их не избежать. Так что первое, о чем стоит подумать при выборе технологии доступа — а нужно ли масштабироваться до таких значений? Иногда это нужно, иногда о таких объемах речи не идет и смысл в использовании более сложного API теряется. Под простым API я подразумеваю не JDBC, а готовые решения, которые работают поверх него — JPA, JOOQ, Hibernate ORM и подобные.
Проблемы с количеством потоков могут возникать не из-за высокой частоты запросов, но и из-за "бутылочных горлышек" — один путь исполнения может задействовать доступ к базе и блокировать поток из пула, который в обычных условиях освободился бы раньше. Например, каждый десятый запрос лезет в базу и виснет. Раньше у нас приложения были глупые и всегда лезли в базу и уж если там заблокировало — пропало все (упрощаю картинку). Сейчас у нас куча интеграций и мы лезем из кода во все стороны, во всякие разные сервисы и базы, а управлять отдельными пулами потоков нам все еще неудобно. Именно такие случаи "бутылочных горлышек" могут доставить гораздо больше проблем, чем много конкурентых запросов — например, фиксированный пул потоков может исчерпаться не по причине недоступности базы, а когда поток "утек" и завис на другой операции.
Пример 1: Если все на пуле пяти потоков, которые привязаны к веб-стеку (а не отдельный для базы — ну сгенерированный костяк приложения, что поделать) то примерно через пятьдесят запросов они все будут заняты и ни один запрос дальше не пройдет. Если доступ неблокирующий, то каждый десятый (после пятидесятого) будет виснуть, а девять будут отрабатывать как надо (например, забирая данные из кэша).
Пример 2: Все операции к базе работают как надо, пул потоков к вводу выводу отдельный. Вроде все лучше, чем в прошлом примере. Вдруг кто-то дописал код, не заметив наш отдельный пул, который обагащает каждый десятый запрос данными из стороннего REST сервиса, да еще блокирующе. Вот поток "утек" для доступа к базе и не сможет обслужить вовремя запрос, хотя мог бы.
Еще хотелось бы отметить, что "неблокирующий" относится именно к "потоку", а не к чему-то абстрактному. Используя "неблокирующие" операции мы все равно чего-то будем ждать. Очень просто — у нас ограничено количество соединений к базе данных. Блокирующий или неблокирующий у нас ввод-вывод, а "одновременно" будет выполняться только то, что позволит база данных и пул соединений. Ждать будем все равно, хотя потоки не будем блокировать — что позволит их использовать для работы над чем-то, не требующим доступа к базе.
Второе, о чем стоит подумать — это общий стиль работы приложения. Если приложение основано на неблокирующих операциях, то использование блокирующих вызовов помимо того, что просто некрасиво, может привести к дополнительным ошибкам — как в "Примере 2". Впрочем, об этом твердят на каждом втором митапе о неблокирующих библиотеках и останавливаться на этом не стоит.
Что плохого в неблокирующих библитеках. Теория.
Первое: Плохо, что высокоуровневых библиотек/фреймворков практически нет (только Spring Data R2DBC нашел). Для JDBC есть удобные дополнительные абстракции — JPA, JOOQ, Hibernate ORM, которые здорово облегчают жизнь разработчика. Там и кэш запросов, и метрики, и проверки типов ну и всякое, написанное за много лет. Пулы соединений, менеджеры транзакций — все это либо отсутствует, либо безальтернативно.
Второе: Это не стандартно и пока плохо поддерживается. Под этим нужно понимать как минимум две вещи:
- производители баз данных отдают приоритет JDBC драйверам, так что не пишут или запаздывают с обновлениями, исправлениями и новыми возможностями баз в альтернативные решения.
- не всякую базу данных можно использовать в принципе. Например, Oracle никак не поддерживается.
Vert.X SQL (PG) Client.
Набор библиотек от Eclipse, страница GitHub и документация для Postgres.
Особенности:
- поддерживаются PostgreSQL, MySQL, MSSQL, DB2
- основана на callback, имеет поддержку RxJava2. Не уверен насчет корутин Kotlin, но написать руками несложно.
- Работает на vert.x фреймворке, так что должна естественно вписываться в Quarkus.
- Быстрая.
→ Ссылка к последнему пункту
Не поддерживаются встраиваемые базы данных вроде H2, что затрудняет использование в автоматических тестах. Есть недавняя отличная статья о том, что тестировать надо на той базе, которая в продакшне, но это не абсолютный рецепт успеха и не единственный возможный вариант.
Добавим зависимости для клиента, реактивному (rxjava2) его варианту и сетевой транспорт для моей машины:
<dependency>
<groupId>io.vertx</groupId>
<artifactId>vertx-pg-client</artifactId>
<version>3.9.0</version>
</dependency>
<dependency>
<groupId>io.vertx</groupId>
<artifactId>vertx-rx-java2</artifactId>
<version>3.9.0</version>
</dependency>
<dependency>
<groupId>io.netty</groupId>
<artifactId>netty-transport-native-epoll</artifactId>
<version>4.1.15.Final</version>
<classifier>linux-x86_64</classifier>
</dependency>
Будем использовать пул и реактивный вариант API:
import io.vertx.pgclient.PgConnectOptions;
import io.vertx.reactivex.pgclient.PgPool;
import io.vertx.reactivex.sqlclient.Pool;
import io.vertx.reactivex.sqlclient.Tuple;
import io.vertx.sqlclient.PoolOptions;
Настройка соединения. Важно указать, что надо кэшировать prepared statement на уровне пула — это хорошо поднимает производительность.
PgConnectOptions connectOptions = new PgConnectOptions()
.setPort(5432)
.setHost(host)
.setDatabase("postgres")
.setCachePreparedStatements(true)
.setPreparedStatementCacheMaxSize(1000)
.setSsl(false)
.setUser(user)
.setPassword(password);
И пула с размером pool (например, 50).
PoolOptions poolOptions = new PoolOptions()
.setMaxSize(pool);
Pool client = PgPool.pool(connectOptions, poolOptions);
Будем называть операции с асинхронным ответом попросили. Процесс вытаскивания данных выглядит примерно так:
- попросили дать соединение из пула
- получили соединение, попросили приготовить запрос
- получили подготовленный запрос, попросили выполнить этот запрос с параметрами в Tuple
- получили RowSet, который является Iterable
- прошлись результатам и вытащили значение по имени колонки.
- вернули соединение в пул, "закрыв" его.
При необходимости использовать транзакции их можно начать на пуле соединений.
Параметры запроса указываются как $1 $2 $3 и так далее. Методы, начинающиеся с rx — обертки для RxJava2, которые предоставляет vert.x. Без них можно сыграть в callback hell. Если писать на RxJava2 обертке, выйдет вот так:
Flowable<String> titles = client.rxGetConnection()
.flatMapPublisher(connection ->
connection.rxPrepare("SELECT title FROM nicer_but_slower_film_list WHERE FID = $1")
.flatMap(statement -> statement.query().rxExecute(Tuple.of(Math.abs(random.nextInt(990)))))
.flattenAsFlowable(Functions.identity())
.map(row -> row.getString("title"))
.doOnError(Throwable::printStackTrace)
.subscribeOn(Schedulers.computation())
.doFinally(connection::close));
После всего пул можно закрыть
client.close();
R2DBC
Особенности:
- поддерживаются — MariaDB, MySQL, PostgreSQL, MSSQL, H2
- поддержка в Spring Data R2DBC, что упрощает разработку под Spring Boot
- основано на Reactive Streams, поощряет использовние Project Reactor
Для этого возьмем зависимости клиента и пула соединений:
<dependency>
<groupId>io.r2dbc</groupId>
<artifactId>r2dbc-postgresql</artifactId>
<version>0.8.2.RELEASE</version>
</dependency>
<dependency>
<groupId>io.r2dbc</groupId>
<artifactId>r2dbc-pool</artifactId>
<version>0.8.2.RELEASE</version>
</dependency>
Вместе с пулом неявно придет и реактивный Project Reactor.
Нам понадобятся следующие классы:
import io.r2dbc.pool.ConnectionPool;
import io.r2dbc.pool.ConnectionPoolConfiguration;
import io.r2dbc.spi.ConnectionFactories;
import io.r2dbc.spi.ConnectionFactory;
import io.r2dbc.spi.ConnectionFactoryOptions;
import reactor.core.publisher.Flux;
import reactor.core.publisher.Mono;
Строим фабрику соединений и пул. Prepared Statement кэшируются всегда, насколько я понял из исходников.
ConnectionFactory connectionFactory = ConnectionFactories.get(ConnectionFactoryOptions.builder()
.option(DRIVER, "postgresql")
.option(HOST, host)
.option(PORT, 5432) // optional, defaults to 5432
.option(USER, user)
.option(PASSWORD, password)
.option(DATABASE, "postgres") // optional
.option(SSL, false) // optional
.build());
ConnectionPoolConfiguration configuration = ConnectionPoolConfiguration.builder(connectionFactory)
.maxIdleTime(Duration.ofMillis(1000))
.maxSize(poolSize)
.build();
ConnectionPool pool = new ConnectionPool(configuration);
Будем называть операции с асинхронным ответом попросили. Процесс вытаскивания данных выглядит примерно так:
- попросили дать соединение из пула
- получили соединение, подготовили запрос
- задали параметры запроса
- попросили выполнить этот запрос
- получили поток Result
- предоставили mapper-функцию для преобразования результата в объект и попросили дать объекты из результата запроса.
- вернули соединение в пул, попросив "закрыть" его.
Важно соблюдать последний пункт — для возвращения соединения в пул или для закрытия недостаточно вызвать close, надо еще и подписаться на это событие. Параметры запроса указываются как $1 $2 $3 и так далее. В терминах Project Reactor это можно сделать так:
Flux<String> titles = Flux.usingWhen(pool.create(), connection ->
Flux.from(
connection.createStatement("SELECT title FROM nicer_but_slower_film_list WHERE FID = $1")
.bind("$1", Math.abs(random.nextInt(990)))
.execute()
).flatMap(result -> result.map(RdbcTest::getTitle))
, Connection::close);
private static String getTitle(Row row, RowMetadata meta) {
return row.get("title", String.class);
}
Ну и не забыть закрыть пул в конце.
pool.close();
Имитация нагрузки
Я считаю, что "вчистую" гонять доступ к базе смысла мало, но все же на начальных этапах знакомства с технологией можно таким образом проверить какие-то специфические гипотезы и отловить какие-то баги. Буду запускать реактивные R2DBC, VertX и JDBC. Executions (скажем, 50 000) запросов, запуская одновременно только concurrency (скажем, 1000) запросов. Хвала backpressure.
Прошу не воспринимать это как реальный тест, лишь как концепцию. Количество вариаций экспериментов и тюнинга огромное. Подобные тесты производительности лучше тащить у тех, кто этим занимается профессионально (возможно, пристрастно) или писать самим под конкретные условия эксплуатации.
Flowable.range(1, executions)
.doOnNext(i -> { if (i % chunk == 0) LOGGER.info("Process {}", i);})
.flatMap(i -> client.preparedQuery(
"SELECT title FROM nicer_but_slower_film_list WHERE FID = $1")
.rxExecute(Tuple.of(Math.abs(random.nextInt(990))))
.doOnError(Throwable::printStackTrace)
.flattenAsFlowable(Functions.identity())
.map(row -> row.getString("title").length())
.doOnError(Throwable::printStackTrace)
.subscribeOn(Schedulers.computation()),
false, concurrency)
.doOnComplete(() -> LOGGER.info("Done with VertX"))
.blockingSubscribe(unused -> { }, Throwable::printStackTrace);
Flux.range(1, executions)
.doOnNext(i -> { if (i % chunk == 0) LOGGER.info("Processing {}", i);})
.flatMap(i -> Flux.usingWhen(pool.create(),
connection -> Flux.from(
connection.createStatement("SELECT title FROM nicer_but_slower_film_list WHERE FID = $1")
.bind("$1", Math.abs(random.nextInt(990)))
.execute()
)
.flatMap(result -> Flux.from(result.map(RdbcTest::getTitle))),
Connection::close)
.subscribeOn(Schedulers.parallel())
.doOnError(Throwable::printStackTrace)
, concurrency)
.doOnError(Throwable::printStackTrace)
.doOnComplete(() -> LOGGER.info("Done with R2DBC"))
.blockLast();
HikariConfig config = new HikariConfig();
config.setJdbcUrl("jdbc:postgresql://" + host + "/postgres");
config.setMaximumPoolSize(poolSize);
config.setIsolateInternalQueries(false);
HikariDataSource ds = new HikariDataSource(config);
Flux.range(1, executions)
.flatMap(Mono::just)
.flatMap(index -> Mono.fromCallable(ds::getConnection)
.doOnNext(i -> { if (index % chunk == 0) LOGGER.info("Process {}", index);})
.map(this::request).subscribeOn(Schedulers.elastic())
, concurrency
)
.subscribeOn(Schedulers.elastic())
.doOnError(Throwable::printStackTrace)
.doOnComplete( ()->LOGGER.info("Done with JDBC"))
.blockLast();
private Integer request(Connection connection) {
try {
var s = connection.prepareStatement(
"SELECT title FROM nicer_but_slower_film_list WHERE FID = ?"
);
s.setInt(1, Math.abs(random.nextInt(990)));
var results = s.executeQuery();
int counter = 0;
while (results.next()) {
counter += results.getString("title").length();
}
results.close();
s.close();
connection.close();
return counter;
} catch (RuntimeException e) {
e.printStackTrace();
throw e;
} catch (Exception e) {
e.printStackTrace();
throw new IllegalStateException(e);
}
}
Хочу выполнить и посмотреть на использованные ресурсы c помощью команды time:
/usr/bin/time --verbose java ...
и посмотреть результаты в Java Mission Control — для этого запущу Java Flight Recorder.
java -XX:StartFlightRecording=disk=true,dumponexit=true,filename=/tmp/r2dbc.jfr,settings=profile,path-to-gc-roots=false,delay=1s,name=R2DBC ...
Результаты time показывают время в userspace и в system, переключения контекста и еще несколько параметров. На моих запусках VertX вырывается далеко вперед, R2DBC и JDBC примерно одинаковы по времени выполнения, чаще переключает контекст. Это все сильно зависит от количества конкурентных "запросов" и размера пула (это самый главный фактор оказался у меня). Получалось, что временами R2DBC проводит в system больше времени, иногда в userspace. В рамках эксперимента я не стал копать глубже, почему так и почему vertx гораздо быстрее на этих прогонах.
Command being timed: "java -jar r2dbc-1.0-SNAPSHOT-jar-with-dependencies.jar -iterations 50000 -concurrent 1000 -pool 50 -user anonymous -password 12345678 -host pg12.local"
User time (seconds): 34.28
System time (seconds): 5.55
Percent of CPU this job got: 10%
Maximum resident set size (kbytes): 307004
Minor (reclaiming a frame) page faults: 76835
Voluntary context switches: 121789
Involuntary context switches: 9670
Command being timed: "java -jar jdbc-1.0-SNAPSHOT-jar-with-dependencies.jar -iterations 50000 -concurrent 1000 -pool 50 -user anonymous -password 12345678 -host pg12.local"
User time (seconds): 38.72
System time (seconds): 5.80
Percent of CPU this job got: 76%
Maximum resident set size (kbytes): 459688
Minor (reclaiming a frame) page faults: 125453
Voluntary context switches: 187752
Involuntary context switches: 14221
Command being timed: "java -jar vertx-1.0-SNAPSHOT-jar-with-dependencies.jar -iterations 50000 -concurrent 1000 -pool 50-user anonymous -password 12345678 -host pg12.local"
User time (seconds): 19.06
System time (seconds): 2.02
Percent of CPU this job got: 20%
Maximum resident set size (kbytes): 178516
Minor (reclaiming a frame) page faults: 43054
Voluntary context switches: 109914
Involuntary context switches: 4691
Что показывает Java Mission Control? JDBC требует больше памяти и чаще делает GC. Зато есть впечатляющие картинки для презентаций в разделе Threads.
Прекрасные неблокирующие
R2DBC:
VertX:
И "жуткий" JDBC:
Все красное, все блокировано. Ужас вроде бы. Ну на это можно спросить "и что?". Сами по себе красные черточки ничего не значат и сами по себе проблемой не являются. Проблема, когда они мешают другим действиям приложения. Вот это очень вероятно, но это нужно доказывать в каждом случае отдельно.
Надеюсь, что статья была полезна!