Panzerschrek 7 июл 2021 в 21:57

Использование библиотеки LLVM для генерации кода регулярных выражений

20 мин

4.5K

Программирование*Компиляторы*

+19

Комментарии 12

dmitry_rozhkov 8 июл 2021 в 08:15

Очень интересно!

Вы могли бы добавить бенчмарк ещё для Hyperscan?

bormental 8 июл 2021 в 09:15

И для boost.xpressive тоже хотелось бы.

Panzerschrek 8 июл 2021 в 17:58

Посмотрел на boost.xpressive. Не вижу, чтобы там был какой-то JIT. А без JIT или компиляции в нативный код производительность будет не очень хорошей, смотрите какую производительность в моих замерах показали библиотеки std::regex, llvm::Regex, PCRE (без JIT).

bormental 8 июл 2021 в 18:43

Там есть в т.ч. compile time regex в c++-ных шаблонах, т.е. в результате получается, как раз, нативный оптимизированный код.

Мне сейчас затруднительно посмотреть ваши примеры и ткнуть в доки экспрессив, т.к. в данный момент пользуюсь гостиничным интернетом, а это боль ;(

И, ЕМНИП, xpressive in compile time mode существенно быстрее boost и std::regex.

Panzerschrek 8 июл 2021 в 17:55

Посмотрел, что это за библиотека такая. Насколько я понимаю, это не совсем традиционная библиотека по работе регулярными выражениями, не думаю, что прямое сравнение будет корректно. Если найду время, может-быть поэксперементирю с ней.

dmitry_rozhkov 8 июл 2021 в 20:31

Hyperscan создаёт конечный автомат в рантайме, на компиляцию требуется время. Но сам автомат всячески оптимизируется, чтобы использовать, например, векторные инструкции.

insecto 8 июл 2021 в 18:29

Интересно сравнить скорость с re2

Livid 18 июл 2021 в 07:12

Я не очень вчитывался в код, но похоже тут недетерминированный конечный автомат моделируется на стеке вызовов? Если уж компилять, то может есть смысл привести к детерминированному автомату? У него скорость матчинга линейная, а у нка с бэктрекингом потенциально квадратичная.

Panzerschrek 18 июл 2021 в 09:08

Дело ведь в том, что если не будет отката назад, не будет возможности искать сопоставление для некоторых регулярных выражений, где эта самая квадратичность нужна. Но там, где она не нужна, компилятор и так во многих случая может заменить последовательность вложенных вызовов набором последовательных операций (в рамках одной функции).

Livid 18 июл 2021 в 16:56

Теорию автоматов Вы судя по всему не очень знаете? ДКА равномощен НКА. Регулярные выражения можно матчить без бэктрекинга (пока они именно регулярные, без рекурсивных бэкреференсов, и даже с ними не всё так плохо). Другой вопрос, что преобразование НКА в ДКА не самая "дешёвая" операция, и если регулярку предполагается использовать полтора раза, оно того не стоит. Но учитывая что Вы компиляете с оптимизацией, что уже не супер быстро, как раз кажется актуально выжать максимум производительности.

Panzerschrek 18 июл 2021 в 17:36

Чисто в теории я действительно не силён, я больше практик. Поделитесь ссылкой на алгоритм преобразование НКА в ДКА и/или на литературу по теме, с удовольствием почитаю.

без бэктрекинга

Я знаю такой способ, в нём входная строка просто обходится посимвольно и никогда не происходит отката назад. А вместо хранения стека состояний там хранится стек т. н. потоков.
Смотреть здесь, раздел Thompson's Implementation. Но, насколько я понимаю, такой алгоритм в реальности не самый быстрый, да и компилируется в нативный код он весьма плохо.

Livid 25 июл 2021 в 20:52

Ахо, Ульман, Сети "Компиляторы. Принципы, технологии и инструментарий.", второе издание, раздел 3.7.1

Или можете мой конспект посмотреть. Там правда нет одного важного момента: по приведённому алгоритму ДКА не обязательно оптимальный, нужно как минимум объединять эквивалентные состояния; у Ахо ещё приведены алгоритмы прямого построения ДКА (без НКА) и оптимизации ДКА (раздел 3.9)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Использование библиотеки LLVM для генерации кода регулярных выражений

Комментарии 12

Публикации

Истории