Как стать автором
Обновить

Финансовые данные: об измерении автокорреляции, тяжелых хвостах и других статистиках (Vol 1)

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.5K

*Be aware: впереди математика. **Первая часть дискуссии о распределениях финансовых данных, подводных камнях при работе с ними и возможных решениях при оценке сопутствующих статистик.

Данная статья представляет собой первую (из трех) часть дискуссии о распределении финансовых данных и работе с ними. В этой части мы подробно обсудим с математической точки зрения некоторые подводные камни, возникающие при работе с финансовыми данными, а также (не-)применимость классических статистических методов при работе с ними. Во второй части статьи мы поговорим о возможных решениях трудностей, описанных в данной части. Наконец, в третьей части мы представим возможные реализации подхода, описанного во второй части, на языке Python, а также поговорим о примерах и применениях описанной методологии.

Короткое введение

Предположим, вы работаете с финансовыми данными; чаще всего (когда говорят о работе с финансовыми данными) — это доходности некоторого актива. Воспользуемся классическим определением доходности актива R_tв момент времени t:

R_t = \frac{P_t - P_{t-1}}{P_{t-1}},

где P_t— цена актива момент времени t. В качестве актива может выступать золото, нефть, Bitcoin и др.

(1) Данные об изменении цены Bitcoin (2) Доходности , вычисленные по данным об изменении цены (3) Распределение доходностей
(1) Данные P_tоб изменении цены Bitcoin (2) Доходности R_t, вычисленные по данным об изменении цены (3) Распределение доходностей

Интересно, какими свойствами обладает временной ряд R_t? В литературе эмпирические свойства, характерные для доходностей финансовых активовR_tобычно называют ситилизованными фактами и выделяют следующие ключевые из них:

  1. [Гипотеза эффективного рынка] Отсутствие линейных зависимостей и автокорреляций: \text{Corr}(R_t, R_{t-h}) \approx 0;

  2. [Нелинейные зависимости] Присутствие нелинейных зависимостей и кластеризация волатильности, которая обычно описывается высокой корреляцией нелинейных функций R_t: \text{Corr}(R^2_t, R^2_{t-h}) \gg 0;

  3. [Тяжелохвостность] Тяжелые хвосты распределения: \mathbb{P}(R_t > x) \sim \ell(x) z^{-\zeta}, где \ell(x)— слабо меняющаяся на бесконечности функция, а \zeta— хвостовой индекс.

Задача. Допустим, вы получаете выборку \{R_{t_i}\}^N_{i=1}доходностей некотрого актива за промежуток времни [t_{i_1}, t_{i_N}]. По этим данным вы хотите оценить, насколько эффективен рынок на данном временном интервале, а также "измерить" кластеризацию волатильности.

Если вы будете использовать классический подход, то вы, скорее всего, захотите вычислить выборочную корреляцию (для R_tи R^2_t) а затем, используя нормальность предельного распределения, построить статистическую оценку / протестировать гипотезу / построить доверительный интервал.

Однако надежен ли такой подход в условиях распределения с тяжелыми хвостами? В этой части статьи мы с вами подробно в этом разберемся!

Проблемы классических подходов при работе с "тяжелохвостными" данными

В данной секции мы увидим, что выборочные автоковариация и автокорреляция имеют нестандартные статистические свойства, которые делают классические подходы по выявлению и измерению зависимостей из пунктов 1. и 2. выше ненадежными и плохо применимыми

Проблема моментов распределения доходностей

Рассмотрим свойство 3. доходностей из стилизованных фактов (тяжелохвостность). Удобно считать, что есть некоторая нижняя граница x_m, начиная с которой выполняется степенной закон, тогда распределение R_t описывается законом Парето. Напомним, что распределения Парето имеют следующие функции распределения и плотности:

F_X(x) = \begin{cases} 1 - \left( \frac{x_m}{x} \right)^{\zeta}, \quad x \ge x_m \\         0, \qquad \qquad \; \; \; x < x_m     \end{cases},     \quad      f_X(x) =      \begin{cases}         \frac{\zeta x_m^{\zeta}}{x^{\zeta + 1}}, \quad x \ge x_m \\ 0, \quad \; \: \: \,    \; x < x_m     \end{cases}.

В таком случае моменты R_t задаются следующими равенствами:

\mathbb{E}(R^n_t) =      \begin{cases}         \infty, \quad \;\; \zeta \le n, \\         \frac{\zeta x_m^{n}}{\zeta - n}, \;\:\:\, \zeta > n     \end{cases}

Отсюда сразу же следует, что \text{Corr}(R_t, R_{t-h}) определена только при \zeta > 2, а \text{Corr}(R^2_t, R^2_{t-h}) определена при \zeta > 4. Эмпирические исследования же показывают, что для большинства развитых рынков \zeta \in (2, 4), в то время как для развивающихся рынков \zeta < 2.

Вывод 1: Тяжелые хвосты распределения доходностей делают классические статистики ненадежными, поскольку многие моменты (а иногда даже и первый) не определены в данном случае.

Проблема сходимости выборочных автокорреляций

В работе Davis and Mikosh 1998 получены результаты о сходимости функций выборочных автоковариаций и автокорреляций для \zeta-правильно меняющихся случайных процессов. В данной секции мы рассмотрим несколько случаев сходимости выборочных автоковариаций и автокорреляций для процессаR_t(который, согласно третьему из стилизованных фактов, описывается уравнением \mathbb{P}(R_t > x) \sim \ell(x) z^{-\zeta}) в зависимости от хвостового индекса \zeta.

Прежде чем перейти непосредственно к описанию сходимостей, определим выборочные функции автоковариации и автокорреляции:

Определение: Для стационарного процесса X_t выборочной функцией автоковариации называется функция:

\gamma_{n, X}(h) = \frac{1}{n} \sum^{n-h}_{t = 1} X_t X_{t + h}, \quad h \ge 0;

Определение: Для стационарного процесса X_tвыборочной функцией автокорреляции называется функция:

\rho_{n, X}(h) = \frac{\gamma_{n, X}(h)}{\gamma_{n, X}(0)}, \quad h \ge 1.

Рассмотрим сходимости данных функций для различных \zeta:

  1. \mathbf{\zeta \in (0, 2)}. Тогда имеют место следующие сходимости:

    \left[ n^{1 - \frac{2}{\zeta}} \gamma_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ V_h \right]{m=1,\dots,m}

    \left[ n^{1 - \frac{2}{\zeta}} \rho_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ \frac{V_h}{V_0} \right]{m=1,\dots,m}

    и случайный вектор \left[ V_h \right]_{m=1,\dots,m} = (V_1, \dots, V_m) является \zeta/2-устойчивым.

  2. \mathbf{\zeta \in (2, 4)}. Тогда имеют место следующие сходимости:

    \left[ n^{1 - \frac{2}{\zeta}} \gamma_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ V_h \right]{m=1,\dots,m}

    \left[ n^{1 - \frac{2}{\zeta}} \rho_{n, X}(h) \right]_{m=1,\dots,m} \stackrel{d}{\longrightarrow} \gamma^{-1}X(0) \left[ V_h \right]{m=1,\dots,m}

    и случайный вектор \left[ V_h \right]_{m=1,\dots,m} = (V_1, \dots, V_m) является \zeta/2 устойчивым.

  3. \mathbf{\zeta \in (4, \infty)}. Тогда имеют место следующие сходимости:

    \left[ \sqrt{n} \gamma_{n, X}(h) \right]{m=1,\dots,m} \stackrel{d}{\longrightarrow} \left[ G_h \right]{m=1,\dots,m}

    \left[ \sqrt{n} \rho_{n, X}(h) \right]_{m=1,\dots,m} \stackrel{d}{\longrightarrow} \gamma^{-1}X(0) \left[ G_h \right]{m=1,\dots,m}

    и случайный вектор \left[ G_h \right]_{m=1,\dots,m} = (G_1, \dots, G_m) имеет многомерное нормальное распределение.

Из соотношений выше видно, что предельное распределение выборочных автоковариаций имеет форму нормального только при \zeta > 4. При \zeta < 4 же предельное распределение устойчиво с параметром \alpha < 2 (в первом случае с \alpha < 1), это же в свою очередь означает (по свойству устойчивых распределений), что у предельного распределения не определен второй момент (а значит и дисперсия), а в первом случае не определен даже первый момент. Это расширяет границы доверительного интервала. Также важно отметить, что в 1 и 2 случаях скорость сходимости существенно медленнее, чем \sqrt{n}.

Вывод 2: Выборочные автоковариации и автокорреляции не всегда сходятся к нормальному распределению, а также скорость сходимости часто (в зависимости от хвостового индекса \zeta ) медленнее \sqrt{n}.

В первой части дискуссии мы убедились, что классические подходы оценки статистик распределения доходностей часто неприменимы из-за наличия тяжелых хвостов распределения. Этот факт наталкивает на дальнейшие размышления о поиске замены классического подхода на более устойчивый и эффективный. Такой подход существует и мы поговорим о нем в следующей части статьи. Во многом дальнейшая дискуссия будет опираться на результаты, полученные в работе Ibragimov et al. 2021.

Спасибо за прочтение!

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Что стоит улучшить в дальнейших публикациях?
10.71% Все слишком просто!3
46.43% Все слишком сложно!13
35.71% Не хватает введения и мотивации10
57.14% Не хватает примеров16
14.29% Мне все нравится!4
Проголосовали 28 пользователей. Воздержались 3 пользователя.
Теги:
Хабы:
Всего голосов 9: ↑8 и ↓1+7
Комментарии22

Публикации

Истории

Ближайшие события

Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург