kuznetsovin Dec 24 2013 at 12:01

Анализ временных рядов с помощью python

8 min

185K

Python*Data Mining*

+30

Comments 15

Aquahawk Dec 24 2013 at 13:21

Блин, с показательностью примера проблемы. Примерно такое предсказание на глазок нарисует любой человек. Вот найти бы пример где на глазок всем кажется вот так, а провели оценку и поняли что нифига не так. Ну и предсказание визуализировать бы широким конусом а не прямой, воспринимается иначе.
А так вообще супер статья

kuznetsovin Dec 24 2013 at 13:53

Постараюсь учесть ваши пожелания в следующей статье

KvanTTT Dec 24 2013 at 13:59

Да и к тому же обычная линейная аппроксимация на этих данных покажет примерно такую же прямую.

DeMoerto Dec 24 2013 at 19:03

Я могу представить ситуацию, где человеку ничего не понятно, а модель дает хорошие предсказания. Но вот для меня, честно говоря, совсем неочевидно, как может быть такой пример, где на глаз очевидно одно поведение, а модель говорит другое, и при этом модель оказывается права. Ну, я имею ввиду, если модель не использует какие-нибудь дополнительные априорные знания, а только сами значения ряда.

Aquahawk Dec 24 2013 at 19:39

Не самый лучший пример но всё же: habrahabr.ru/company/icontext/blog/125446/
Бывает что человек думает что его действия привели к отклонению показателей а реально это внутри погрешностей, дисперсия огромна а показатели качнулись не сильно, но бывает что это принимают за анализ и далее действую по такому плану. Хотя просто марс так повернулся и цифры совпали

Aquahawk Dec 24 2013 at 19:47

Мне такие модели больше интересны для анализа разброса результата. Грубо была система, были какие-то ряды, возможно тренды. Мы оказали на неё некое воздействие. Вопрос в оценке качества воздействия. Т.е. надо взять предыдущие показатели спрогнозировать их, понять там какие вообще погрешности, и когда по факту от воздействия некоторые показатели качнулись. Так вот на глаз бывает сильно не понятно.

И вообще зная устойчивость выборки можно поставить A/B, определить разумные граници количества групп. Потому что чем больше групп тем больше дисперсия в группе и тем хуже качество оценки, но тем больше вариантов проверяется за раз.

CodeByZen Dec 24 2013 at 16:36

Если построить линию регрессии по 3-5 точкам или прогноз на основе возрастающих весов тенденция получится такая-же. А вот если использовать квадратичный прогнозирующий полином может получиться немного другой исход, хотя и в той-же направленности. Вот только мне стало интересно почему бы не использовать сезонность, ведь четко видно что от ноября к ноябрю сохраняются свойства графика. И если учитывать сезонность, то можно построить интересную кривую, которая бы показывала отклонения от тренда на период предсказания.

kuznetsovin Dec 24 2013 at 16:57

Возможно, я думал начет сезонности но почему-то не сделал

werwooolf Dec 25 2013 at 20:20

Еще раз позанудствую)

Тест Харки — Бера. Значение данной статистики свидетельствует о том, нулевая гипотеза о нормальности распределения отвергается с малой вероятностью (probably > 0.05)
В данном тесте нулевая гипотеза утверждает что данные распределены нормально, и вероятность этого равна в вашем случае 0.06. И поэтому правильнее сказать, что нулевая гипотеза не отвергается а принимается с малой вероятностью. Вероятность есть, но маленькая. На 5% уровне rejection level мы еще можем поверить в это, но если ужесточить критерий до уровня 10%, то придется отбросить гипотезу.

Полученный отрицательный R2=-0.03. Чтобы не перепечатывать, просто скопирую: «R2 compares the fit of the chosen model with that of a horizontal straight line (the null hypothesis). If the chosen model fits worse than a horizontal line, then R2 is negative. Note that R2 is not always the square of anything, so it can have a negative value without violating any rules of math. R2 is negative only when the chosen model does not follow the trend of the data, so fits worse than a horizontal line.» Итого, модель работает хуже чем просто горизонтальная линия y=0

Среднеквадратичное отклонение (RMSE) и Средняя абсолютная ошибка (MAE) не несут никакой информации если только не использовать их для сравнения. Например, сравнить ошибку прогнозов между разными моделями, чтобы определить какая лучше. Или сравнить прогноз ex post и ex ante. А просто сообщить RMSE, это как сказать «Тихий океан глубокий» вместо «Тихий океан глубже чем Индийский».

Для теста Дикки-Фуллера лучше задать явно количество лагов, а не оставлять по дефолту 12*(nobs/100)^{1/4}. У вас явно видно годовую зависимость данных, поэтому (и вообще в экономике это традиционно) задать лаги до 12 месяцев.

Для определения порядка AR и МA можно дополнительно к кореллограммам прогнать отдельно регрессии AR(p) и MA(q) c достаточно большими параметрами p и q, и посмотреть какие из этих лагов будут значительны и должны быть включенными в модель.

Ну и насчет сезонности уже сказали. Кстати, Игорь, а можно попросить поделиться файлом с оригинальными данными? Я бы хотел поиграться с другой моделью на основе фильтра Калмана.

kuznetsovin Dec 26 2013 at 10:42

В очередной раз спасибо). Да, конечно можно: здесь

Stas911 Dec 27 2013 at 10:59

Было бы интересно посмотреть на предсказание с учетом сезонности

cptgav Jan 28 2014 at 08:16

Здравствуйте! Подскажите, пожалуйста, какую информацию, кроме описательной, несет гистограмма нестационарного на взгляд временного ряда?

kuznetsovin Jan 28 2014 at 11:33

В данном случае она имеет чисто описательный характер, и исходя из нее можно прикинуть функцию распределения.

ericgrig Apr 12 2019 at 15:25

Спасибо за побликацию!
Вы поработали честно и добросовестно.
Предлагаю Вам посмотреть на этот класс задач немного иначе:
-есть последовательность совокупных событий в прошлом.
-эти события содержат определенные знания о событии, которая наступит в будущем.
-нужно разработать алгоритм, который позволит извлечь знания из прошлых событий
для предсказания некого целевого показателя на шаг или более вперед.
Попробуйте выйти из колеи ARIMA.
ARIMA — это хорошо, но ARIMA — это не все.

tumikosha Aug 6 2019 at 18:53

fbProphet рулит

Show the best of all time