8

【统计时序2】平稳性

 2 years ago
source link: https://www.guofei.site/2017/12/04/timeseries.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

【统计时序2】平稳性

2017年12月04日

Author: Guofei

文章归类: 4-3-时间序列 ,文章编号: 442


版权声明:本文作者是郭飞。转载随意,但需要标明原文链接,并通知本人
原文链接:https://www.guofei.site/2017/12/04/timeseries.html

Edit

平稳性的定义

严平稳过程

定义:
YtYt是一个严格随机过程,如果∀n,h,∀n,h,
FYt1,Yt2,…,Ytn(Y1,…,Yn)=FYt1+h,Yt2+h,…,Ytn+h(Y1,…,Yn)FYt1,Yt2,…,Ytn(Y1,…,Yn)=FYt1+h,Yt2+h,…,Ytn+h(Y1,…,Yn)

宽平稳过程

指的是YtYt的期望、方差、协方差不随时间推移而变化
定义:
YtYt是一个随机过程,如果∀t∀t
E(Yt)=uE(Yt)=u
Var(Yt)=σ2Var(Yt)=σ2
Cov(Yt,Ys)=Cov(Yt+h,Ys+h)=γt−sCov(Yt,Ys)=Cov(Yt+h,Ys+h)=γt−s
那么YtYt是一个 宽平稳随机过程

自相关系数性质

  • 规范性,∣ρ∣≤1∣ρ∣≤1
  • 对称性,ρk=ρ−kρk=ρ−k
  • 非负定性,自相关矩阵非负定
  • 非唯一性,平稳序列对应唯一的自相关系数,自相关系数对应多个平稳过程
    这给我们建模有诸多挑战

严平稳与宽平稳的关系

  • 在时间序列中讨论的平稳,通常指弱平稳
  • 如果低阶距存在,那么严平稳过程能推出宽平稳成立
  • 如果服从多元正态分布,那么宽平稳可以推出严平稳

如果低阶距不存在,那么严平稳不能推出宽平稳。
例如柯西分布

平稳性的意义

  1. 多个随机变量,但每个随机变量只有1个样本。(需要用观察值序列推断)
  2. 平稳性可以极大减少随机变量的个数,增加待估变量的样本容量。例如,如果序列平稳,那么可以 用全部观察值去估计均值、方差
  3. 减少分析难度,提高精度。

伪回归的根本原因在于时间序列的非平稳性。
用传统方法对彼此不相关的非平稳变量进行回归,那么t检验和F检验往往倾向于显著

平稳性的检验

时序图

画图,图形在某个常数值附近随机波动,波动范围有界、无趋势、无周期,说明序列平稳。

自相关图

自相关系数很快衰减到0,说明序列平稳。
如果自相关系数一直很高,或者自相关系数出现周期性,或者自相关系数先递减后递增,说明序列不平稳。

from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
plot_acf(ts, lags=31, ax=ax1)

详细内容看这里

除了看图外,statsmodels.tsa.stattools.acf可以方便地给出有关统计量, 官方文档

statsmodels.tsa.stattools.acf(x, unbiased=False, nlags=40, qstat=False, fft=False, alpha=None, missing='none')[source]
# x : array,Time series data

# unbiased : bool, If True, then denominators for autocovariance are n-k, otherwise n

# nlags: int, optional, Number of lags to return autocorrelation for.

# qstat : bool, optional If True, returns the Ljung-Box q statistic for each autocorrelation coefficient. See q_stat for more information.

# fft : bool, optional. If True, computes the ACF via FFT.

# alpha : scalar, optional. If a number is given, the confidence intervals for the given level are returned.

# missing : str, optional. A string in [‘none’, ‘raise’, ‘conservative’, ‘drop’] specifying how the NaNs are to be treated.

DF检验

Dickey-Fuller(DF),Augmented Dickey-Fuller test(ADF)

DF检验有三种形式:
yt=ρyt−1+εtyt=ρyt−1+εt
yt=α+ρyt−1+εtyt=α+ρyt−1+εt
yt=α+δt+ρyt−1+εtyt=α+δt+ρyt−1+εt

如果∣ρ∣<1∣ρ∣<1,序列ytyt是平稳的
如果∣ρ∣=1∣ρ∣=1,序列ytyt是非平稳的,但一阶差分是平稳的。
如果∣ρ∣>1∣ρ∣>1,序列ytyt是发散的

step1:建立假设
H0:ρ=1ρ=1
H1:∣ρ∣<1∣ρ∣<1

step2:进行t检验

通常用这样的检验方程:
Δyt=γyt−1+εtΔyt=γyt−1+εt
Δyt=α+γyt−1+εtΔyt=α+γyt−1+εt
Δyt=α+δt+γyt−1+εtΔyt=α+δt+γyt−1+εt

问题转化为检验γ=0γ=0

ADF检验

DF检验只适合一阶自相关的情况。也就是假设εtεt没有自相关性,但实际数据大多不满足此假设,所以改进到ADF检验
ADF(augmented Dickey-Fuller test,增广的迪基-福勒检验法)检验适合高阶自相关的情况

ADF检验的三种基本模型: Δyt=γyt−1+utΔyt=γyt−1+ut
Δyt=α+γyt−1+utΔyt=α+γyt−1+ut
Δyt=α+δt+γyt−1+utΔyt=α+δt+γyt−1+ut
其中utut是一个平稳过程,允许utut存在自相关性,如此ADF检验变为如下形式:

Δyt=γyt−1+∑i=1lβiΔyt−i+εtΔyt=γyt−1+∑i=1lβiΔyt−i+εt
Δyt=α+γyt−1+∑i=1lβiΔyt−i+εtΔyt=α+γyt−1+∑i=1lβiΔyt−i+εt
Δyt=α+δt+γyt−1+∑i=1lβiΔyt−i+εtΔyt=α+δt+γyt−1+∑i=1lβiΔyt−i+εt

白噪声过程

满足两个性质:

  1. EXt=u,∀t∈TEXt=u,∀t∈T
  2. γ(t,s)={σ2,t=s0,t≠sγ(t,s)={σ2,t=s0,t≠s,∀t,s∈T∀t,s∈T

显然,白噪声过程是平稳过程

白噪声过程的性质

1. 纯随机性

∀k≠0,γ(k)≠0∀k≠0,γ(k)≠0

2. 方差齐性

DXt=γ(0)=0DXt=γ(0)=0
根据马尔科夫定理,只有方差齐性时,用OLS得到的参数估计值才是准确的、有效的。

白噪声的检验

1. 检验原理

Barlett定理
如果XtXt是白噪声过程,{xt}{xt}是观察期数为n的观察序列,ρ^kρ^k是观察序列的自相关系数,
那么ρ^k∼˙N(0,1/n),∀k≠0ρ^k∼˙N(0,1/n),∀k≠0
(近似服从正态分布,是因为期数有限)

推论: ∑k=1nnρ^2k∼χ2(n)∑k=1nnρ^k2∼χ2(n)

2. 假设

序列是白噪声过程,H0:ρ1=ρ2=…=ρm=0,∀m≥1H0:ρ1=ρ2=…=ρm=0,∀m≥1
(因为期数有限,所以只计算前m个相关系数)

3. 构造统计量

  • Q统计量
    Q=n∑k=1mρ^2k∼χ2(n)Q=n∑k=1mρ^k2∼χ2(n)
  • LB统计量
    LB=n(n+2)∑k=1m(ρ^2kn−k)∼χ2(m)LB=n(n+2)∑k=1m(ρ^k2n−k)∼χ2(m)
    (对于小样本的表现也良好)
    Ljung-Box q statistic

4. 判别原则

p<αp<α,证明可以拒绝原假设,认为不是白噪声过程

代码实现见于上文acf,只需要设定qstat=True


您的支持将鼓励我继续创作!

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK