第2章 时间序列的预处理
拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。 2.1 平稳性检验 2.1.1 特征统计量
平稳性是某些时间序列具有的一种统计特征。要描述清楚这个特征,我们必须借助如下统计工具。
一、概率分布
数理统计的基础知识告诉我们分布函数或密度函数能够完整地描述一个随 机变量的统计特征。同样,一个随机 变量族的统计特性也完全由它们的联 合分布函数或联合密度函数决定。
对于时间序列{Xt,t∈T},这样来定义它的概率分布:
任取正整数m,任取t1,t2,?,tm∈T,则m维随机向量(Xt1,Xt2,?,Xtm)’的联合概率分布记为Ft1,t2,?,t(,由这些有限维分布函数构成的全体。 x1,x2,?,xm)m{Ft1,t2,?,t(,?m∈正整数,?t1,t2,?,tm∈T} 就称为序列{Xt}x1,x2,?,xm)m的概率分布族。
概率分布族是极其重要的统计特征描述工具,因为序列的所有统计性质理论上都可以通过 概率分布推测出来,但是概率分布族的重要 性也就停留在这样的理论意义上。在实际应 用中,要得到序列的联合概率分布几乎是不 可能的,而且联合概率分布通常涉及非常复 杂的数学运算,这些原因使我们很少直接使 用联合概率分布进行时间序列分析。
二、特征统计量 一个更简单、更实用的描述时间序列统计特征的方法是研究该序列的低阶矩,特别是均值、方差、自协方差和自相关系数,它们也被称为特征统计量。
尽管这些特征统计量不能描述随机序列全部的统计性质,但由于它们概率意义明显,易于计算,而且往往能代表随机 序列的主要概率特征,所以我们对时间序列进行分析,主要就是通过分析这些统计量的统计特性,推断出随机序列的性质。
1.均值
对时间序列{Xt,t∈T}而言,任意时刻的序列值Xt都是一个随机变量,都有它自己的概率分布,不妨记为Ft(x)。只要满足条件
??-?xdFt(x)??
就一定存在着某个常数?t,使得随机变量Xt总是围绕在常数值?t附近做随机波动。我们称?t为序列{Xt}在t时刻的均值函数。
??xdFt(x) ?t=EXt=-?当t取遍所有的观察时刻时,就得到一个均值函数序列{?t,t∈T}。它反映的是时间序列{Xt,t∈T}每时每刻的平均水平。
2.方差
当?-?xdF可以定义时间序列的方差函数用以描述序列值围绕其均值t(x)??时,做随机波动时的平均波动程度。
2?t2?DXt?E(Xt??t)2?????(x??t)dFt(x)
?同样,当t取遍所有的观察时刻时,我们得到一个方差函数序列{?t2,t?T}。
3.自协方差函数和自相关系数
类似于协方差函数和相关系数的定义,在时间序列分析中我们定义自协方差函数(autocovariance function)和自相关系数(autocorrelation coefficient)的概念。
对于时间序列{Xt,t∈T},任取t,s∈T,定义γ(t,s)为序列{Xt}的自协方差函数:
?(t,s)?E(Xt??t)(Xs??s)
定义?(t,s)为时间序列{Xt}的自相关系数,简记为ACF。
?(t,s)??(t,s)DXt?DXs
之所以称它们为自协方差函数和自相关系数,是因为通常的协方差函数和相关系数度量的是两个不同事件彼此之间的相互影响程度,而自协方差函数和自相关系数度量的是同一事件在两个不同时期之间的相关程度,形象地讲就是度量自己过去的行为对自己现在的影响。
2.1.2 平稳时间序列的定义
平稳时间序列有两种定义,根据限制条件的严格程度,分为严平稳时间序列和宽平稳时间序列。
一、严平稳
所谓严平稳(strictly stationary)就是一种条件比较苛刻的平稳性定义,它认为只有当序列所有的统计性质不会随时间的推移而发生变化时,该序列才能被认为平稳。而我们知道,随机变量族的统计性质完全由它们的联合概率分布族决定。所以严平稳时间序列的定义如下:
定义2.1 设{Xt}为一时间序列,对任意正整数m,任取t1,t2,?,tm∈T,对任意整数?,有
Ft1,t2,?,t(x1,x2,?,xm)=Ftm1??,t2??,?,tm??(x1,x2,?,xm)
则称时间序列{Xt}为严平稳时间序列。
前面说过,在实践中要获得随机序列的联合分布是一件非常困难的事,而且即使知道随机序列的联合分布,计算和应用也非常不便。所以严平稳时间序列通常只具有理论意义,在实践中用得更多的是条件比较宽松的宽平稳时间序列。
二、宽平稳
宽平稳(weak stationary)是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定,所以只要保证效率低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。
定义2.2 如果{Xt}满足如下三个条件:
2(1)任取t∈T,有EXT??
(2)任取t∈T,有EXt??,?为常数;
(3)任取t,s,k∈T,且k+s-t∈T,有γ(t,s)=γ(k,k+s-t)
则称{Xt}为宽平稳时间序列。宽平稳也称为弱平稳或二阶平稳(second-order stationary)。 显然,严平稳比宽平稳的条件严格。严平稳是对序列联合分布的要求,以保证序列所有的统计特征都相同;而宽平稳只要求序列二阶平稳,对于高于二阶的矩没有任何要求。所以通常情况下,严平稳序列也满足宽平稳条件,而宽平稳序列不能反推严平稳成立。
但这不是绝对的,两种情况都有特例。
比如服从柯西分布的严平稳序列就不是宽平稳序列,因为它不存在一、二阶矩,所以无法验证它二阶平稳。严格地讲,只要存在二阶矩的严平稳序列才能保证它一定也是宽平稳序列。
宽平稳一般推不出严平稳,但当序列服从多元正态分布时,则二阶平稳可以推出严平稳。
定义2.3 时间序列{Xt}称为正态时间序列,如果任取正整数n,任取t1,t2,?,tn∈T,相对应的有限维随机变量X1,X2,...,Xn服从n维正态分布,密度函数为:
??1~~~?1~~ft1,t2,...,tn(Xn)?(2?)2|?n|2exp[?(Xn??)'?nn(Xn??n)]
2n1~?其中,Xn?,EX2,?,EXn)';?n为协方差阵: (X1,X2,?,Xn)';?n(EX1~
??(t1,t1)?(t1,t1)???(t2,t1)?(t2,t1)?n??......???(t,t)?(t,t)n1?n1...?(t1,tn)??...?(t2,tn)?......?
?...?(tn,tn)?? 从正态随机序列的密度函数可以看出,它的n维分布仅由均值向量和协方差阵决定,即
对正 态随机序列而言,只要二阶矩平稳了,就等于分布 平稳了,所以宽平稳的正态序列一定是严平稳时间序列。对于非正态过程,就没有这个性质了