加权极限学习机的多变量时间序列预测方法
叶秋生, 陈晓云
【摘 要】摘要: 提出一种基于样本分布的极限学习机预测模型WELMSD. 该模型先用kN近邻密度估计方法估计出样本的密度值,再用估计出的密度值给传统ELM的经验风险项加权,克服传统ELM在对时间序列进行预测时忽略样本分布的缺点. 基于Rossler混沌时间序列和上证、 深证股票数据的实验仿真结果证明了所提算法的有效性,且当近邻参数kN取值较小时,所提模型对参数不敏感,是一种更优的多变量时间序列预测模型. 【期刊名称】福州大学学报(自然科学版) 【年(卷),期】2016(044)003 【总页数】6
【关键词】 加权极限学习机; 多变量时间序列; 预测; kN近邻密度估计
0 引言
时间序列预测技术被广泛应用于金融、 交通、 电力等领域,例如股票涨跌、 交通流量、 电力负荷的预测等. 但是,许多实际时间序列都是非平稳和非线性的,使得传统时间序列预测模型(如AR, ARMA, ARIMA等线性模型)的应用受到极大的限制. 非线性时间序列预测方法能够较好地处理非线性问题,从而得到更深入的研究和更广泛的应用[1].
极限学习机(extreme learning machine, ELM)是Huang等[2]根据广义逆矩阵理论和传统神经网络提出的一种新算法,该算法既保留传统神经网络能够较好地处理非线性问题的优点,又克服传统神经网络需要繁琐迭代的缺点,仅通过一步计算就能求出隐节点的输出权值. 同传统神经网络相比,ELM极大地提
高了网络的学习速度和泛化能力,近年来被广泛应用于时间序列的预测并取得良好的预测效果[3]. 但多数ELM时间序列预测方法在训练ELM模型时同等地看待滑动窗口内的样本[4-5],这显然是不合理的. 实际情况下, 滑动窗口内的样本对预测点的影响是有差异的[6]. 文献[6]认为与预测点时间上较近的样本对预测点的影响较大,赋予较大的权重,而时间上较远的样本对预测点的影响较小,赋予较小的权重. 但是,该思想凭经验而来,缺乏一定的理论支持,预测精度可能会因数据的不同而有较大的差异.
基于以上不足,将传统ELM算法和kN近邻密度估计方法结合起来,提出基于样本分布的加权极限学习机算法(weighted extreme learning machine based on sample distribution, WELMSD). WELMSD算法先通过kN近邻密度估计方法估计出样本的密度值,再用估计出的密度值给传统ELM的经验风险项加权,从而考虑样本点的分布情况,提高了模型的预测性能.
1 极限学习机分析
1.1 极限学习机(ELM)预测模型[4]
对于一个含有N个样本的多变量时间序列训练集?Rn, yi∈Y?R, i=1, …, N},其中,xi为输入变量,yi为输出变量,ELM的目标函数为[4]: (1)
其中: h(xi)=(g(w1, b1, xi), …, g(wL, bL, xi))为隐含层关于xi的输出向量; L为隐节点的个数; wj为第j个隐节点的输入权值; bj为第j个隐节点的偏差; β为隐含层的输出权值; g(wj, bj, xj)为第j个隐节点的激励函数,可在“Sigmoid”,“Sine”,“RBF”中选择. 根据拉格朗日乘子法和KKT最优条件,得[4]:
(2) 其中 (3)
从而可求得预测模型 (4)
1.2 样本分布对传统ELM模型的影响
在机器学习中,通常用期望风险R[f]来评价一个决策函数f(x)的优劣性,期望风险R[f]表达式[7]为: (5)
其中: P(x, y)为分布函数; c(x, y, f(x))为损失函数.
通常情况下,P(x, y)是未知的,期望风险无法直接计算. 常用下式去逼近期望风险: (6)
式(6)称为经验风险.
在传统ELM模型中,决策函数为: (7)
损失函数为: (8)
经验风险为: (9)
显然,当样本数N→∞时,Remp[f]在概率意义下趋近于R[f],然而,实际应