加权极限学习机的多变量时间序列预测方法

由天下分享时间：2025/3/10 7:04:22 加入收藏我要投稿点赞

加权极限学习机的多变量时间序列预测方法

叶秋生, 陈晓云

【摘要】摘要：提出一种基于样本分布的极限学习机预测模型WELMSD. 该模型先用kN近邻密度估计方法估计出样本的密度值，再用估计出的密度值给传统ELM的经验风险项加权，克服传统ELM在对时间序列进行预测时忽略样本分布的缺点. 基于Rossler混沌时间序列和上证、深证股票数据的实验仿真结果证明了所提算法的有效性，且当近邻参数kN取值较小时，所提模型对参数不敏感，是一种更优的多变量时间序列预测模型. 【期刊名称】福州大学学报（自然科学版）【年(卷),期】2016(044)003 【总页数】6

【关键词】加权极限学习机；多变量时间序列；预测； kN近邻密度估计

0 引言

时间序列预测技术被广泛应用于金融、交通、电力等领域，例如股票涨跌、交通流量、电力负荷的预测等. 但是，许多实际时间序列都是非平稳和非线性的，使得传统时间序列预测模型(如AR, ARMA, ARIMA等线性模型)的应用受到极大的限制. 非线性时间序列预测方法能够较好地处理非线性问题，从而得到更深入的研究和更广泛的应用[1].

极限学习机(extreme learning machine, ELM)是Huang等[2]根据广义逆矩阵理论和传统神经网络提出的一种新算法，该算法既保留传统神经网络能够较好地处理非线性问题的优点，又克服传统神经网络需要繁琐迭代的缺点，仅通过一步计算就能求出隐节点的输出权值. 同传统神经网络相比，ELM极大地提

高了网络的学习速度和泛化能力，近年来被广泛应用于时间序列的预测并取得良好的预测效果[3]. 但多数ELM时间序列预测方法在训练ELM模型时同等地看待滑动窗口内的样本[4-5]，这显然是不合理的. 实际情况下, 滑动窗口内的样本对预测点的影响是有差异的[6]. 文献[6]认为与预测点时间上较近的样本对预测点的影响较大，赋予较大的权重，而时间上较远的样本对预测点的影响较小，赋予较小的权重. 但是，该思想凭经验而来，缺乏一定的理论支持，预测精度可能会因数据的不同而有较大的差异.

基于以上不足，将传统ELM算法和kN近邻密度估计方法结合起来，提出基于样本分布的加权极限学习机算法(weighted extreme learning machine based on sample distribution, WELMSD). WELMSD算法先通过kN近邻密度估计方法估计出样本的密度值，再用估计出的密度值给传统ELM的经验风险项加权，从而考虑样本点的分布情况，提高了模型的预测性能.

1 极限学习机分析

1.1 极限学习机(ELM)预测模型[4]

对于一个含有N个样本的多变量时间序列训练集?Rn, yi∈Y?R, i=1, …, N}，其中，xi为输入变量，yi为输出变量，ELM的目标函数为[4]： (1)

其中： h(xi)=(g(w1, b1, xi), …, g(wL, bL, xi))为隐含层关于xi的输出向量； L为隐节点的个数； wj为第j个隐节点的输入权值； bj为第j个隐节点的偏差； β为隐含层的输出权值； g(wj, bj, xj)为第j个隐节点的激励函数，可在“Sigmoid”，“Sine”，“RBF”中选择. 根据拉格朗日乘子法和KKT最优条件，得[4]：

(2) 其中 (3)

从而可求得预测模型 (4)

1.2 样本分布对传统ELM模型的影响

在机器学习中，通常用期望风险R[f]来评价一个决策函数f(x)的优劣性，期望风险R[f]表达式[7]为： (5)

其中： P(x, y)为分布函数； c(x, y, f(x))为损失函数.

通常情况下，P(x, y)是未知的，期望风险无法直接计算. 常用下式去逼近期望风险： (6)

式(6)称为经验风险.

在传统ELM模型中，决策函数为： (7)

损失函数为： (8)

经验风险为： (9)

显然，当样本数N→∞时，Remp[f]在概率意义下趋近于R[f]，然而，实际应