模式识别与人工智能
测控技术
2018年第37卷第10期 ? 3 ?
极限学习机综述
陆思源,陆志海,王水花,张煜东
(南京帅范大学计算机科学与技术学院,江苏南京210023)
摘要:极限学习机是一种单隐层前向网络的训练算法,主要特点是训练速度极快,而且可以达到很高的 泛化性能。回顾了极限学习机的发展历程,分析了极限学习机的数学模型,详细介绍了极限学习机的各 种改进算法,并列举了极限学习机在识别、预测和医学诊断领域的应用。最后总结预测了极限学习机的 改进方向。 关键词:极限学习机;机器学习;人工神经网络;综述 中图分类号:TP181
文献标识码:A
文章编号:1000 -8829(2018)10 -0003 -07
doi:10. 19708/j.ckjs. 2018.10.001
Review of Extreme Learning Machine
LU Si-yuan, LU Zhi-hai, WANG Shui-hua, ZHANG Yu-dong
(School of Conipuler Science and Technology, Nanjing Normal University, Nanjing 210023、China)
Abstract: Extreme learning machine ( ELM) is a novel training algorithm of single-hidden layer feedforward network
(SLFN). The training of ELM is extremely fast while obtaining good generalization ability. The development of ELM is reviewed^ the mathematical model of ELM is analyzed, the different improvements of ELM are introduced, and the applications of ELM in pattern recognition, forecasting and medical diagnosis are listed? Finally, scvcml ways for improving ELM arc sumrnarizt^l?
Key words: extreme learning machine( ELM); machine learning; artificial neural network; review
近年来,机器学习成为研究的热点主题。机器学 习小最著名的传统学习算法主要冇:支持向量机(Support Vector Machine, SVM )、决策树(Decision Tree, DT)、K 近邻(K-Nearest Neighbors, KNN )和反向传播 神经网络(Back Propagation Neural Network, BPNN ) o SVM的思想是寻找最大分类间隔,把分类问题转化为 凸二次规划问题解决。SVM适合解决小样本分类问 题。DT算法的核心是通过信息爛等度量方法对数据 集进行分析,来构建树状决策结构,每个内部节点表示 一个属性上的测试,每个分支代表一个测试输岀,每个 叶节点代表一种类别。常用的训练算法为1D3和
C4. 5。KNN是一种典型的非参数分类方法,它把数据 集分为训练集和测试集;对于每个测试集的样本, KNN先找到距离该样本最近的K个训练样本,然后 把这K个样本标签屮占比最多的标签作为该样本的 标签o BPNN是一种前向神经网络,在训练时,反向 传播误差,利用梯度下降法迭代更新网络参数,直到 收敛。
极限学习机(Extreme Learning Machine, ELM)是 由新加坡南洋理工大学的Hiumg等人⑴提出的一种 单隐层前向神经网络(Single-Hidden Layer Feedfbnvard Network,SLFN)的训练算法。不同于传统的训练算法 (如BP算法等),ELM算法对输入层的权值和偏置进 行随机赋值,然后用求Moore-Penrose广义逆矩阵的方 法直接解出隐层到输出层的权值。ELM的优势有:需 要手动设置的参数只有隐含层结点个数,算法执行过 程屮不需要人工调整参数;避免了传统训练算法反复 迭代的过程,快速收敛,极大地减少了训练时间;所得 解是唯一最优解,保证了网络的泛化性能。冃前ELM 已经广泛应用到各种回归和分类问题屮,也出现了许 多ELM的改进算法2一工来应对具体的问题°
收稿日期:20i7-10-05
基金项目:国家自然科学基金项目(61602250);江苏省自然科学 基金(BK20150983);国家重点研发计划(2017YFB1103200/02) 作者简介:陆思源(1991 —),男,硕士,主要研究方向为模式识 别;陆志海(1969—),男,硕士,高级工程师,主要研究方向为图 像处理;王水花(1985—),女,博士,讲师,主要研究方向为医学 图像处理;张煜东(1985-),男,博士,教授,博士生导师,主要 研究方向为人工智能与医学图像处理。
?4? 1理论基础
1. 1 SLFN 结构
一个典型的SLFN是山输入层、隐含层和输出层 构成,如图1所示。其屮输入层和输出层的结点数是 由具体问题确定的,网络中的待定参数有:隐含层结点 数、输入层到隐禽层权值、隐含层到输出层的权值和隐 含层的偏置。
1.2问题描述
SLFN的一般学习模式可以描述为:对于任意的N 个不同的样本(斗,£),七=[知,旳2,…竝卩e R = [石,如,…,几]丁 e R ,g(兀)为激活函数,标准的有A个 隐含结点的SLFNs可以表示为
N
N
工必(?)=
工阳(
i=l i=l
式中,叱= 叱?巧 + ?)= o’;,j = \\,…、N (1)
和输入层的权值向量;
[?5,%,???,%「为连接第i个隐含结点
仅=[禺,伐2,…,血r为连接 第/个隐含结点和输出层的权值向量;心为第i个隐含 结点的偏置;叱?形为叱和Xj的内积。
这样的一个SLFN可以无限逼近这N个样本: X W - Ml =0 ,也就是说,存在佚、w.b使得:
工”忆(比?无+心)=t^j = 1,?--,Af i?l
(2)
这儿个等式可以写成
Hp = T
(3) 其中,
HW,…,
b\\ 9 …,X|,…,Xjy )= …g
(和F 和,
+%) T
「gW -Xj +力)
Lg(巧?心+们)
「尿1
(5)
《测控技术)2018年第37卷第10期
式屮,H为神经网络隐禽层的输出矩阵,H的第i列为 神经网络隐含层的第/个结点的输出。 1.3理论证明
接着,Cuang-Bin Huang⑹严格证明了如下的结 论。 ① 如果激活函数g (咒)是无限可微的,那么可以 随机地选择输入层到隐含层的权值叱和隐禽层的偏 置力,SLFN就町以被当成一个线性系统,只需要通过 解析求出隐含层到输出层的权值\就町以确定整个 网络。Hp = T,H是一个N x A的矩阵,如果N = 那 么H是可逆的;如果N^N,那么求H的Moo心Pem rose广义逆矩阵°这样得到的网络不仅具有最小的训 练误差,而且权值的范数也最小。
根据Barllell定律,神经网络的训练误差越小,权 值的范数越小,那么它的泛化性能就越好\
② 对于给定的SLFN,有W个隐含结点,激活函数 g:R-R是无限可微的。对于任意的N个不同的样本 (X
i 9^i) 9X
i =
[ X
i\\ ? X
i2 ? …,X
in ]丘 R , £ =[如,*2 ,…, 如]JR\任意随机
的叱和L不论它们服从什么样 的连续分布,以下公式成立的概率为100% o
II 砂-口 =0
(6)
③ 给定一个任意小的正数£ >0,无限可微的激活 函数g :R-R,存在A WN,使得对于任意的N个不同的 样本(Xi 9 h ) 9Xi =[曲I ,曲2 ,in ] e
R , £ =
[ Si ,址, …,如]
丫丘R\任意随机的叱和%,不论它们服从什 么样的连续分布,以下公式成立的概率为100% o
\\\\HP-T || <£ (7)
1.4 ELM基本算法
基于以上的3个结论,Cuang-Bin Huang?提出了 ELM基本算法:给定一个训练集S二{(斗比)比e R , 张R\心1,…,M ,激活函数g(勿和隐含层结点个 数A。算法实现步骤如下:
① 对输入层到隐含层的权值叱和隐含层的偏置 卩随机赋值,心1,???川;
② 计算隐含层的输出矩阵H;
③ 计算隐含层到输出层的权值;HT其屮 是矩阵H的
Moore?Pemose广义逆矩阵。
通过ELM所得的解为唯一最优解,保证了网络的 泛化性能。
2改进算法
但是EIM也存在着一些问题,例如:由于隐含层 参数是随机生成的,会导致使用不同初始化参数训练 出的ELM
泛化性能有差异,影响ELM的稳定性和鲁 棒性,所以有学者对ELM进行分析并提岀各种改进算 法。
极限学习机综述
Guang-Bin Huang 6提出了在线增量极限学习机 (Online Sequential Extreme Learning Machine, OS- ELM),可以学习不断增长数据集。Guang-Bin等人⑺ 提出了凸增量极限学习机
(Convex Incremental Extreme Learning Machine,CI-ELM),可
以解决增量模型中新增 结点的训练问题。Hiumg等人°分析比较了 ELM和 SVM,得出以下结论:①SVM的最大I、可隔特性与前向 神经网络的权重范数最小化理论是一致的;②从标准 的优化算法角度來看,SVM和ELM是等价的,但定由 于ELM具有特殊的可分离特性,所以ELM的优化限 制条件更少;③经过理论分析和模拟实验,ELM比传 统的SVM具有更好的泛化性能\由于ETAI的输入层 权值和偏置是随机生成的,这样可能导致隐含层的输 出矩阵不是列满秩矩阵,会降低ELM的性能。针对这 一问题,Wang等人&提出了有效极限学习机( tive Extreme Learning Machine, EELM),在计算输出层 权值之前,调整输入层的权值和偏置,使得隐含层的输 出矩阵满足列满秩条件,改进后的EELM算法可以减 少训练时间,提高网络的分类准确率和网络的鲁棒性。 Cao等人⑶提出基于投票的极限学习机(Voting based Extreme Learning Machine,V-ELM)来避免随机生成的 隐含层权值和偏置对分类结果造成的不稳定性。V- EI制训练多个独立的具有相同结构和激活函数的 ELM,然后利用投票法来整合各ELM的结果。为了解 决非均衡分布数据的分类问题,Zong等人Z提出了加 权极限学习机(Weighted Extreme Learning Machine, Weighted ELM),该算法可以直接用于多分类问题,并 且可以推广到代价敏感学习。Rong等人〔°提出并应 用模块化的极限学习机(Modular Extreme Learning Machine, M-ELM) 来识别图像中的飞行器o Bai等人M 把ELM应用到对象通用类识别问题中,提出了 一种基 于局部感知域的极限学习机(Local Receptive Fields Based Extreme L(^arning Machine, ELM-LRF) o Lili 等 人e-提出一种通用的学习框架——多核极限学习机 (Multiple Kernel Extreme Learning Machine, MK-ELM) 来解决ELM核函数的选择和优化。Wa隔等人[⑵尝 试给出了 ELM泛化能力的振荡范围,并分析了 ELM 对隐含层结点个数不敏感的原因;实验结果表明,当隐 含层结点数接近无穷吋,ELM的核函数与激活函数对 参数是不敏感的,它的泛化性能与原始的ELM相当, 可以避免过拟合。Deng等人⑴为解决高维数据分类 问题对ELM进行了改进,把奇异值分解的隐层结点嵌 入极限学习机,提出了基于快速奇异值分解隐层结点 的极限学习机(Fasl Singular Value Decomposition-Hid- clen-Nodes Based Extreme Learning Machine, FSVD-H- ELM)O Xu等人[吨深入研究了误差最小化极限学习 机(Enor Minimized Extreme Learning Machine, EM- ELM),并对其进行改进,提出了增量正则化极限学习 M(Incremental Regularized Extreme Learning Machine, IR-ELM)和它的增强版(Enhancement of IR-ELM, EIR- ELM)O每当加入一个新的
?5?
隐含层结点,IR-ELM可以 快速地递归求解输出权值c实验证明JR-ELM比 ELM的泛化性能更优。WS培等人\「使用灰狼优化算 法(Grey Wolf Optimization,GWO)训练核极限学习机, 寻找最优的ELM参数,提出了灰狼优化的核极限学习 机(GWO-KELM) o Wang等人①运用核融合方法来 降低选择不同核函数对ELM分类性能的彫响,并.且使 用削减核降低计算开销,在此基础上提出了混合迁移 学习和削减核的极限学习tIL ( Transfer Learning Mixed and Reduced Kernel Extreme Learning Machine,TransM- RKELM)。为了解决流数据的学习问题,Xu等人⑴1 基于在线学习的方法训练FXM,在训练过程屮动态地 添加隐含层结点,提出了动态极限学习机(Dynamic Extreme Learning Machine,DELM) o Zeng 等人采用 一种新颖的延时转换的粒子群优化算法(Switching Delayed Particle Swarm Optimization, SDPSO)来训练 ELM,把ELM的输入权值和隐含层偏置作为粒子的参 数,用延时的局部最优解和全局最优解来更新粒子的 位置和移动速度。
表1对上述改进算法进行了分析和总结,从屮可 以看出ELM的改进算法主要有以下3个方面:ELM与 在线学习结合、ELM隐含层结点结构的改造和ELM 的网络参数优化。
3应用
3.1识别领域
Yang等人“提出基于面部图像的性别识别系 统,采用局部三元模式(LTP)提取图像特征。LTP是 局部二元模式的一种推广,对面部光照差异具有更好 的识别力并且对噪声有一定的容忍度。他们使用 ELM作为分类器来识别图像屮人物的性别。在实验 屮,使用公开数据集测试系统的性能。ELM达到 87. 13%的识别准确率,并且运行总时间仅为1.87 s, 性能明显优于BP网络和SVMO
Weimin Huang 20提出一种基于视频信息的人类 动作识别算法。首先从视频屮找到感兴趣的时间空间 信息,再提取出局部形状和运动信息作为动作的描 述特征。然后,提出一种新的最小类别变换的极限 学习 t/L( Minimum Class Variance Extreme Learning Machine ,MCVELM)作为分类器来识别动作。MCVELM 在4个公开数据集上都取得了较先进的识别准确 率。
?6? 《测控技术)2018年第37卷第10期
表I ELM改进算法的分析与总结
文献 改进算法
文献[6]~~提岀()S?F:1.M,可以根据数据集的増长动态添加隐含层
结点 文献[7]提出CI-EIA1,nj-以解决増虽模型中新增结点的训练问题 文献[2 ]将冊汕算法应用到支持向虽网络的训练
提出EEIA1,在计算输出层权值之前,调整输入层的权值和
文献[8]備进,使得隐含层的输出矩阵满足列满秩条件,提高网络的 分类准确率和网络的鲁棒性
文献[3]
提出V-ELM,通过训练多个ELM来降低随机性对网络泛化
性能的影响,用投票法:生成最终结果 文献[4]提出Vieightcnl ELM/nJ以解决非均衡分布数据的分类问题 ?汁I提出M-EI.M,把训练集划分成多个子集,分别用于训练不同 乂队1
的忙I?,并用聚类选择的方法整合它们的输出结果 文献[10]提出l vr I尝试给出EI1泛化能力的振荡范围,并分析了 EIA1对隐含 X 」层结点个数不敏感的原因 文献13]提出F'SVD-H-ELM^IA快速奇界值分解隐含层结点 文献[⑷ 提岀IR-ELM和EIR-ELM,快速递归计算新增结点的权值 文献[15]提出GWO-KELM ,利用群体计算优化KEI参数 旷“ |提出TransM-RKEIAI,^用核融合方法来降低选择不同核函 乂 '数对EM1分类性能的影响,并且使用削减核降低计算开销 文献[17 ]提出DELM,处理流数振 一出]络z「聞 提出 SDPSO-ELM,利用延时转换的粒子群优化算法训练网 乂献Chen等人?把KELM运用到高光谱图像的识别 分类问题屮。分别使用Gabor算子和多假设预测 (MH)的方法从高光谱图像屮提取空间特征和光谱特 征。然后分别用这两种特征训练KELMQ结果显示, 基于KELM的算法准确率不仅高于传统的按像素的 分类方法,而且也优于SVM算法。 R(mg等人⑼提出一种基于M-ELM的飞行器识别 算法。首先从图像屮提取Hu矩.Zernike矩和小波矩, 再通过多特征选择的算法得到最优特征集。然后把训 练集划分成若干子集,分别用不同的子集训练不同的 ELM,最后采用聚类选择的方法来整合所得的各 ELM的分类结果。实验结果显示,M-ELM的分类性 能优于多模块的SVARC4. 5、K近邻和朴索贝叶斯分 类器。 对象通用类识别问题一直是一个难点,因为类内 可变性很大。Bai等人(°用ELM-LRF作为分类算法, 尝试解决这一问题。在ELM中加入了卷积和池化方 法。池化层的结点权值为随机赋值,并且采用平方或 开方的池化方法。最后,应用最小二乘算法计算输出 权值。实验证明,ELM-LRF町以直接应用于不同的数 结果 OS-ELM在回归任务中的训练时间比其他顺序算法短,口梢度较高 在 回归实验中,CI-ELM的泛化性能总体上优于传统的增呈极限学习机 证明了 ELM算法优于传统的SVM 总体而言,在数据集较小的情况下,分类和回归的性能比传统 ELM好 在实验测试的19个数据集中V-ELM的性能均好于EIA1,并J1在其中 的 7个数据集上有明显的提高 在各种分布比例的非均衡数据集测试中 Weighted EI.VI的泛化性能比 传统ELM高 在飞行器识别的实验中,M-ELM的准确率高于单个ELM、多模块的 SVM、C4.5算法、K近邻算法和朴索贝叶斯算法 ELM-LRF在ETH-80数据集上的准确率达到先进水平,在NORB和 COIL 上创造了新的记录 MK-ELM在减少计算量的同时,可以达到甚至超过现有的最先进水平 当EI.M的隐含层结点个数接近无穷时,它的学习能力与原始ELM相 当,而R可以有效避免过拟合 通过在12个高维数据集的实验J'SVD-H-ELM的准确率已经达到或 超过现有的最先进算法 在5个基准数据集的实验中JJR-ELM都町以用更少的隐含层结点取 得比IR-ELM更好的分类准确率 GW0-KEIA1在破产预测中达到84. 86%的准确率,高于基于粒/群优 化、基因算法和网格搜索的KELM TransM-RKELM提高了对于跨地域行为的识别准确率 DELM町以根据数据流口适应地调整隐含层結点参数,准确率已经达 到 嚴先进水平 在负栽预测实验屮,SI)PS0-EIA1的泛化性能高于传统的径向某函数神 经网络 据集。该算法在NORB.ETH-80和COIL数据集上都 取得了很好的分类准确率。 Cheng等人⑵-扌巴EI.M和深度学习结合起來,提出 一种去噪深度极限学习机的自编码器(DDELM-AE)来 解决手写数字识别问题。在实验中,用USPS数据集 的500个样本进行训练,200个样本进行测试。 DDELM-AE可以达到96. 1 %的识别准确率,高于K- SVI)的 93.10% 和 SAE 的 95.25%。普通的ELM输岀多为标量,阳在实际应用中往往 是复杂的输出结果。Maliha等人〔辽对ELM进行改 进,提出了具有结构化输出空间的极限学习机(ELM for Structured Oulpul Spaces),用于图像中的对象识另lj 定位问题,并利用 PASCAL和VOC2006数据集对这种 算法进行评佔。结果表明,这种方法可以准确地识别 对象的位置范围,识别效果比结构化的SVM好。 Ding等人回「在KELM屮加入卷积和降采样,提出 了卷积核极限学习机(CKELM),用来解决手写数字识 别问题。 卷枳和降采样可以冇效地从图像屮提取特征 信息,KELM用于分类识别°在实验屮,利用MNIST 和USPS数据集对CKELM进行性能评估。CKELM在 MNIST上的准确率为96. 80%,在USPS上的准确率为 96.21% ,均高于 KELMO Wang等人〔16 使用惯性传感器收集数据,然后利 用TransM-RKELM识别其中的人类行为。使用核融合 的方法來降低选择不同核函数対识别性能的影响,核 融合还可以降低计算复杂度。在线学习阶段,利用高 置信度的识别结果对 极限学习机综述 TransM-RKELM进行训练,使它 能够适应不同的地点位置。实验结果表明,TransM- KKELM可以自适应传感器位置,可以达到很高的识别 准确率。 3.2预测领域 Song等人必-提出一种基于ELM的多元电力消费 预测模型。结合电力参数和环境参数作为特征,选择 ELM作为预测算法°提出一种DDMS-PSO算法来进 行所有离散型参数的优化,包括特征选择和ELM的隐 含层结点个数。基于现实数据的预测实验显示,提出 的算法比SVR的预测更准确。 Deng等人〔°用改进后的FSVD-H-ELM解决高维 数据分类问题。为了从高维数据屮冇效地提取出内在 特征,把奇异值分解嵌入到ELM的隐含层结点。由于 大型数据的奇异值分解的计算复杂度过高,引入一种 分治逼近方案来平衡计算量。在训练时,没有直接使 用整个数据集,而是先从原始数据小随机选取若干子 集,然后利用这些子集生成隐含层的奇异值分解结点C 实验结果表明,FSVL)-H-ELM具有较好的泛化性能和 计算效率。 Wang等人\提出GWO-KELM,并应用到企业破 产预测问题上。GW0是一种群体优化算法,它模拟自 然界屮狼的等级制和狩猎行为来寻找解空间屮的最优 解。实验小利用CW0来训练ELM的隐含层结点参 数,并与基于粒子群优化、基因算法和网格搜索的 KELM进行对比。GWO-KELM取得了 86. 84%的准确 率,比其他3种优化算法的结果都要好。 Xu等人少运用DEIN对流数据进行学习分析, 为了使分类器能够适应连续数据流屮的概念漂移,采 用了在线学习的机制来训练ELM,并设计了一个双隐 含层的结构来提高ELM的性能。在训练过程中, DELM可以动态地调整网络的隐含层结点数量,来适 应数据流的改变。经过实验发现,DELM町以提高对 数据流的分类准确率,并且可以很快地适应新的概 念。 Ze昭等人⑴采用SDI>SO-ELM来进行短期电力 负载预测,实验中,对比了 SDPSO-ELM和径向基函数 神经网络(Radial Basis Function Neural Network, RBFNN)的性能,结果显示所提出的SDPSO-ELM比 KBFNN的预测结果更接近实际情况。 3.3医学诊断领域 Wang等人3基于乳房X射线成像,运用ELM检 测乳腺疾病。首先利用图像纹理分析从乳房X射线 成像屮提取的特征,再使用启发式搜索确定特征的数 量和ET.M隐含层结点的数量? ELM在实验小的平均 诊断准确率达到了 91 %。 Ramalho等人乩利用KELM基于核磁共振成像 进行病脑诊断,首先对脑部核磁共振图像进行小波变 换,然后从所得的小波子带屮提取炳,作为图像特征, 最后训练KELM进行自动分类诊断。实验结果显示, 该诊断方法可以达到97. 48%的灵敏度、94. 44%的特 异度和97.04%的准确率。随 ?7? 后,Arunadevi等采用 蝙蝠算法(Bat Algorithm, BA)训练ELM,并应用于病 脑诊断,将诊断准确率提高到了 98. 33% o Zhu等人〔型使用Jaya算法训练ELM ,并用于病脑 检测小。为了解决脑核磁共振成像数据集样本分布不 均衡的问题,首先对数量较少的正常脑样本进行重采 样。然后,对图像进行小波包变换,再提取Tsallis爛作 为样本的特征向量,最后使用Jaya算法训练ELM作 为分类器°对比实验显示,Jaya-ELM的泛化性能比 GA-ELM.PSO-ELM 和 BA-ELM 高。 表2对ELM的应用进行了梳理,列出了 ELM的 应用领域以及实验结果。可以发现,相比于传统的 SVM和BP网络等分类算法,基于ELM的算法往往具 有明显的优势,不仅运行吋间极短,而且泛化性能较 好。专家学者针对具体问题,对ELM做出各式各样的 改进,来进一步提高它的分类精度和工作效率。 4结束语 本文回顾了 VAM的发展历程,分析了 ELM的数 学模型,详细介绍了 ELM的各种改进算法,并列举了 ELM在识别、预测和医学诊断领域的应用。可以发 现,相比于传统的SLFN训练算法,ELM的最大特点是 算法没冇迭代过程,大幅减少了网络的训练时间,同时 有效地避免局部最优解,求 得唯一全局最优解,保证了 网络的泛化性能。 ELM的改进思路主要有以下3种: ① 降低随机性对网络性能的影响,通过群体优化 算法(如PSO、GA、CWO等)寻找最优的参数提高网络 的鲁棒性,但此类方法一般需要参数迭代更新,所以计 算复杂度较高; ② 将ELM与在线学习和增量模型结合,提升网 络的町塑性,此类方法往往更针对具体的数据; ③ 将ELM与深度学习结合,加入自编码器、卷 积、降采样等深度学习的方法:3°-32:,可以实现自动提 取特征,提高分类准确率。