SVM与神经网络在时间序列预测中的比较
一、支持向量机理论
支持向量机是基于统计学习理论(StatisticalLearningTheory,SLT)发展起来的。传统的统计学所研究的主要是渐近理论,即当样本趋向于无穷多时的统计性质。在现实问题中,给出的样本数目通常是有限的,但传统上仍以样本数目无穷多为假设来推导各种算法,并期望算法在样本较少时也能有较好的(至少是可接受的)表现。不过情况往往相反,其中,神经网络过学习问题就是一个典型的代表:当样本数有限时,本来很不错的一个学习机器却可能表现出很差的推广能力。人们对于解决此类问题的努力实际上一直在进行。但是,其中多数工作集中在对已有(基于传统统计学原则的)方法的改进和修正,或者利用启发式方法设计某些巧妙的算法。而统计学习理论则系统地研究了机器学习的问题,尤其是有限样本情况下的统计学习问题。统计学习理论是目前针对小样本统计估计和预测学习的最佳理论,它从理论上系统地研究了经验风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系及如何利用这些理论找到新的学习原则和方法等问题,统计学习理论因为对有限样本情况下模式识别、函数逼近中的一些根本性问题进行了系统的理论研究,在很大程度上解决了模型选择与过学习问题、非线性和维数灾难问题、局部极小点问题等,因此成为研究的热点。
或许是由于统计学习理论为人们系统研究有限样本情况下机器学习问题提供了有力的理论基础,或许更是因为在这一基础上的支持向量机方法所表现出的令人向往的优良特性,人们开始迅速重视起该学术方向。现在,越来越多的学者认为,关于统计学习理论和支持向量机的研究,将很快出现象在80年代后期人工神经网络研究那样 的飞速发展阶段。与传统神经网络所不同的是,统计学习理论有完备的理论基础和严格的理论体系(相比之下神经网络有更多的启发
式成分),而且其出发点是更符合实际情况的有限样本假设,具有更强的科学性。
Vapnik博士就是统计学习理论的创立者之一,也是支持向量机方法的主要发明者。该理论方法最早是由Vapnik领导的AT&TBell实验室研究小组提出,最初用来解决模式识别的,其第一个应用是Vapnik等人在美国AT&T实
验室做的手写数字识别,他们利用美国国家邮政总局数据库提供的7300个训练样本和2000个测试数据设计了多项式、径向基函数、二层神经网络等不同形式的支持向量机,样本的分辨率为16×16象素,系统维数为256,实验表明3种结果SVM得到的支持向量数目接近(274、291、
254),其中共同的支持向量数目约为80%,识别率要好于 神经网络。
后来支持向量机扩展应用到函数逼近、回归估计等问题。无论是模式识别还是函数逼近,支持向量机都将求解问题最终归结为一个线性约束的凸二次规划(QP)问题,求出的解是全局最优的和唯一的。 二、径向基神经网络理论
1988年Broomhead和Lowe提出了一种多变量函数迭代和自适应网络,称为径向基函数网络(RadialBasisFunctionNetwork,简称RBFN)。这种结构近似于多层前向
神经网络。径向基函数网络由输入层、隐藏层和输出层组成的三层结构,由于这种网络结构简单,学习速度快,引起了人们的广泛关注。D.S.Broomhead,J.Moody,S.Chen等人分别提出了一种径向基函数网络的快速学习算法,把径向基函数网络的学习过程分成两个独立的过程,这种算法称为两步算法(Two―StepAlgorithm)。第一步确定隐藏层参数;第二步基于最小均方差标准学习确定输出层参数。
20世纪90年代中期,在这一理论框架下产生出了支
持向量机这一新的机器学习方法,或者说支持向量机是统计学习理论实现的具体表现。 -40-