BP神经网络的基本原理 - 一看就懂

由天下分享时间：2025/1/28 7:46:44 加入收藏我要投稿点赞

BP算法理论具有依据可靠、推导过程严谨、精度较高、通用性较好等优点，但标准BP算法存在以下缺点：收敛速度缓慢；容易陷入局部极小值；难以确定隐层数和隐层节点个数。在实际应用中，BP算法很难胜任，因此出现了很多改进算法。 1）利用动量法改进BP算法

标准BP算法实质上是一种简单的最速下降静态寻优方法，在修

正W(K)时，只按照第K步的负梯度方向进行修正，而没有考虑到以前积累的经验，即以前时刻的梯度方向，从而常常使学习过程发生振荡，收敛缓慢。动量法权值调整算法的具体做法是：将上一次权值调整量的一部分迭加到按本次误差计算所得的权值调整量上，作为本次的实际权值调整量，即：

（5.34）

其中：α为动量系数，通常0＜α＜0.9；η—学习率，范围在0.001～10之间。这种方法所加的动量因子实际上相当于阻尼项，它减小了学习过程中的振荡趋势，从而改善了收敛性。动量法降低了网络对于误差曲面局部细节的敏感性，有效的抑制了网络陷入局部极小。 2）自适应调整学习速率

标准BP算法收敛速度缓慢的一个重要原因是学习率选择不当，学习率选得太小，收敛太慢；学习率选得太大，则有可能修正过头，导致振荡甚至发散。可采用图5.5所示的自适应方法调整学习率。

调整的基本指导思想是：在学习收敛的情况下，增大η，以缩短学习时间；当η偏大致使不能收敛时，要及时减小η，直到收敛为止。

3）动量-自适应学习速率调整算法

采用动量法时，BP算法可以找到更优的解；采用自适应学习速率法时，BP算法可以缩短训练时间。将以上两种方法结合起来，就得到动量-自适应学习速率调整算法。 4） L-M学习规则

L-M（Levenberg-Marquardt）算法比前述几种使用梯度下降法的BP算法要快得多，但对于复杂问题，这种方法需要相当大的存储空间。L-M(Levenberg-Marquardt)优化方法的权值调整率选为:

（5.35）

其中：e—误差向量；J—网络误差对权值导数的雅可比（Jacobian）矩阵；μ—标量，当μ很大时上式接近于梯度法，当μ很小时上式变成了Gauss-Newton法，在这种方法中，μ也是自适应调整的。

综合考虑，拟采用L-M学习规则和动量法分别作为神经网络的训练函数和学习函数。

5.5 BP神经网络的训练策略及结果

本文借助于MATLAB神经网络工具箱来实现多层前馈BP网络（Multi-layer feed-forward backpropagation network）的颜色空间转换，免去了许多编写计算机程序的烦恼。神经网络的实际输出值与输入值以及各权值和阈值有关，为了使实际输出值与网络期望输出值相吻合，可用含有一定数量学习样本的样本集和相应期望输出值的集合来训练网络。训练时仍然使用本章5.2节中所述的实测样本数据。

另外，目前尚未找到较好的网络构造方法。确定神经网络的结构和权系数来描述给定的映射或逼近一个未知的映射，只能通过学习方式得到满足要求的网络模型。神经网络的学习可以理解为：对确定的网络结构，寻找一组满足要求的权系数，使给定的误差函数最小。设计多层前馈网络时，主要侧重试验、探讨多种模型方案，在实验中改进，直到选取一个满意方案为止，可按下列步骤进行：对任何实际问题先都只选用一个隐层；使用很少的隐层节点数；不断增加隐层节点数，直到获得满意性能为止；否则再采用两个隐层重复上述过程。

训练过程实际上是根据目标值与网络输出值之间误差的大小反复调整权值和阈值，直到此误差达到预定值为止。 5.5.1 确定BP网络的结构

确定了网络层数、每层节点数、传递函数、初始权系数、学习算法等也就确定了BP网络。确定这些选项时有一定的指导原则，但更多的是靠经验和试凑。 1）隐层数的确定：

1998年Robert Hecht-Nielson证明了对任何在闭区间内的连续函数，都可以用一个隐层的BP网络来逼近，因而一个三层的BP网络可以完成任意的n维到m维的映照。因此我们从含有一个隐层的网络开始进行训练。

2） BP网络常用传递函数:

BP网络的传递函数有多种。Log-sigmoid型函数的输入值可取任意值，输出值在0和1之间；tan-sigmod型传递函数tansig的输入值可取任意值，输出值在-1到+1之间；线性传递函数purelin的输入与输出值可取任意值。BP网络通常有一个或多个隐层，该层中的神经元均采用sigmoid型传递函数，输出层的神经元则采用线性传递函数，整个网络的输出可以取任意值。各种传递函数如图5.6所示。

只改变传递函数而其余参数均固定，用本章5.2节所述的样本集训练BP网络时发现，传递函数使用tansig函数时要比logsig函数的误差小。于是在以后的训练中隐层传递函数改用tansig函数，输出层传递函数仍选用purelin函数。 3）每层节点数的确定：

使用神经网络的目的是实现摄像机输出RGB颜色空间与CIE-XYZ色空间转换，因此BP网络的输入层和输出层的节点个数分别为3。下面主要介绍隐层节点数量的确定。

对于多层前馈网络来说，隐层节点数的确定是成败的关键。若数量太少，则网络所能获取的用以解决问题的信息太少；若数量太多，不仅增加训练时间，更重要的是隐层节点过多还可能出现所谓“过渡吻合”（Overfitting）问题，即测试误差增大导致泛化能力下降，因此合理选择隐层节点数非常重要。关于隐层数及其节点数的选择比较复杂，一般原则是：在能正确反映输入输出关系的基础上，应选用较少的隐层节点数，以使网络结构尽量简单。本论文中采用网络结构增长型方法，即先设置较少的节点数，对网络进行训练，并测试学习误差，然后逐渐增加节点数，直到学习误差不再有明显减少为止。 5.5.2 误差的选取

在神经网络训练过程中选择均方误差MSE较为合理，原因如下： ① 标准BP算法中，误差定义为：

（5.36）

每个样本作用时，都对权矩阵进行了一次修改。由于每次权矩阵的修改都没有考虑权值修改后其它样本作用的输出误差是否也减小，因此将导致迭代次数增加。 ② 累计误差BP算法的全局误差定义为：

（5.37）

这种算法是为了减小整个训练集的全局误差，而不针对某一特定样本，因此如果作某种修改能使全局误差减小，并不等于说每一个特定样本的误差也都能同时减小。它不能用来比较P和m不同的网络性能。因为对于同一网络来说，P越大，E也越大； P值相同，m越大E也越大。

③ 均方误差MSE：

（5.38）

其中:—输出节点的个数，—训练样本数目，—网络期望输出值，—网络实际输

出值。均方误差克服了上述两种算法的缺点，所以选用均方误差算法较合理。 5.5.3 训练结果

训练一个单隐层的三层BP网络，根据如下经验公式选择隐层节点数[125]：

（5.39）

式中：n为输入节点个数，m为输出节点个数，a为1到10之间的常数。针对本论文n1取值范围为3～13。训练结果如表5.1所示。

表5.1 隐层节点数与误差的关系

隐层神经元个数 3 4 训练误差 1.25661 0.797746 测试误差 1.1275 0.8232 5 6 7 8 9 10 11 12 13 0.631849 0.570214 0.552873 0.445118 0.385578 0.259624 0.185749 0.183878 0.168587 0.7278 0.6707 0.6895 0.6575 0.6497 0.4555 0.6644 0.48 0.6671 由上表可以看出：

① 增加隐层节点数可以减少训练误差，但超过10以后测试误差产生波动，即泛化能力发生变化。综合比较隐层节点数为10与12的训练误差和测试误差，决定隐层节点数选用12。

② 训练误差和测试误差都很大,而且收敛速度极慢（训练过程如图5.7所示），这个问题可以通过对输出量进行归一化来解决。

根据Sigmoid型传递函数输入和输出的范围，对输入变量不进行归一化处理，只对输出变量进行归一化，这是因为在输出数据要求归一化的同时，对输入数据也进行归一化的话，权值的可解释性就更差了。目标值按下式进行变化：

（5.40）

使目标值落在0.05～0.95之间，这样靠近数据变化区间端点的网络输出值就有一波动范围，网络的性能较好。用新生成的训练样本与测试样本对隐层节点数为12的网络进行训练，得到的训练误差为9.89028×10-5，测试误差为1.9899×10-4，达到了预定的目标（训练过程如图5.8所示）。