Ada_Nesterov动量法 ——一种具有自适应学习率的
Nesterov动量法
贾熹滨,史佳帅【摘 要】摘 要
【期刊名称】计算机科学与应用【年(卷),期】2019(009)002【总页数】8【关键词】关键词
文章引用: 贾熹滨,史佳帅.Ada_Nesterov 动量法[J].计算机科学与应用,2019,9(2): 351-358.Received: Jan.29th,2019;accepted: Feb.8th,2019;published: Feb.15th,2019Copyright ? 2019 by author(s)and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License(CC BY).
http://creativecommons.org/licenses/by/4.0/
1.引言
优化算法是深度学习的一个重要组成部分,近年来深度学习能够取得瞩目成绩的一个原因为其优化算法的改进。在求解深度学习网络时,优化算法按照反向求导梯度的阶数可以分为一阶方法(梯度下降法[1]、随机梯度下降法[2]、动量法[3]等)和二阶近似法(牛顿法[4] [5]、共轭梯度法[6] [7]和存储受限的BFGS(L-BFGS)算法等)。但是由于二阶近似方法计算量很大,对于高维度的数据的优化效果不好,所以本文主要研究一阶方法。
深度学习中一阶梯度优化算法的改进均为以梯度下降法为基础,对其梯度下降方向或者学习率进行改进。Nesterov 动量法可以很好地改进梯度下降方向,但是其所有参数都具有相同的学习率,并且学习率需要人为设定。Adadelta 算法具有自适应学习率的功能,但是在训练后期存在梯度下降方向不准确的现象。因此,本文结合Nesterov 动量法的梯度下降策略和Adadelta 算法的自适应学习率策略,提出了具有自适应学习率,且梯度下降方向准确的Ada_Nesterov 动量法。
2.深度学习优化算法比较
2.1.梯度下降法
Ada_Nesterov动量法——一种具有自适应学习率的Nesterov动量法



