Ada_Nesterov动量法——一种具有自适应学习率的Nesterov动量法

由天下分享时间：2025/2/27 1:44:49 加入收藏我要投稿点赞

Ada_Nesterov动量法 ——一种具有自适应学习率的

Nesterov动量法

贾熹滨，史佳帅【摘要】摘要

【期刊名称】计算机科学与应用【年(卷),期】2019(009)002【总页数】8【关键词】关键词

文章引用：贾熹滨,史佳帅.Ada_Nesterov 动量法[J].计算机科学与应用,2019,9(2): 351-358.Received: Jan.29th,2019;accepted: Feb.8th,2019;published: Feb.15th,2019Copyright ? 2019 by author(s)and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License(CC BY).

http://creativecommons.org/licenses/by/4.0/

1.引言

优化算法是深度学习的一个重要组成部分，近年来深度学习能够取得瞩目成绩的一个原因为其优化算法的改进。在求解深度学习网络时，优化算法按照反向求导梯度的阶数可以分为一阶方法(梯度下降法[1]、随机梯度下降法[2]、动量法[3]等)和二阶近似法(牛顿法[4] [5]、共轭梯度法[6] [7]和存储受限的BFGS(L-BFGS)算法等)。但是由于二阶近似方法计算量很大，对于高维度的数据的优化效果不好，所以本文主要研究一阶方法。

深度学习中一阶梯度优化算法的改进均为以梯度下降法为基础，对其梯度下降方向或者学习率进行改进。Nesterov 动量法可以很好地改进梯度下降方向，但是其所有参数都具有相同的学习率，并且学习率需要人为设定。Adadelta 算法具有自适应学习率的功能，但是在训练后期存在梯度下降方向不准确的现象。因此，本文结合Nesterov 动量法的梯度下降策略和Adadelta 算法的自适应学习率策略，提出了具有自适应学习率，且梯度下降方向准确的Ada_Nesterov 动量法。

2.深度学习优化算法比较

2.1.梯度下降法