好文档 - 专业文书写作范文服务资料分享网站

Ada_Nesterov动量法——一种具有自适应学习率的Nesterov动量法

天下 分享 时间: 加入收藏 我要投稿 点赞

Ada_Nesterov动量法 ——一种具有自适应学习率的

Nesterov动量法

贾熹滨,史佳帅【摘 要】摘 要

【期刊名称】计算机科学与应用【年(卷),期】2019(009)002【总页数】8【关键词】关键词

文章引用: 贾熹滨,史佳帅.Ada_Nesterov 动量法[J].计算机科学与应用,2019,9(2): 351-358.Received: Jan.29th,2019;accepted: Feb.8th,2019;published: Feb.15th,2019Copyright ? 2019 by author(s)and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License(CC BY).

http://creativecommons.org/licenses/by/4.0/

1.引言

优化算法是深度学习的一个重要组成部分,近年来深度学习能够取得瞩目成绩的一个原因为其优化算法的改进。在求解深度学习网络时,优化算法按照反向求导梯度的阶数可以分为一阶方法(梯度下降法[1]、随机梯度下降法[2]、动量法[3]等)和二阶近似法(牛顿法[4] [5]、共轭梯度法[6] [7]和存储受限的BFGS(L-BFGS)算法等)。但是由于二阶近似方法计算量很大,对于高维度的数据的优化效果不好,所以本文主要研究一阶方法。

深度学习中一阶梯度优化算法的改进均为以梯度下降法为基础,对其梯度下降方向或者学习率进行改进。Nesterov 动量法可以很好地改进梯度下降方向,但是其所有参数都具有相同的学习率,并且学习率需要人为设定。Adadelta 算法具有自适应学习率的功能,但是在训练后期存在梯度下降方向不准确的现象。因此,本文结合Nesterov 动量法的梯度下降策略和Adadelta 算法的自适应学习率策略,提出了具有自适应学习率,且梯度下降方向准确的Ada_Nesterov 动量法。

2.深度学习优化算法比较

2.1.梯度下降法

Ada_Nesterov动量法——一种具有自适应学习率的Nesterov动量法

Ada_Nesterov动量法——一种具有自适应学习率的Nesterov动量法贾熹滨,史佳帅【摘要】摘要【期刊名称】计算机科学与应用【年(卷),期】2019(009)002【总页数】8【关键词】关键词文章引用:贾熹滨,史佳帅.Ada_Nesterov动量法[J].计算机科学与应用,2019,9(2):351-358.Rece
推荐度:
点击下载文档文档为doc格式
1nf5k5nm6d7yogl1itk20zdc523y3q00i1m
领取福利

微信扫码领取福利

微信扫码分享