好文档 - 专业文书写作范文服务资料分享网站

一种带探索噪音的深度循环Q网络

天下 分享 时间: 加入收藏 我要投稿 点赞

一种带探索噪音的深度循环Q网络

刘全;闫岩;朱斐;吴文;张琳琳

【期刊名称】《计算机学报》 【年(卷),期】2024(042)007

【摘要】结合深度神经网络和强化学习方法的深度Q网络在Atari 2600游戏平台上取得了巨大成功.相较于深度Q网络,深度循环Q网络具有记忆历史信息的能力,在部分游戏上显示出了更好的性能.然而在某些复杂的游戏环境中,一方面深度循环Q网络需要大量的训练时间,另一方面其在动作空间抖动的策略中不能做出合理决策.针对这些问题,本文提出一种带探索噪音的深度循环Q网络(Deep Recurrent Q-Networks with Exploratory Noise,EN-DRQN)模型.与在动作空间的探索方式不同,EN-DRQN在网络空间注入噪音,引起网络输出变化,然后根据该变化选择动作.这种在网络空间的探索可以在未来多个时间步内造成复杂的改变,并通过循环神经网络记忆多步变化,使智能体(Agent)做出的决策更具有战略性.EN-DRQN具有以下特点:一是利用带探索性的噪音进行深度探索以弥补传统策略探索的低效性.噪音来自于噪音分布,通过方差驱动探索,这使得Agent可以发现大量新状态,提供更加丰富的样本,为决策提供有效信息;二是使用改进的双层门限循环单元来记忆较长时间步的历史信息,使Agent能够在延迟奖赏的情况下做出合理的决策.实验结果表明,EN-DRQN模型在Atari 2600游戏平台上的部分战略性游戏以及具有延迟奖赏的游戏上,与动作空间的抖动策略相比,取得了更优的表现. 【总页数】17页(1588-1604)

【关键词】深度学习;强化学习;循环神经网络;卷积神经网络;噪音探索

一种带探索噪音的深度循环Q网络

一种带探索噪音的深度循环Q网络刘全;闫岩;朱斐;吴文;张琳琳【期刊名称】《计算机学报》【年(卷),期】2024(042)007【摘要】结合深度神经网络和强化学习方法的深度Q网络在Atari2600游戏平台上取得了巨大成功.相较于深度Q网络,深度循环Q网络具有记忆历史信息的能力,在部分游戏上显示出了更好的性能.然而在某些复杂的游
推荐度:
点击下载文档文档为doc格式
5by6b9cqiy8wrp7230mk0mq5e7eb5x017xc
领取福利

微信扫码领取福利

微信扫码分享