图片简介:
本技术介绍了一种基于深度强化学习的无人船艇编队路径跟踪方法,包括无人船艇航行环境探索、奖励函数设计、编队队形保持、随机制动机制以及路径跟踪,无人船艇航行环境探索采用多艇同时探索,提取环境信息,奖励函数设计包括针对编队队形组成情况和路径跟踪误差的设计,随机制动机制可以优化深度强化学习的训练过程,编队队形保持通过编队队形控制策略实现,路径跟踪是通过领导者跟随者编队控制策略控制无人船艇沿预设路径运动,通过不断更新无人船艇的位置,从而使编队中所有无人船艇实现路径跟踪,本技术通过协同探索策略加速训练无人船艇路径点跟踪模型,并与领导者跟随者编队控制策略结合,形成无人船艇编队路径跟踪方法。
技术要求
1.一种基于深度强化学习的无人船艇编队路径跟踪方法,其特征在于,包括:S1:构建决策神经网络模型;
S2:根据多艇同时探索,提取航行水域环境信息,并储存经验数据;
S3:从储存的经验数据中选取训练数据训练所述决策神经网络模型,并采用随机制动机制优化深度强化学习的
训练过程,获取无人船艇编队队形保持能力;
S4:基于协同探索的决策神经网络模型控制无人船艇沿预设路径运动,并通过不断更新无人船艇的位置,从而
使编队中所有无人船艇实现路径跟踪;
S5:按照路径跟踪控制无人船艇队形移动,使无人船艇保持跟踪队形,实现编队路径跟踪。2.根据权利要求1所述的方法,其特征在于,步骤S2包括:
通过所述决策神经网络模型输出动作,并将相关状态、动作、奖励保存到经验池中,然后从所述经验池中选择经验数据形成训练数据集,在采用所述训练数据集训练所述决策神经网络模型时,每个无人船艇从不同的初始状态开始探测,并将探测的运动状态存入所述经验池中。
3.根据权利要求2所述的方法,其特征在于,奖励函数考虑了无人船艇速度的同时,最大化无人船艇驶向参考坐
标点的航向速度,最小化无人船艇横向偏移速度,将无人船艇与参考点之间的距离视为奖励函数的设计因子。
4.根据权利要求3所述的方法,其特征在于,由R=kvRv+kdRd设计奖励函数,其中,Rv表示无人船艇的速
度,Rd表示无人船艇与参考点的距离,kv和kd是速度和距离的权重。
5.根据权利要求1至4任意一项所述的方法,其特征在于,步骤S3包括:
基于DDPG算法对所述决策神经网络模型进行训练,在训练过程中将OU过程引入到DDPG中来探索环境,当所述决策神经网络模型做出决策和输出动作at=μ(st)时,由随机过程产生的动
作噪声
的平均值为0,at表示神经网络输出的动作,μ(st)表示
神经网络决策策略,st表示t时刻输入神经网络的状态输入,ano-brake表示神经网络输出的动作加入随机噪声后生成的动作。
6.根据权利要求5所述的方法,其特征在于,所述决策神经网络模型通过学习共享决策实现无人船艇编队队形保
持,将actor网络设计为近似策略,采用梯度下降法更新所述actor网络中的参数。
7.根据权利要求6所述的方法,其特征在于,由
络模型中的目标评价网络,并通过优化损失函数对所述目标评价网络进行更新
确定所述决策神经网
为:
过随机梯度下降法更新参数
其中,
是在线评价网络中的参数,
通
是目标评价网络中的参
数,s'是指在状态s处采取动作a后的下一个状态,a'是决策神经网络在s'处采取的行动,r是奖
励值,表示训练的网络的输出值与期望值之间的损失值,表示和的集
合,r(s,a)表示奖励值,γ表示折扣因子,
表示目标评价网络的目标评价
值,动作向量。
表示在线评价网络的目标评价值,C(s,a)表示s和a的组合,s表示状态向量,a表示
8.根据权利要求7所述的方法,其特征在于,步骤S4包括:
设无人船艇编队中心点为pc(xc,yc),其中,xc,yc分别表示无人船艇编队中心点的横坐标和纵坐标,ed表示pc与预设路径上的点pp(xp,yp)之间的交叉航迹误差,xp,yp表示pp(xp,yp)的横坐标和纵坐标,pv(xv,yv)表示虚拟引导者的预期位置,xv,yv表示虚拟引导者的横坐标和纵坐标,无人船艇编队路径跟踪要求无人船艇编队虚拟引导者沿参数化预设路径(xp(θ),yp(θ))移动,xp(θ),yp(θ)表示预设路径上的点,θ表示路径参数;
由差ed;
确定路径跟踪的交叉航迹误
无人船艇编队路径跟踪过程中,无人船艇编队中心点pc的位置会不断变化,pc在预设路径上的投影pp也会发生变化,根据ed在预设路径上选择虚拟引导者pv以保持与pp点的距离。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利
要求1至8任一项所述方法的步骤。
技术说明书
一种基于深度强化学习的无人船艇编队路径跟踪方法技术领域
本技术属于无人船艇编队路径跟踪控制领域,尤其涉及一种基于深度强化学习的无人船艇编队路径跟踪方法。背景技术
无人船艇具有灵活、高速的特点,常被用于执行一些无人的任务,如海洋测绘、气象监视、环境监测等方面。近年来,无人船艇的相关研究和技术有了很大的发展。同时,后续的多欠驱动无人船艇编队路径跟踪也逐渐引起广泛关注。多无人船艇编队在搜救、侦察、数据收集、海洋清理等方面可发挥重要作用。路径跟踪是无人船艇控制中的基本问题之一。无人船艇编队路径跟踪的主要目的是使多艘无人船艇保持一定的编队队形沿预设路径航行。
与此同时,强化学习技术在人工智能、机器学习和自动控制等领域中得到了广泛的研究和应用,并被认为是设计智能系统的核心技术之一。随着机器学习领域的技术突破,相关人员开展了大量的强化学习与深度学习相结合的研究。因此,如何实现基于深度强化学习的无人船艇编队路径跟踪是目前亟需解决的技术难题。技术内容
针对现有技术的以上缺陷或改进需求,本技术提出了一种基于深度强化学习的无人船艇编队路径跟踪方法,以实现基于深度强化学习的无人船艇编队路径跟踪。
为实现上述目的,按照本技术的一个方面,提供了一种基于深度强化学习的无人船艇编队路径跟踪方法,包括:
S1:构建决策神经网络模型;
S2:根据多艇同时探索,提取航行水域环境信息,并储存经验数据;
S3:从储存的经验数据中选取训练数据训练所述决策神经网络模型,并采用随机制动机制优化深度强化学习的
训练过程,获取无人船艇编队队形保持能力;
S4:基于协同探索的决策神经网络模型控制无人船艇沿预设路径运动,并通过不断更新无人船艇的位置,从而
使编队中所有无人船艇实现路径跟踪;
S5:按照路径跟踪控制无人船艇队形移动,使无人船艇保持跟踪队形,实现编队路径跟踪。
优选地,步骤S2包括:
通过所述决策神经网络模型输出动作,并将相关状态、动作、奖励保存到经验池中,然后从所述经验池中选择经验数据形成训练数据集,在采用所述训练数据集训练所述决策神经网络模型时,每个无人船艇从不同的初始状态开始探测,并将探测的运动状态存入所述经验池中。
优选地,奖励函数考虑了无人船艇速度的同时,最大化无人船艇驶向参考坐标点的航向速度,最小化无人船艇横向偏移速度,将无人船艇与参考点之间的距离视为奖励函数的设计因子。
优选地,由R=kvRv+kdRd设计奖励函数,其中,Rv表示无人船艇的速度, Rd表示无人船艇与参考点的距离,kv和kd是速度和距离的权重。优选地,步骤S3包括:
基于DDPG算法对所述决策神经网络模型进行训练,在训练过程中将 OU过程引入到DDPG中来探索环境,当所述决策神经网络模型做出决策和输出动作at=μ(st)时,由随机过程产生的动
作噪声
的平均值为0,at表示神经网络输出的动作,μ(st)表示
神经网络决策策略,st表示t时刻输入神经网络的状态输入,ano-brake表示神经网络输出的动作加入随机噪声后生成的动作。
优选地,所述决策神经网络模型通过学习共享决策实现无人船艇编队队形保持,将actor网络设计为近似策略,采用梯度下降法更新所述actor 网络中的参数。
优选地,由
化损失函数对所述目标评价网络进行更新
确定所述决策神经网络模型中的目标评价网络,并通过优
为:
过随机梯度下降法更新参数
其中,
是在线评价网络中的参数,
是目标评价网络中的参
通
数,s'是指在状态s处采取动作a后的下一个状态,a'是决策神经网络在s'处采取的行动,r是奖
励值,表示训练的网络的输出值与期望值之间的损失值,表示和
的集合,r(s,a)
表示奖励值,γ表示折扣因子,
表示目标评价网络的目标评价
值,动作向量。
表示在线评价网络的目标评价值, C(s,a)表示s和a的组合,s表示状态向量,a表示
优选地,步骤S4包括:
设无人船艇编队中心点为pc(xc,yc),其中,xc,yc分别表示无人船艇编队中心点的横坐标和纵坐标,ed表示pc与预设路径上的点pp(xp,yp)之间的交叉航迹误差,xp,yp表示pp(xp,yp)的横坐标和纵坐标,pv(xv,yv)表示虚拟引导者的预期位置,xv,yv表示虚拟引导者的横坐标和纵坐标,无人船艇编队路径跟踪要求无人船艇编队虚拟引导者沿参数化预设路径(xp(θ),yp(θ))移动, xp(θ),yp(θ)表示预设路径上的点,θ表示路径参数;
由差ed;
确定路径跟踪的交叉航迹误
无人船艇编队路径跟踪过程中,无人船艇编队中心点pc的位置会不断变化,pc在预设路径上的投影pp也会发生变化,根据ed在预设路径上选择虚拟引导者pv以保持与pp点的距离。
按照本技术的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。
总体而言,通过本技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果: