好文档 - 专业文书写作范文服务资料分享网站

基于协同最小二乘支持向量机的Q学习

天下 分享 时间: 加入收藏 我要投稿 点赞

基于协同最小二乘支持向量机的Q学习

王雪松;田西兰;程玉虎;易建强

【期刊名称】《自动化学报》 【年(卷),期】2009(035)002

【摘要】针对强化学习系统收敛速度慢的问题,提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习.该Q学习系统由一个最小二乘支持向量回归机(Least squares support vector regression machine,LS-SVRM)和一个最小二乘支持向量分类机(Least squares support vector classification machine,LS-SVCM)构成.LS-SVRM 用于逼近状态-动作对到值函数的映射,LS-SVCM则用于逼近连续状态空间到离散动作空间的映射,并为LS-SVRM提供实时、动态的知识或建议(建议动作值)以促进值函数的学习.小车爬山最短时间控制仿真结果表明,与基于单一LS-SVRM的Q学习系统相比,该方法加快了系统的学习收敛速度,具有较好的学习性能. 【总页数】6页(214-219)

【关键词】强化学习;Q学习;协同;最小二乘支持向量机;映射 【作者】王雪松;田西兰;程玉虎;易建强

【作者单位】中国矿业大学信息与电气工程学院,徐州,221116;中国科学院自动化研究所,北京,100190;中国矿业大学信息与电气工程学院,徐州,221116;中国矿业大学信息与电气工程学院,徐州,221116;中国科学院自动化研究所,北京,100190 【正文语种】中文 【中图分类】TP18

基于协同最小二乘支持向量机的Q学习

基于协同最小二乘支持向量机的Q学习王雪松;田西兰;程玉虎;易建强【期刊名称】《自动化学报》【年(卷),期】2009(035)002【摘要】针对强化学习系统收敛速度慢的问题,提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习.该Q学习系统由一个最小二乘支持向量回归机(Leastsquaressupport
推荐度:
点击下载文档文档为doc格式
8xc1j5phby06i7k4fff923x6i11g5t00rq7
领取福利

微信扫码领取福利

微信扫码分享