基于协同最小二乘支持向量机的Q学习
王雪松;田西兰;程玉虎;易建强
【期刊名称】《自动化学报》 【年(卷),期】2009(035)002
【摘要】针对强化学习系统收敛速度慢的问题,提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习.该Q学习系统由一个最小二乘支持向量回归机(Least squares support vector regression machine,LS-SVRM)和一个最小二乘支持向量分类机(Least squares support vector classification machine,LS-SVCM)构成.LS-SVRM 用于逼近状态-动作对到值函数的映射,LS-SVCM则用于逼近连续状态空间到离散动作空间的映射,并为LS-SVRM提供实时、动态的知识或建议(建议动作值)以促进值函数的学习.小车爬山最短时间控制仿真结果表明,与基于单一LS-SVRM的Q学习系统相比,该方法加快了系统的学习收敛速度,具有较好的学习性能. 【总页数】6页(214-219)
【关键词】强化学习;Q学习;协同;最小二乘支持向量机;映射 【作者】王雪松;田西兰;程玉虎;易建强
【作者单位】中国矿业大学信息与电气工程学院,徐州,221116;中国科学院自动化研究所,北京,100190;中国矿业大学信息与电气工程学院,徐州,221116;中国矿业大学信息与电气工程学院,徐州,221116;中国科学院自动化研究所,北京,100190 【正文语种】中文 【中图分类】TP18
基于协同最小二乘支持向量机的Q学习
基于协同最小二乘支持向量机的Q学习王雪松;田西兰;程玉虎;易建强【期刊名称】《自动化学报》【年(卷),期】2009(035)002【摘要】针对强化学习系统收敛速度慢的问题,提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习.该Q学习系统由一个最小二乘支持向量回归机(Leastsquaressupport
推荐度:
点击下载文档文档为doc格式