基于多智能体增强学习的公交驻站控制方法

由天下分享时间：2024/9/17 5:49:51 加入收藏我要投稿点赞

基于多智能体增强学习的公交驻站控制方法

陈春晓1，陈治亚1，2，陈维亚1

【摘要】车辆驻站是减少串车现象和改善公交服务可靠性的常用且有效控制策略，其执行过程需要在随机交互的系统环境中进行动态决策。考虑实时公交运营信息的可获得性，研究智能体完全合作环境下公交车辆驻站增强学习控制问题，建立基于多智能体系统的单线公交控制概念模型，描述学习框架下包括智能体状态、动作集、收益函数、协调机制等主要元素，采用hysteretic Q-learning 算法求解问题。仿真实验结果表明该方法能有效防止串车现象并保持单线公交服务系统车头时距的均衡性。【期刊名称】计算机工程与应用【年(卷),期】2015(000)017 【总页数】7

【关键词】驻站；多智能体增强学习；多智能体系统；控制策略

1 引言

服务的可靠性是衡量公交系统运营绩效的重要指标，同时也是城镇居民出行最为关注的焦点问题。公交行车计划的编制无论多么合理科学，缺乏控制的公交系统会随着运行时间的推进出现诸多不可靠的现象。主要原因是现实的公交车辆运营环境是一个开放、复杂的动态系统，随时间变化而变化，存在许多随机和不确定的因素。因此，有效实时控制是减少不确定性因素扰动和改善公交服务系统可靠性主要方法。公交调度控制中心主要采用的实时控制策略包括控制车辆发车，甩站运营，增加备用车辆，空驶运营等。本文主要研究驻站控制策略，主要原因有：一方面该策略是公交系统研究热点问题；另一方面是该策略

易于操作，控制效果较好。驻站控制可划分为两种类型，一种是基于行车运营时刻表，通常针对发车间隔时间较长的公交服务线路；另一种是基于车头时距控制，主要应用于高频公交服务线路。考虑到国内城市公交系统大都属于高频路线服务，因此关注后一类型研究。早期国外研究主要基于静态模型提出一系列驻站控制模型和算法，具有代表性的有Osuna 和Newell[1]，Barnett[2]，Abkowitz[3]。随着AVL，GPS，GIS 和APC 等智能公交技术出现和应用，考虑动态信息研究实时驻站控制模型成为研究热点，Eberlein等[4]，Sun 等[5]，Felip Delgado[6]，Chen，Adida 等[7]研究起始站点，多站点和站点上车乘客限制等情况的驻站控制方法。Mu?oz，Cortés等[8]对比研究混合系统预测控制和确定方法两种驻站控制模型。国内学者黄溅华较早关注公交驻站控制问题[9-10]。滕靖[11-15]系统研究基于先进公共交通系统环境的多种情况下的实时控制模型，其中包括固定线路，快速公交运行线路，面向换成枢纽，城轨与公交协同方面；需要指出的是该阶段上述研究实时动态调度控制模型主要为集中控制式，终端技术设备采集的信息均需经通信网络传递给公交控制中心，然后中央处理器根据采集的实时信息计算最优调度控制方案，然后发送调度命令指挥终端设备或者操作人员执行，该种调度模式最大的特点是对智能公交网络通信能力和计算能力提出较高要求，当出现通信受限或计算速度较慢等情况，这些实时集中控制处理方法容易受到影响，其开放性和鲁棒性较低。近阶段国内外学者开始重点关注运用自适应控制，并行求解的分布式控制和多智能体技术等智能控制方法研究公交调度问题。较为典型的文献有：Zhao[16]为实现控制发车策略，将每个公交站点视为一个智能体，且智能体之间可以协调，在边际成本计算的基础上，设计出目标为最小乘客等待成本的分布式驻站控制模型。

Avishai Ceder 在书中展望多智能体公交交通系统（MATS）。Belmonte，M.V[17]研究并运用JADE 开发基于多智能体的公交车队管理决策支持系统。Daganzo[18]系统解析基于前向车头时距公交驻站自适应控制模型和方法。Xuan，Argote 等[19]建立基于后向和双向车头时距动态车辆驻站控制模型，并提出最优线性控制分析，进一步完善了Daganzo 提出的公交驻站自适应控制理论。王向华[20-21]从软件工程角度建立基于多Agent技术的智能公交调度系统概念模型。值得关注的是Daganzo 团队开发“Tempo”驻站控制软件系统并在西班牙圣塞巴斯蒂安（San Sebastian）城市公交和伯克利分校的校园穿梭系统中应用。

多智能体增强学习在智能交通领域的广泛应用，为研究复杂公共交通系统中动态问题提供了新的手段[22-25]。基于此，针对现有模型的不足，引入多智能体增强学习控制方法研究常规公交运营驻站问题以实现自适应最优控制。该模型以保持车辆间的车头时距均衡性降低全线乘客平均等待时间为目标，将每一辆公交车视为独立学习体，设计其学习框架中的状态，动作，收益函数与智能体协调机制。通过实施各种驻站动作与环境交互进行在线学习，快速适应环境并实现Q-value 表的收敛，车辆智能体根据增强学习算法可实现分布式驻站自主控制，从而有效防止串车现象并提高公交线路的整体服务可靠性。

2 基于MAS的单线公交运营控制系统概念模型

本文研究的对象是M 辆车辆为K 个站点组成固定行驶路线提供单程循环高频公交服务系统。经过对城市公交运营控制流程进行调研，围绕车辆主体设计了基于MAS（Multi-Agent System）单线公交运营控制系统模型，如图1 所示。该系统主要包括下六种智能体：