基于机器学习的公交站间运行时间幂律分布分析①
徐文进1,寻晴晴1,周 笛2
【摘 要】为了解决城市交通拥挤问题,国家提倡乘坐公共交通出行,使用公交智能卡的出行变的普遍了.目前,对于城际公交智能卡出行产生的数据,很少有研究公交站间运行的时间.因此,提出了基于机器学习技术公交站间运行时间幂律分布的分析;运用分站算法对城市公交进行分站,获得公交车在相邻两站的运行时间;并且对时间间隔数据进行了线性拟合.运用南方某城市和北方某城市的两个数据集,结果表明公交车运行时间间隔符合幂指数分布;公交车运行的时间间隔符合人类行为动力学.
【期刊名称】《计算机系统应用》 【年(卷),期】2024(028)012 【总页数】7
【关键词】机器学习;公交智能卡;分站算法;人类行为动力学;幂指数分布 引用格式:徐文进,寻晴晴,周笛.基于机器学习的公交站间运行时间幂律分布分析.计算机系统应用,2024,28(12):177-183.http://www.c-sa.org.cn/1003-3254/7147.html
① 基金项目:2024年度山东省重点研发计划(2024GGX105005)
收稿时间:2024-03-28;修改时间:2024-04-18,2024-05-06;采用时间:2024-05-16;csa 在线出版时间:2024-12-10
Foundation item:Year 2024,Key Research and Development Program of Shandong Province(2024GGX105005)
城际公交是指在城市群或大城市与周边中小城镇间设立的长途公交系统,它作为
行人出行的交通工具,即方便又价廉;城际公交具有自身的特点,与一般的长途和城际快客有所不同,是在通勤距离在十几到几十公里的公交体系,在重要的城区之间开行的多班次,具有固定公交站点和较明确营运计划表的通勤系统,是趋向公交化的短途旅客营运车辆,是市内公交车的延伸和拓展,对乘客来讲更加便捷,票价相比城际长途客运和轨道交通也更低廉,在我国有较大的发展空间.
但是国内对城际公交的研究不多,已有的研究主要集中在城际公交建立的政策和规划领域,如文献[1-6],较少涉及到城域公交的数据挖掘.近年来蓬勃发展的人工智能机器学习技术是利用机器学习[7,8]算法对已知数据进行分析、计算得到合乎实际的规律、模型,并进行合理的预测.实践证明,利用人工智能机器学习算法进行数据挖掘是分析城际公交运行规律的有效方法.
本文基于南方某城市和北方某城市公交线路的公交卡的交易记录,通过对数据的合理分析,结合机器学习分类算法,合理设定分站标准,找出公交站点[9];使用Python编程,通过智能公交卡记录,对乘车的人群行为进行挖掘和预测,分析得出乘坐公交车的习惯和偏好;同时在研究中证明城域公交车运行时站间时间间隔遵循人类行为动力学理论[10-13],满足幂律分布.
1 公交智能卡数据集和数据预处理
1.1 公交智能卡数据集
城际公交作为城市群间重要的交通联系方式,蕴含着大量的数据.通过研究城际公交数据可提供大量、丰富的数据,可以挖掘出助力城际公交发展的信息.本文主要通过提取公交IC卡的数据来进行研究的;公交IC卡现在一般采用射频识别技术进行数据通信,使用集成电路芯片存储用户数据,数据的可靠性和真实性有保障.因此围绕着北方某城市和南方某城市城际公交的数据,对公交IC卡的数据进行
分析和应用,发现公交客流量出行的一个规律.如表1和表2描述了原始数据的类型.
1.2 智能数据卡的预处理
智能卡打卡数据首先要进行数据的预处理,如对打卡数据的时间戳进行转换、合并重复数据,数据的预处理由以下步骤组成:
(1)不完整数据清洗;在智能卡打卡数据中,一组完整的数据至少应该包括卡类型、卡号、智能终端号和打卡时间;缺失一个,就会对后面的算法实验造成影响,因此对打卡数据中缺失数据项的进行清洗.
(2)剔除不合理的数据,在数据处理时发现有的打卡数据是在凌晨,此时公交车并不运行,所以应该剔除这些不合理的数据.
(3)重复数据合并,在数据预处理中发现,在短时间内(1分钟)有的卡打卡次数超过2次,这是由于不小心重复打卡或是在数据传输中的错误造成的,重复的打卡数据其实对应的同一次乘车行为,所以这些重复的打卡数据要合并成为一项. 1.3 智能数据卡的特征 1.3.1 卡类型分布特征
数据预处理后,对打卡数据的分布进行分析.首先根据原始数据刷卡的情况,卡类型进行分类,得到的残疾卡,老人卡,普通卡,学生卡,员工卡,治安监督卡所占的频数和比例,如表3和表4所示.
通过表3和表4发现老年卡、学生卡、普通卡的出行所占比例挺高的,但残疾卡的比例相对较少,这可能与城际公交车设置无障碍设备有关. 1.3.2 客流量分布特征
把城际公交线路全日客流情况的刷卡的数据累加起来,从中可得到该全日累计客