安徽交欣科技股份有限公司230041
【摘要】针对城市公交的客流受天气、节假日和重大活动等因素的多重影响,存在不确定性和随机性的特点。文中基于客流设备采集的客流数据,通过分析采用正态分布方式,用95%的置信区间来进行修正。在修正的数据基础上,利用均值预测、泊松分布预测、中位数预测和截尾平均预测分别进行预测与对比。结果表明四种预测方法在不同样本下的数据略有偏差,而且偏差存在一定的随机性。最后利用四种预测方法加权平均来进行修正。
【关键词】 客流预测 客流数据修正 加权预测
1 引言
公交的调度排班能不能有效的对客流进行输送,需要对未来客流有个预测。客流预测方法主要有传统预测模型、机器学习预测模型及混合预测模型等。这些预测方法中对采集的客流数据,都是基于票款或者客流采集设备,与真实客流存在一定的偏差,都没有进行纠偏处理。这些预测方法都是基于之前客流数据采集不完整或选择性抽样,没有具体标注影响客流数据的各种影响因素如路况、天气、车辆运行情况等[1]。
随着客流采集设备与公交信息化的发展,本文结合一个完善的市级公交的客流数据,通过分析用正态分布对这些客流数据就行纠偏。并在纠偏的客流数据基础上,利用均值预测、泊松分布预测、中位数预测和截尾平均预测分别进行预测与对比。最后基于四种概率预测模型,进行加权计算,得出最终的预测结果[2]。
2 客流数据修正
通过对所有线路上下客门安装客流,进行了客流数据采集。采集客流数据同时记录了影响这些客流数据的因素状态,如天气包含晴天、阴天、多云、下雨和下雪状态等,工作日还是节假日,客流采集时实时路况情况等。分析修正这些客流数据时,我们也采用时间区间而不是时间点的方式。以10分钟为时间间隔长度,合并每个车站的客流数据[3]。
客流设备采集的准确率在92%左右,实际人数和客流设备计数人数之间还存在一定的误差,我们通过数据可视化探寻误差的分布规律:
(1)误差分布和实际人数有关,实际人数越多,误差越大。
图1. 误差分布与实际上车人数的关系
但另一方面,我们的数据大多集中在上车人数较少的情况下,上车人数较多的情况比较少。如上述三图,颜色越深,则该点出现频率越高。
经过分析,误差数服从正态分布[4],对于固定的前后门上车人数,将对应的所有样本的误差设定为服从正态分布,均值用样本均值估计记为m,方差用样本方差估计记为d。若上车人数的设备测量值为n,则对应误差的95%的置信区间为(m-1.96*sqrt(d),m+1.96*sqrt(d)),进而上车人数真实值处于区间(n-(m-1.96*sqrt(d)),n+(m+1.96*sqrt(d)))。
3 统计模型介绍
均值预测:
上述直方图中,虽然不同日期之间,在各个时间段的上客人数存在差异,但波动不是特别剧烈。因此用历史数据的均值去预测未来数据,具有一定的科学性。这里,采取直接平均的方法,同时,基于保守估计,对结果进行向上取整:
(1)
其中,为第个车站在第天第个时段设备测得的上客人数,为总的天数。
后续,基于测试集的预测效果及预测成本,可以尝试加权平均法,增大相近日期的权重。
泊松分布预测:
一般,可以认为车站的到达人数,即候车人数,服从泊松分布:
首先,需要估计参数。基于样本数据,利用极大似然估计方法,推导出。因此,将样本均值作为参数的估计值。其次,为了减少预测成本,需要将自变量(到达人数)限定在一个合理范围内:
其中, 表示自变量在第个车站的泊松分布上界,表示第个车站在第天第个时段设备测得的上客人数。那么,对于任一个车站,在时间段的上客人数的泊松分布[7]预测结果为:
(2)
中位数预测:
现实生活中,一些突发情况会导致客流的激增或突减,利用中位数预测可以有效避免这些极端值的影响:
(3)
同样地,对结果进行向上取整。
截尾平均预测:
与中位数预测的目的相似,利用截尾法处理极端效应:
(4)
其中,代表截尾力度。以下截尾平均预测法中,。
加权预测:
对以上的四种预测结果,采取加权计算,初始加权值采取同一权值25%来计算。
加权预测=均值预测*25%+泊松分布预测*25%+中位数预测*25%+截尾平均预测*25%
4、预测结果与比较
以某公交公司,同一天气都为工作日的数据,随机分成5组,依次选择其中一组作为测试集,其他四组作为训练集。基于训练集数据,分别用4种预测方法预测客流人数。四种客流预测结果,最后采用加权对四种预测进行最后的预测。加权四种预测方法基于训练集得到的客流估计值。
序号 | 均值预测 | 泊松分布预测 | 中位数预测 | 截尾平均预测 | 加权预测 |
1 | 5005 | 5134 | 5197 | 5146 | 5120 |
2 | 4986 | 5060 | 4879 | 4966 | 4973 |
3 | 5056 | 5184 | 5116 | 5127 | 5121 |
4 | 5186 | 5321 | 5215 | 5201 | 5131 |
5 | 5021 | 5143 | 5142 | 5158 | 5116 |
图4 预测方法的5折交叉验证
4 总结
在完善的的客流数据基础上,再通过正态分布对这些客流数据进行纠偏。通过聚类对客流进行划分分组,利用传统的均值预测、泊松分布预测、中位数预测和截尾平均预测分别进行预测,预测结果已经控制在5%的范围内,说明可靠的客流数据利用传统的概率模型就能得到一个可行的结果。最后基于四种概率预测模型,进行加权计算,进一步完善了最终的预测结果。
参考文献:
[1]郭士永,李文权,白 薇,等.基于最小二乘向量机的公交站点短时客流预测.武汉理工大学学报(交通科学与工程版) ,2013 ,37(3),603-607
[2]王祥雪,许伦辉.基于深度学习的短时交通流预测研究[J].交通运输系统工程与信息,2018,18(1):82-87.
[3]杨信丰,刘兰芬.基于 AP 聚类的支持向量机公交站点短时客流预测.武汉理工大学学报( 交通科学与工程版) ,2016 ,40(1),36-40
[4]陈希孺.概率论与数理统计.合肥: 中国科学技术大学出版社,2009
作者简介: 彭业华 1986-12 男 亳州 汉 本科 安徽交欣科技股份有限公司 研究方向:计算机软件架构
张婷婷 1988-10 女 安徽省铜陵市 汉 本科 安徽交欣科技股份有限公司 研究方向:智能公交调度排班