基于客流的数据修正与多概率模型预测

(整期优先)网络出版时间:2022-12-19
/ 2

基于客流的数据修正与多概率模型预测

彭业华,张婷婷

安徽交欣科技股份有限公司230041

【摘要】针对城市公交的客流受天气、节假日和重大活动等因素的多重影响,存在不确定性和随机性的特点。文中基于客流设备采集的客流数据,通过分析采用正态分布方式,用95%的置信区间来进行修正。在修正的数据基础上,利用均值预测、泊松分布预测、中位数预测和截尾平均预测分别进行预测与对比。结果表明四种预测方法在不同样本下的数据略有偏差,而且偏差存在一定的随机性。最后利用四种预测方法加权平均来进行修正。

【关键词】 客流预测 客流数据修正 加权预测

1 引言

公交的调度排班能不能有效的对客流进行输送,需要对未来客流有个预测。客流预测方法主要有传统预测模型、机器学习预测模型及混合预测模型等。这些预测方法中对采集的客流数据,都是基于票款或者客流采集设备,与真实客流存在一定的偏差,都没有进行纠偏处理。这些预测方法都是基于之前客流数据采集不完整或选择性抽样,没有具体标注影响客流数据的各种影响因素如路况、天气、车辆运行情况等[1]

随着客流采集设备与公交信息化的发展,本文结合一个完善的市级公交的客流数据,通过分析用正态分布对这些客流数据就行纠偏。并在纠偏的客流数据基础上,利用均值预测、泊松分布预测、中位数预测和截尾平均预测分别进行预测与对比。最后基于四种概率预测模型,进行加权计算,得出最终的预测结果[2]

2 客流数据修正

通过对所有线路上下客门安装客流,进行了客流数据采集。采集客流数据同时记录了影响这些客流数据的因素状态,如天气包含晴天、阴天、多云、下雨和下雪状态等,工作日还是节假日,客流采集时实时路况情况等。分析修正这些客流数据时,我们也采用时间区间而不是时间点的方式。以10分钟为时间间隔长度,合并每个车站的客流数据[3]

客流设备采集的准确率在92%左右,实际人数和客流设备计数人数之间还存在一定的误差,我们通过数据可视化探寻误差的分布规律:

(1)误差分布和实际人数有关,实际人数越多,误差越大。

C:\Users\ADMINI~1\AppData\Local\Temp\WeChat Files\f4919a4dd424527ba5b90bee5aa7e03.png

1. 误差分布与实际上车人数的关系

但另一方面,我们的数据大多集中在上车人数较少的情况下,上车人数较多的情况比较少。如上述三图,颜色越深,则该点出现频率越高。

经过分析,误差数服从正态分布[4],对于固定的前后门上车人数,将对应的所有样本的误差设定为服从正态分布,均值用样本均值估计记为m,方差用样本方差估计记为d。若上车人数的设备测量值为n,则对应误差的95%的置信区间为(m-1.96*sqrt(d),m+1.96*sqrt(d)),进而上车人数真实值处于区间(n-(m-1.96*sqrt(d)),n+(m+1.96*sqrt(d)))。

3 统计模型介绍

均值预测:

上述直方图中,虽然不同日期之间,在各个时间段的上客人数存在差异,但波动不是特别剧烈。因此用历史数据的均值去预测未来数据,具有一定的科学性。这里,采取直接平均的方法,同时,基于保守估计,对结果进行向上取整:

                                                       (1)

其中,为第个车站在第天第个时段设备测得的上客人数,为总的天数。

后续,基于测试集的预测效果及预测成本,可以尝试加权平均法,增大相近日期的权重。

泊松分布预测:

一般,可以认为车站的到达人数,即候车人数,服从泊松分布:

首先,需要估计参数。基于样本数据,利用极大似然估计方法,推导出。因此,将样本均值作为参数的估计值。其次,为了减少预测成本,需要将自变量(到达人数)限定在一个合理范围内:

其中, 表示自变量在第个车站的泊松分布上界,表示第个车站在第天第个时段设备测得的上客人数。那么,对于任一个车站,在时间段的上客人数的泊松分布[7]预测结果为:

                                    (2)

中位数预测:

现实生活中,一些突发情况会导致客流的激增或突减,利用中位数预测可以有效避免这些极端值的影响:

                                                     (3)

同样地,对结果进行向上取整。

截尾平均预测:

与中位数预测的目的相似,利用截尾法处理极端效应:

                                            (4)

其中,代表截尾力度。以下截尾平均预测法中,

加权预测:

  对以上的四种预测结果,采取加权计算,初始加权值采取同一权值25%来计算。

    加权预测=均值预测*25%+泊松分布预测*25%+中位数预测*25%+截尾平均预测*25%

4、预测结果与比较

以某公交公司,同一天气都为工作日的数据,随机分成5组,依次选择其中一组作为测试集,其他四组作为训练集。基于训练集数据,分别用4种预测方法预测客流人数。四种客流预测结果,最后采用加权对四种预测进行最后的预测。加权四种预测方法基于训练集得到的客流估计值。

序号

均值预测

泊松分布预测

中位数预测

截尾平均预测

加权预测

1

5005

5134

5197

5146

5120

2

4986

5060

4879

4966

4973

3

5056

5184

5116

5127

5121

4

5186

5321

5215

5201

5131

5

5021

5143

5142

5158

5116

             图4 预测方法的5折交叉验证

4 总结

在完善的的客流数据基础上,再通过正态分布对这些客流数据进行纠偏。通过聚类对客流进行划分分组,利用传统的均值预测、泊松分布预测、中位数预测和截尾平均预测分别进行预测,预测结果已经控制在5%的范围内,说明可靠的客流数据利用传统的概率模型就能得到一个可行的结果。最后基于四种概率预测模型,进行加权计算,进一步完善了最终的预测结果。

参考文献:

[1]郭士永,李文权,白 薇,等.基于最小二乘向量机的公交站点短时客流预测.武汉理工大学学报(交通科学与工程版) ,2013 ,37(3),603-607

[2]王祥雪,许伦辉.基于深度学习的短时交通流预测研究[J].交通运输系统工程与信息,2018,18(1):82-87.

[3]杨信丰,刘兰芬.基于 AP 聚类的支持向量机公交站点短时客流预测.武汉理工大学学报( 交通科学与工程版) ,2016 ,40(1),36-40

[4]陈希孺.概率论与数理统计.合肥: 中国科学技术大学出版社,2009

作者简介: 彭业华 1986-12 男 亳州 汉 本科 安徽交欣科技股份有限公司 研究方向:计算机软件架构

张婷婷 1988-10 女 安徽省铜陵市 汉 本科 安徽交欣科技股份有限公司 研究方向:智能公交调度排班