浙江经贸职业技术学院,浙江 杭州 310018
摘要:新冠疫情的爆发是人类历史的一场灾难,管控疫情的扩散需要大量的人力物力的投入,而基于大数据的健康码管理,为快速锁定确诊病人的密切接触者提供了便利。本文基于Python语言的数据处理、分析和可视化库,并使用nvector库计算地理位置间距离,对一批健康码亮码数据进行处理,并分析了如何在时间和距离两个维度设定密切接触者的评判标准。
关键词:新冠疫情 Python nvector 密切接触者
1. 前言
从2019年底开始的新冠疫情是人类历史的一场灾难,中国国内在疫情爆发初期以巨大的决心,全国人民付出了巨大的心血,用几个月控制住了国内的疫情。然而,因为各国国情、防控力度等不同原因,一波波疫情在国外各地陆续爆发,造成了此次全球疫情无法及时扑灭。由于国外疫情的不断爆发,国内边境口岸、进口的冷链产品、国际机场归国人员等多种途径在重点防控的情况下,还是陆续发生了多次零星的国外输入疫情,但各地政府坚持以“外防输入、内防扩散”为原则,通过高效处置散发病例和聚集性疫情,国外输入疫情都能被及时有效的扑灭,“动态清零”的防控策略成为中国控制疫情的“法宝”。
在防疫过程中,基于大数据的智慧化管理手段助力防疫工作,健康码最开始从杭州余杭启航,很快引来了全国关注、学习,成为国内最重要的防疫监控工具。健康码在政府的支持下,基于大数据技术和定位信息,能够在发现一名新冠确诊病人时,基于健康码数据快速锁定密接和次密接人员,大量节省了时间和人力。
2. 问题的提出
现有一批某地的健康码亮码数据,字段包括用户编号、亮码时间、亮码的维度和经度,共计221万多条记录。同时,给出一位新冠确诊病人的近14天内的亮码数据,包括亮码时间、亮码的维度和经度,共计49条记录。我们该以什么标准来确定该病人的密切接触者呢?
3. 模型的解释
密切接触者是指与确诊病人在确诊前的某段时间内有近距离接触但未采取有效防护的人员。比如针对变种的德尔塔毒株,密切接触者是指:在同一个空间、同一个单位、同一座建筑、同一栋楼,发病前4天,跟这些病人相处的人。这些共同环境包括共同居住、密闭环境共同就餐或娱乐者、在同一场所有近距离接触的人员、乘坐同一交通工具并有近距离接触(1米内)、暴露于被病例或无症状感染者污染的环境和物品等。
但亮码数据只记录了离散的亮码时刻和经纬度坐标,坐标对应的地点往往是在一些需要出示健康码的入口位置,亮码数据能够呈现在同一个场所是否有近距离接触。
显然,普通人和确诊病人在时间和距离上越近的感染的风险越大,越远的感染风险越小,我们需要综合考虑感染风险和防疫成本,需要设定病人亮码和普通人亮码的时间差在T分钟内且距离在D米内的普通人为密切接触者。
对于被判定为密接的普通人,从时间角度看,若病人的亮码时间为 ,普通人的亮码时间为 ,需要满足 。
同时,从距离角度看,若病人的亮码的位置为 ,普通人的亮码位置为 ,两个都有经纬度值,需要满足 ,其中 要依据两个点的经纬度值在地球球面上计算距离。
4. 模型的计算
本文基于Python语言的numpy、pandas库进行数据处理,选用了nvector库解决地理位置间距离的计算,并用matplotlib绘制了图像进行分析。
将T和D分别设定为1到10的整数,按照之前模型设计的两个满足条件去计算,得到以下密接人次的数据:共计得到100个数据。
如图1所示,是对这100个的数据按照同一个距离D的不同时间T绘制一条折线图,共绘制了10条折线图,从下到上的距离依次是1米到10米。从图中可以看到,随着时间的变化,人次的数据波动比较大,如果要选择一个合适的T值,可以在变化比较大的位置,比如1分钟和2分钟附近。但即使是1分钟,计算到的密接的判定人数也比较多。
图1
如果我们对这100个数据按照同一个时间T的不同距离D绘制一条折线图,共绘制10天折线图,从下到上的距离依次是1分钟到10分钟,那么,随着距离的增大,人次的数据波动非常平稳,几乎是一条直线,差别没有明显的地方,但从图1也能明显注意到即使1分钟内的人数也还是很多的。
由于距离和时间是不同的单位,以分钟为单位的数据T和以米为单位的数据D在取一个整数值时,对于接近的概念来说,1米距离是非常接近的感觉,而1分钟时间差距上还是有点远。
下面以保持1米距离内的情况下,对1分钟内以每6秒为一个间隔控制时间,计算得到如表2所示的密接人次的数据。
表2 距离1米内不同时间范围内的密接人次
6秒 | 12秒 | 18秒 | 24秒 | 30秒 | 36秒 | 42秒 | 48秒 | 54秒 | 60秒 |
175 | 276 | 372 | 473 | 560 | 649 | 747 | 854 | 962 | 1044 |
如果绘制图像,近乎是一条直线,用线性拟合处理后,得到线性方程:
期中自变量t表示时间,s表示人次。
5. 总结
首先,从模型计算的结果看,对健康码亮码数据的密接人员的评判标准,按照距离1米范围内,时间上控制在30秒或者更少的时间内,这样评定的密接人次规模合适。
其次,以亮码数据作为密接评判的一种方案,又有不足之处,因为在需要进入特定场地时才需要打开健康码,中途的数据缺失,需要其它方式补全。同时,亮码的位置往往是重要场地的入口,戴口罩的防护要求是必备的,所以亮码点附近的近距离扩散风险反倒较小,反而进入后的场地若是较为封闭,更容易形成扩散。
最后,本次常用Python进行数据处理,因为数据规模很大,运行耗费的时间较长,还需要有很大的模型改进,才能提高处理效率。
、
参考文献:
[1] pandas官网:https://pandas.pydata.org/。
[2] nvector官网:https://pypi.org/project/nvector/。
[3] 麦金尼著,唐学韬等译。利用Python进行数据分析(第二版)。机械工业出版社。2018.07。