基于相关性分析的配电网多源数据质量提升方法

(整期优先)网络出版时间:2022-11-25
/ 2

基于相关性分析的配电网多源数据质量提升方法

刘俊

云南电网有限责任公司瑞丽供电局,云南瑞丽678600

摘要:智能配电网的信息和情报水平继续提高,配电网采集数据逐渐呈现多种多样的数据特征。整合大量的多来源数据可为配电网的运行状况识别和运行状况综合评估提供重要的数据支持。由于一些终端数量众多、分布广泛以及环境恶劣和复杂,配电网数据采集终端在采集和通信过程中经常出现数据丢失或异常现象。异常数据严重影响数据挖掘分析的有效性,对缺失或异常数据的统计分析可能导致结果与实际值之间的巨大差异,影响预测的准确性和业务控制决定的准确性。因此,对配电网收集的多来源数据进行异常检测和预处理,是配电网大规模数据分析的前提和基础。

关键词:相关性分析;配电网;多源数据;数据质量;

引言

配网工程是构建电网的重要部分,也是直接与广大用户相连接的末端服务管理部分。而随着电网审计管理精度的提升,传统模式已无法满足当前配网工程数据处理控制的需求,故需及时更新数据管理技术以提高工作效率。

1多源数据质量提升整体架构

多种多样和多种来源的数据情景使数据难以整合,并对信息系统的数据质量构成挑战。针对这些问题,本文提出了一个提高多源融合数据质量的结构,如图1所示。该纲要包括数据源、数据存储、数据质量管理和数据传播的级别。该框架通过分析不同数据来源的数据特征储存在数据库中;随后,全球数据质量由数据质量管理模块控制;最后,将组织和发布修正后的数据,以支持智能配电网的大型数据分析应用程序。

1663122326090

图1多源融合数据质量提升架构

2多源数据质量提升方法

2.1数据采集

调研国家电网有限公司应用较广的与配网相关的信息化管理系统,从配网生产管理系统、配电自动化系统、用电信息采集系统、配电网智能辅助决策系统、智能公用配变监测系统、RFID台账管理系统、地理信息系统、企业资源管理系统、95598客服系统、营销业务管理系统、工单管控系统中提取配网运行数据、台账数据及历史故障信息,

2.2数据聚合

在将数据分组聚集到其相应的优先级集群中之后,分组被发送到数据聚合子系统以进行进一步的管理。在数据聚合子系统中,根据分组的优先级将分组发送到队列中。由于提出的方案将数据包分为三种不同类型的时间敏感型簇(即高度时间敏感型、中度时间敏感型和延迟容忍型),因此数据包由数据聚合子系统处理,其处理时间根据紧急程度开始。因此,在传输到小区基站调度器之前对微网数据包进行聚合对于及时分析微网数据至关重要。当网络中的业务数据在时延和可靠性方面要求不同的QoS时,多类排队系统应运而生。例如,实时数据被视为对时间敏感的数据,并且携带对时间敏感的消息分组应被视为相对于QoS要求的最高优先级。另一方面,环境感官数据可以容忍长达几分钟的延迟。在传输层,TCP被用于确保可靠地传递聚集为时间敏感的消息。由于重传丢弃的数据包会降低吞吐量,同时增加低优先级数据包的延迟,因此通过UDP端口传输中等和低敏感数据包,以降低吞吐量和延迟。

2.3异常数据检测方法

不同的数据异常具有不同的特征和原因,例如,电信信号/SOE变化的特点是,电信信号数据或相应的SOE数据的位置发生多次或连续变化,位置变化时间比正常时间短;正常情况下,遥测数据短时间内变化不大,但在遥测跳跃异常的情况下,遥测数据可能会产生较大的波动。因此,本文通过提取其内部异常特征来用于以后识别异常。LOF算法是一种基于数据密度过滤异常的高精度算法,可以量化数据异常的程度,广泛用于数据清理和异常检测。传统的LOF算法需要计算数据集内所有数据点之间的距离,这会增加复杂性并使大型数据难以管理。使用K-means算法与LOF算法结合进行异常数据检测,首先使用K-means算法对具有相同数据特征的数据进行分组,然后使用LOF算法对每个类群集中的数据进行异常检测,最后对数据集中的异常数据进行过滤K-means算法可用于数据特征提取,从而降低LOF算法的复杂性,该算法检测类群集中的异常值,以提高K-means数据特征提取的精度和效果。在研究和分析了不同例外类型的特性之后,为不同的例外特性定义了不同的标识方法,您可以通过设置阈值、监控更改等来确定例外特性。

2.4数据预处理

1)数据清洗是针对采集数据中存在的空缺值、重复值进行处理,以保证数据集的完整性、一致性和合理性。对于数据样本中出现的空缺值,可予以剔除或采用平均值或中位数进行替换。根据数据间的逻辑关系,设置重复值识别规则,如馈线名称和停电时间都相同,则认为是重复样本,可予以剔除。其他规则可根据具体问题和决策者偏好设定。2)数据变换是将数据变换为更易于分析的形式,主要包括标准化处理、数据分级量化等。考虑到多维数据的可比性,可采用max-min、Z-score、小数定标法进行标准化处理。对于降雨量、雷暴、风量等数据,为了凸显数据差异,可对连续数值进行离散化分级处理。3)数据集成是按一定的维度,对多个来源的数据进行集成、汇总、关联,按月统计数据计算其累加值。集成的过程中,考虑到数据来源的多样性,有必要对数据进行交叉验证,如历史故障数据,可根据用户侧失电信息,剔除计划停电部分,即为故障导致的停电,将这部分停电信息与故障工单中记录的停电信息进行验证比对。

2.5数据重获

在进行城市配电网多级网格数据聚合计算之前,首先要通过电力公司数据库,获取保存在电力公司中的所有数据,以进行数据聚合,包括涉及到的用电资源、网格信息等。虽然数据库中存有大量各类型数据,但与所研究的网格数据相差较大,每个数据的概念与结构也应符合计算需求,因此要在经过处理后的数据库中筛选与文中相匹配的数据。首先,在大数据中找到与公共信息模型可交换的数据,互相融合,得到一个基于公共信息模型(CIM模型)的结构。然后,选择一个最优的链路,在此过程中不断完善数据结构,为配电网系统奠定一个夯实的基础。最后,对重获的数据进行分析,提供一个最佳的聚类方式,保证电网的稳定运行。

2.6在线检测

由于配网线路的延长,一部分传输电量会被数据采集器、信息展示器等电路结构消耗,从而导致电网能源利用效率的大幅下降。为避免上述情况的发生,注入型电子量检测手段在FDI攻击检测框架的支持下,调节总线环境中的各路传输节点,再借助池化层设备实现对电量数据节点的重排与规划。设计基于态势感知的智能配电网数据隐蔽攻击在线检测方法,通过规划智能配电网部署架构的方式,连接电网流量数据采集器与基础信息展示模块,再联合状态识别层结构体,实现对AC状态值与DC状态值的精准估计。

结束语

在配电网收集的数据数量和质量较低的情况下,通过聚类算法和相关分析相结合,对异常数据进行多维校正,从而提高数据质量。由于所有区域的计算机化程度和分销网络的运作方式不同,采购渠道和分销网络数据处理方法也不同,因此在具体分析时必须考虑到地理特征,尽可能充分地提取分销网络数据通过关联挖掘等手段识别配电网故障特征,进一步提高故障预警的准确性和有效性。

参考文献

[1]耿继朴,蒋锦霞,郑晓燕,赖晓瀚,王剑,徐亦白.基于大数据驱动的配电网故障风险预警方法[J].电力信息与通信技术,2022,20(07):41-49.

[2]蒙小胖,孙常浩,蔡雷鸣,施广德,金舒.基于相关性分析的配电网多源数据质量提升方法[J].计算机时代,2022(06):1-5.

[3]谭涛.基于数据驱动的配电网线损分析方法研究[D].广东工业大学,2022.

[4]原野,王海燕,庞丁黎,王栋昌.大数据在配电网规划中的应用研究[J].电子元器件与信息技术,2022,6(03):40-42.

[5]江芳.多源数据融合下的数据质量评估研究[D].云南大学,2020.