大数据技术在潜在电费风险挖掘中的应用

(整期优先)网络出版时间:2018-05-15
/ 2

大数据技术在潜在电费风险挖掘中的应用

王芳

(内蒙古电力(集团)有限责任公司包头供电局内蒙古包头014030)

摘要:随着近几年科技高速发展,信息技术得到了广泛的应用,大数据技术也从一开始的崭露头角,直到现在各行各业的大范围使用。电费回收一直以来都是电网公司最为关注的焦点,电费回收的效率关系到电网公司的最终盈利,所以尽快解决电费拖欠的风险是所有电力公司都迫切想要解决的一大难题。本文先进行数据收集,再分析大数据技术在电费回收的一些具体技术,希望能够改善我国电网公司的电费回收困难的现状。

关键词:大数据技术;电费风险;技术应用;数据挖掘

依据我国的十三五规划目标,国家电网公司开始积极使用“大云物移”技术,施行电网公司的运营和管理模式的变革以及创新,推进电网发展创新高速运转。大数据技术近几年的高速发展给我国的电费催收问题带了解决希望,大数据技术在广告投放、制定销售策略、分析用户行为等方面都已经进入了大范围使用阶段。我国的电费催收管理工作繁杂,需要经过的催收步骤太多,造成大量的物力和人力的浪费,而且办事效率太低,而通过大数据技术能够有效解决这些以前困扰着电网公司的难题。

1.收集电费风险数据

电费是电力企业最直接的收入来源,是电力公司进行管理经营的最终收益。解决电费风险问题,改善坏账的发生率,提高电费回收比,减少电费风险是任何一家电力公司都无比关注的工作重点。电费回收是电费风险的主要源头,它的主要组成部分如下:欠费电费、预收电费、实收电费、发行电费。在实际工作状况中实收电费通常由欠费缴费、预收结转这几种情况组成,而且流转环节较为复杂。根据电费风险常见的发生环节,将电费风险的数据采集分为以下几种情况。

1.1电力客户信息

客户通常分为高压用户、低压居民用户、低压非居民用户和考核用户这四大类别。由于低压居民用户的电力账户通常都是采取预交电费的方式进行用电,所以在进行电费风险数据采集时,并不对风险较低的低压电居民用户进行调查,只针对其他三种类别的客户信息进行收集分析。

1.2用电单位企业

可以通过将不同的用电企业的电费回收数据进行比对,从中得出相对的电费回收风险较大的一方,从而对其进行电费风险防范,及时制定改进方法,避免发生电费回收困难的状况。

1.3电压等级

此外还可以将用电客户按照电压等级分类,通过横向对比,判断这些用户电费在回收方面的是否存在异常,再通过纵向对比判断不同等级的电压用户在电费回收方面是否存在差异,若是存在差异,即可针对不同的电压等级用户设计不同的电费回收系统。

1.4电力费用信息

以电力费用为对象进行收集信息,通常是从预收电费、每月产生的使用电费、欠缴电费这三大方面展开,因为电费风险的最直观的呈现方式就是电费回收数据,而电费回收的渠道大致可分为欠缴电费、预缴电费和当月电费这几大类别。

2.大数据技术在电费风险中的具体应用

要想进行电费风险挖掘往往需要对大量的数据进行预测,这些数据往往种类较多,譬如就包含了一些非结构化和半结构化的网络数据、外部数据,以及一些结构化的电费用户信息。面多这些结构复杂的数据,在电费风险挖掘中通常都是使用Hadoop架构对对其进行处理。Hadoop由Apache基金会所研发,是一个分布式的系统基础架构,Hadoop的技术架构主要包括数据分析、数据采集、数据管理、数据存储、数据计算这五大模型,通过Hadoop的使用能够实现HDFS这个分布式的文件系统。而HDFS具有高度容错性,而且使用的硬件成本也很低,它能够通过其特性来对应用程序进行数据访问,非常适合电费风险挖掘这种需要处理大量数据的应用。

2.1数据采集

电费回收系统通常使用Sqoop和Kafka这两种技术来对用户、电费和其他一些需要收集的信息进行整合和采集,为后面的电费风险挖掘数据分析提供数据来源。Kafka是一种能对数据进行高吞吐的分布式消息订阅系统。使用Kafka系统能够通过并行加载的机制来处理线上线下的消息,并且能够使用集群机来提供当下的消费数据。所以,电力公司通常使用Kafka技术来对欠缴电费和应收电费的数据来进行采集分析。Sqoop能够将关系数据库和Hadoop中的数据进行互相转移,它的作用十分接近其他DETL工具,Sqoop利用元数据模型来对数据类型进行判断,并且能够在数据进行转移的途中确保数据安全。Sqoop的设计初衷就是为了批量进行大数据传输,通过对数据集进行分割并且创建Hadoop任务对每个区块进行处理。所以,电力公司通常使用Sqoop技术来对预收电费和用户信息数据来进行采集分析。

2.2数据存储

电费风险挖掘分析主要是通过对用户的外部环境、企业信用、企业经营范围、用户征信来进行分析,对响应程度的要求不高,所以数据存储技术通常会选用分布式的存储手段。电费回收系统的数据存储往往通过对Postgresql和Hive这两种数据仓库的联合来进行实现,Postgresql和Hive数据库各有所长,能够凭借各自优势为电费风险挖掘分析提供数据支持。Hive数据库通常用来存储采集到的第一手数据,将这些被收集的源端数据放置在HDFS系统中。Postgresql数据集通常用来存储从Hive数据库中抽调的数据,并且存储方式要严格按照国网模型的标准域来进行,通常用来给电费风险挖掘分析提供数据。

2.3数据计算及分析

数据计算及分析的手段采用Spark技术,它能够满足电费风险预测分析的需求。Spark是一个通用的并行架构,Spark能很好地适用于MapReduce算法,适用于需要进行大量操作次数的数据集的情况。MapReduce方法能够支持将一个亟待处理的大数据划分为多个小的数据块,每一数据块都会有一个相对应的计算任务,并且MapReduce方法能够自动调用计算节点来对这些数据块进行处理,并且能够同时对这些节点的执行状况进行监控,能对Map节点起到控制的作用。

2.4大数据预处理

对大数据进行预处理的具体步骤为,数据清洗、集成、转换、规范等一般情况下刚收集来的原始数据都要进行规范化和筛选,将无规律的数据转化为容易处理的类型,方便后期的数据分析工作。ETL工具往往用于数据清洗环节,能够对数据进行装载、转换和抽取;Sqoop工具往往用于数据集成环节,它Sqoop能够将关系数据库和Hadoop中的数据进行互相转移,并将系统客户端上的半结构数据和结构化数据提取出来,转化为结构化的方式进行统一存储。

3.实际应用处理

在实际应用时应当按照电费回收的状况进行开展,其中含有欠缴电费、预缴电费和发行电费,按照电力公司的经营业务来划分电费的回收情况、预收电费情况和欠缴电费的情况,并对它们进行分析。以24小时为一个周期进行监控,以30天为一个周期对电费回收的情况进行分析,这样的监控模式能够有效地对每天的电费回收状况进行详细记录,得出每月初至月底的电费回收具体走势,通过对用电行业、单位、电压等级的电费回收情况进行数据分析,比较出相对容易出现电费风险的要素,并对其进行严格控制、制定相应的解决方案进行整改,从而达到降低电费风险、提升电力公司的营业效益的目的。

结束语:

本文通过数据挖掘的手段来对用户的行为进行预测,对用户以往的用电数据进行动态评估,再整合一些可能会对电费回收造成影响的外部因素(如天气因素、自然灾害以及经济环境等等),通过对用户的历史用电数据进行深度分析挖掘,建立出适合公司的电费催收系统,以此提高电费回收效率,避免坏账的形成,节省进行电费回收的人力和物力,提升电力企业的管理水平,从而促进我国经济更快更好的发展。

参考文献:

[1]冯歆尧,彭泽武.基于广东电网数据仓库大数据架构研究[J].电力学报,2015,(6):519-523.

[2]陈羽中,郭松荣,陈宏,等.基于并行分类算法的电力客户欠费预警[J].计算机应用,2016,(6):1757-1761.

[3]程志琴.电费回收风险的预控管理措施分析[J].科技与创新,2016,(11):79.

[4]彭泽武,李伟清,林强,等.电网企业信息系统运行方式模型研究[J].电力信息化,2013,(06):12-17.

[5]张淑秀,赵旭东,张爽,等.供电企业预售电管理风险分析[J].电子测试,2016,(08):161-163.