分布式技术在电力大数据高性能处理中的应用姜学朴

(整期优先)网络出版时间:2016-12-22
/ 2

分布式技术在电力大数据高性能处理中的应用姜学朴

姜学朴戚欣革徐媛赵晓茹

(国网辽宁省电力有限公司大连供电公司)

摘要:伴随着信息技术的快速发展,我国的电力行业已经开始大范围的利用大数据技术,这种技术能够在电力企业的生产与经营过程中发挥着十分重要的作用。但是,目前我国的大数据技术仍处于发展阶段,其中数据的运算与存储能力还存在一些不足之处。为了解决这些问题,提高供电系统对大数据技术的支持,我们制定了运用分布式技术来解决电力大数据运算与存储问题的方案。本文将对分布式技术在电力大数据高性能处理中的应用进行分析。

关键词:分布式技术;电力大数据;智能电网;高性能处理

1引言

随着科学技术的快速发展,我们已经进入了信息化时代,人们在工作与生活中接触到的信息量也在快速增长。我们已经对信息技术带来的方便快捷的生活模式产生一定的依赖感,这意味着信息技术已经成为我们生活中必不可少的一部分。在电力行业中,无论是电力企业的生产与经营,还是智能电网的正常运行,都离不开大数据技术的支持。然而,随着电力系统用户与用电量的逐步增加,智能电网中需要处理的数据信息数量正在不断增加,电力大数据平台对数据的运算与存储能力已经无法满足更高的要求。因此,我们采用分布式技术来协助电力大数据平台运算并存储大量的数据信息,提高供电系统的大数据处理性能。

2电力大数据的概念

到目前为止,大数据还没有形成一个统一的概念。简单的说,大数据就是具有较大的体量、较多的类型、较快的处速度以及较低价值密度的数据集合,这是目前对大数据最统一的认识。大数据的特点在于其无法在短时间内利用传统的数据库对其完成抓取、管理以及处理。近年来,我国的电力行业发展势头迅猛,信息化技术也逐渐开始运用到这一传统行业中,为了提高电力企业的管理效率以及服务质量,大多数电力企业都开始建立自己的智能电网系统。在这些系统中,大数据技术的应用逐渐成为系统的关键环节。电力大数据是电力行业技术改造的重要环节,在电力系统中应用大数据技术,是电力系统发展的必然结果。

3分布式技术解决大数据运算与存储问题的具体方案

为了结解决电力大数据运算与存储问题,我们可以利用基于Hadoop架构的分布式并行计算平台,完成对传统关系数据库平台的优化改造,在电网典型业务场景中,性能测试的结果证明了方案的可行性和性能优势。这套方案需要运用基于开Hadoop架构的多种数据处理技术,例如分布式存储、多维索引以及并行计算等技术。具体方案的实施需要以电力大数据的特点为依据,使用分布式技术建立并行计算平台,并且与关系型数据可向配合,用于运算并存储电力企业智能电网中需要处理的电力大数据,解决电力大数据平台数据运算与存储存在的问题。

4分布式并行计算平台的架构

4.1分布式平台的具体功能

在分布式并行计算平台中,运用分布式技术能够提供巨大数量数据的存储,提高系统运行的稳定性。运用多维索引技术能够完成效率更高的数据查询操作。而大量复杂的数据运算任务则由MapReduce并行计算技术完成。与此同时,平台利用关系型数据库来对数据结构进行维护,运用混合型存储来解决数据对存储的高并发、低时延要求,同时数据的读写性能较高,还能够实现复杂的查询分析功能。平台收到各类终端设备采集到的信息与数据,运用专项业务算法逻辑完成这些数据的并行运算,最后从应用接口返回运算结果。

4.2分布式平台的组成部分

分布式并行计算平台主要由开发工具、存储环境、计算环境、调度工具、监控工具、应用接口以及ETL工具七个部分组成。其中开发工具包括索引管理、库表管理、ETL管理、SQL解析与任务管理等工具。存储环境能够实现相对复杂的查询功能,并运用MapReduce并行环境提高运算效率。计算环境工具则主要利用MapReduce并行计算环境完成大量的数据运算工作。调度工具需要根据任务计划调整任务执行顺序,保证任务准确完成。监控工具的职责就是监控整个系统的工作状态以及MapReduce任务的执行状态,方便完成运维管理。应用接口工具需要采取服务的方式为应用提供接口,支持各类数据业务。ETL工具能够实现不同存储设备之间数据的输入与输出,支持监控、调度以及运行脚本等管理功能。

5分布式并行计算平台运用的关键技术

5.1分布式技术

为了满足大数据存储的需求,我们需要运用分布式技术建立分布式存储系统。基于Key-Value的文件系统就属于分布式存储系统,这个系统通常都会在硬件上开发并使用,容错率较强并且具有一定的可用性,这类系统可以完成数量庞大的数据访问。系统通常使用一个master与多个slave的形式组成,其中master负责完成保存元数据的任务,而slave责需要完成数据的保存工作,这样的组成形式能够将系统运用到总舵的集群内,具有较高的扩展性。当系统出现单点故障时,能够迅速的恢复相关数据。一个分布式文件集群通常由单个的主控节点与若干个数据节点组成,其中主控节点是管理文件的命名空间和调节客户访问文件的服务器,而数据节点责需要管理自身携带的数据。

5.2并行计算技术

MapReduce并行运算技术是由Google公司提出的一种数据运算技术,这种运算技术适合对大数据进行并行运算。分布式并行计算平台就采用的MapReduce结构来进行大数据的运算。在平台的结构中,MapReduce能够将运算任务分发到由众多计算机组成的集群中,利用这些机器完成大数据处理,实现并行处理,与此同时,平台中运用MapReduce还能够提高任务调度的合理性,将处理不同业务数据的不同任务并行运行,充分利用平台资源,提高数据分析效率。

5.3多维索引技术

分布式并行计算平台中的多维索引技术能够实现多维数据的查询功能。这一功能的实现需要Filter与Refinement两给阶段,Filter阶段完成数据的选择与过滤,数据经过过滤进行Refinement阶段的处理,完成查找。多维索引能够实现大数据的高效查询分析功能。在分布式并行计算平台中引入多维索引技术改变了Hadoop只能完成单列索引的限制,能够完成多列索引,大幅度的提升了平台查询效率。为了满足各种应用的需求,分布式平台可以实现二级索引、互补聚簇索引以及增强二级索引三种索引形式。在提升了索引功能的同时,平台还应用了服务端计算技术,使用服务器来计算数据,完成计算后将结果反馈给查询用户,有利于提高查询复杂数据的计算性能。

6结束语

综上所述,分布式并行计算平台是能够运用分布式技术解决电力大数据运算与存储问题的方案,在智能电网的建设与应用中发挥着重要的作用。为了使电力大数据技术能够满足智能电网越来越高的数据处理需求,我们必须继续研究分布式技术在电力大数据高性能处理中的应用,提高数据处理能力。

参考文献:

[1]田秀霞,周耀君,毕忠勤,彭源.基于Hadoop架构的分布式计算和存储技术及其应用[J].上海电力学院学报.2011(01)

[2]衡星辰,周力.分布式技术在电力大数据高性能处理中的应用[J].电力信息与通信技术.2013(09)

[3]朱云生.分布式技术与数据库应用于计算机技术领域解析[J].数字技术与应用.2016(05)

[4]邓贤添.基于分布式技术的电力大数据高性能处理中的应用研究[J].中国新技术新产品.2015(24)