自动化运维工具在电力企业信息系统管理中的作用周晓东

(整期优先)网络出版时间:2018-12-22
/ 2

自动化运维工具在电力企业信息系统管理中的作用周晓东

杨启帆周晓东

国网福建省电力有限公司信息通信分公司福建福州350001

摘要:随着社会的发展,我国的信息化进程发展迅速。商业定制化的网管系统已经无法满足当前形势下的企业信息系统运维需求。为此,利用Zabbix和Saltstack开源平台构建了适合电力企业现状的自动化运维体系,实现了对服务器主机、Web应用的实时监控和故障报警自愈处理,大大提高了运维效率,降低了运维人员的工作复杂度。

关键词:电力企业;自动化运维;信息系统

作为一种重要的IT基础设施,在近年来我国信息化程度不断提高的当下,自动化运维工具越来越受到人们的重视。在这样的背景下,为适应社会和时代发展的需要,我国大部分电力企业均先后推出了自动化集群管理平台,使得一名运维人员同时管理几千台服务器成为了可能。同时也要注意到,在电力企业传统的信息系统管理中,运维人员的大部分时间和精力都花在处理简单和重复问题上,这一方面不利于人力资源更多的应用到新产品、新技术的开发与研发之上;另一方面,随着信息化程度的不断提高,人员可能无力应对庞大而信息量。对此,加强信息系统自动化运维工具的研究和应用就变得十分重要且必要了。

一、现状分析

随着新兴技术不断发展成熟,云计算、移动互联等新技术在电力企业信息化建设中的应用日益广泛,形成了传统技术与新兴技术共荣的景象。目前电力企业信息中心支撑着数百个业务系统运行,维护着大量系统运行基础设施、软件平台,

业务系统的稳定运行关系到业务的高效开展,要求信息中心必须保障业务系统安全稳定运行,保障系统各项运行指标、服务指标满足考核要求。电力企业IT系统在长期的建设过程中存在很多历史包袱,例如IT环境复杂庞大,多种不同的操作系统共存,如Linux、Windows、AIX、HPUX等。多种主机设备共存,如应用服务器、数据库服务器、前置服务器等等。系统总量庞大、种类繁多,给运维工作带来很大压力。信息中心经过多年发展,已建立了各种资源管理平台,但平台间相对独立,资源不共享。运维操作依赖运维人员经验,人工手工操作风险高。在健康检查、配置管理、变更发布、排障抢修等过程中多数依赖人员经验手工操作执行,操作过程中缺乏透明度,标准化程度不高,误操作风险大,造成电力企业在资源管理方面存在运维工作分散、运维复杂度高的普遍问题。近年来,电力企业制定了大量的规章制度,完善流程规范,一定程度上改善了运维效果和效率,节约了大量的企业运营成本,但是对于技术人员过度依赖和过多投入的问题仍然存在。

二、自动化运维工具在电力企业信息系统管理中的应用与实践

1.自动化作业操作借鉴互联网行业经验,结合运维工作标准化和表单标准化,实现运维作业的集中标准化管理,对能够采用自动化执行运维操作实现自动化作业调度,提升运维效率,例如:日常健康检查自动化、基础软件安装部署自动化、常规报表自动生成等。

2.自服务和资源调度自动化,针对日常运维工作中常见的服务请求,梳理完善更加全面的服务目录,建立统一规范的服务申请和管理平台。引入面向服务的理念,运维部门作为服务中心向业务部门输出规范的可靠服务。将计算、存储、网络资源及平台环境作为公共服务纳入服务目录,供用户以自助服务的方式按需进行进行选配。运维部门作为服务提供方依据标准流程和SLA要求,依托自动化运维平台快速交付服务,实现运维服务自助申请、审批、交付功能,例如虚拟机开通、密码修改、IP地址开通、网络端口开通等日常资源运维工作。从而简化运维管理工作,提升服务交付水平,提高客户满意度。

三、Web系统监控的实现

1.基于Web性能的监控,Web性能监控设置方式如下:①通过Zabbix平台设置configure→Web→Createscenario,建立Web页面监控模板;②.在监控变量中输入Web登录用户的ID和Pass-word字段,如下所示:{user}=user{password}=password3.在系统监控展示界面可实时查看Web运行状态。当Web页面加载速度为0或者响应时间超过1000ms,且该状态持续时间大于5s时,即可判断Web服务运行异常,同时Zabbix平台弹出报警信息。

2.基于Web进程的监控,①使用net.tcp.listen[http]监控服务器Http服务端口是否在监听状态,当返回值为0时,表示端口没有在监听状态,即Web进程运行异常;当返回值为1时,表示端口在监听状态,即Web进程运行正常。

②使用service_state[service]监控与Web服务相关联的关键服务状态,当返回值为0时,表示关键进程运行异常;当返回值为1时,表示关键进程运行正常。

Web服务故障自愈的实现动作关联设置方法如下:①在Zabbix平台设置并定义动作名称;②设置Zabbix平台触发器判断条件;③调用Saltstack主服务器的特定目录下的远程控制Shell脚本程序。远程控制Shell脚本程序示。

加强网络运行过程的控制,网络运行过程的控制主要是通过运行过程中数据加密技术、智能卡技术及网络分段技术及VLAN的实现(虚拟网技术)四种方法实现。数据加密是计算机信息保密的一项重要措施,是指按照确定的加密变换方式,使未加密的明文变成不同的密文。按作用不同,数据加密技术主要分为数据传输、数据存储、数据完整性的鉴别以及密钥管理技术四种。智能卡技术是由授权用户所持有并由该用户赋与它一个口令。该口令与内部网络服务器上注册的密码一致。当口令与身份特征共同使用时,智能卡保密性加强。网络分段技术就是将非法用户与网络资源相互隔离,从而达到限制用户非法访问的目的。网络分段可分为物理分段和逻辑分段两种方式。VLAN的实现(虚拟网技术)主要基于近年发展的局域网交换技术(ATM和以太网交换)。

四、电力信息系统运维管理中存在的问题

1.运维管理缺乏主动性,当前,在电力信息系统的运维管理中,工作人员的积极主动性有所不足。有关电力信息系统运维管理的思想理念也比较落后,已跟不上时代发展,很难做到有效规避生产安全事故。这样一来,无论是电力信息系统还是相关的电力设备都易遭受损坏,甚至有可能引发人员、财产的损失,对电力企业的安全稳定运行极为不利。对此,应从根源上及时转变管理理念,坚持预防为主、综合治理,从而不断提高运维管理的效率以及质量。运用运维管理自动化平台,可以有效改善电力信息系统运维管理办法,在实际工作中增强其可行性,进而实现管理效能的提高。

2.运维管理模式不科学,运维管理模式不科学是当前电力信息系统运维管理中存在的另一个典型问题,在运维管理自动化当中,多数采用的仍是多头管理。这就导致在实际的管理工作中,只能按照电力企业所提出的不同需求,对工作进行相应的部署,不可避免地会出现工作上的疏漏、重复等问题,从而使得运维管理的效率不高。在这样的情况下,有关工作人员的工作难度不断提高,电力企业的人力成本也居高不下,对于电力企业效益的提高是极为不利的。因此,在以后的运维管理工作中,应采用更具专业化、标准化的设备流程,构建自动化运维管理平台,从而提升运维管理的质量。

3.运维人员的工作量大,随着我国电力产业的飞速发展,电力信息系统所覆盖的范围越来越广,运维人员的工作量也在不断加大,再加上涉及的业务范围非常广,使得运维人员的工作量极大,少数运维人员难以解决不断增加的系统问题,而系统出现的问题又比较分散,使得运维管理的效率难以提高。

鉴于近年来我国网络规模不断扩大、服务器数量不断增加,电力企业的信息系统运行监控管理的难度越来越大,在这样的背景下,优化自动化运维工具在电力企业信息系统管理中的应用就成为了当务之急。

参考文献:

[1]刘楠.自动化运维工具在电力企业信息系统管理中的应用.2016