探析智能化平台在数据中心基础设施运维管理中的应用

(整期优先)网络出版时间:2023-02-27
/ 2

探析智能化平台在数据中心基础设施运维管理中的应用

朱玉

新疆油田公司数据公司,新疆 克拉玛依 834000

摘要:随着数据中心规模的不断扩大,对数据中心的运行管理和运维服务的要求也越来越高,传统的数据中心运维服务方式已经不能满足现代数据中心要求。当前随着全球互联网高速发展,云计算和大数据技术在我国得到快速普及。为了应对这一趋势,数据中心规模迅速扩大,同时也带来了对基础设施资源管理及保障水平等方面要求越来越高的挑战。为此,本文将以某一大型数据中心为例,探讨在基础设施运维管理方面使用智能化平台对提升整体运维管理效率和水平带来的帮助。

关键词:智能化平台;运维管理;数据中心;基础设施

数据中心作为企业的核心生产场所,其规模越来越大,设备数量越来越多,系统功能也越来越复杂,给日常的维护工作带来了巨大的挑战。目前大多数企业还停留在传统数据中心基础设施管理的阶段,存在着运维人员数量不足、操作复杂不规范、信息化水平低等问题。随着智能化运维系统的出现,在提升设备运营效率的同时,也让运维人员从繁重的重复性工作中解放出来。目前很多企业已将智能化系统应用于数据中心的基础设施管理与运营工作中,实现了运维管理平台化、标准化和自动化。

1 智能化平台应用于数据中心的优势

1.1 智能化平台具有可视化管理特性

通过对基础设施设备运行状况以及各种参数指标信息进行采集处理,形成数据报表,可以为数据分析提供依据。例如,对某一项或多项数据指标的变化趋势进行分析,可以得到当前运行中存在的问题并及时发现问题及时解决。同时,通过对不同设备、不同时间段的相关信息的统计分析,可以发现其规律与趋势,为基础设施设备的维护提供了有力帮助。

1.2 智能化平台采用大数据技术对数据信息进行处理

通过对信息的收集、整理、分析、判断等过程实现了对复杂问题的高效解决。例如,当数据中心基础设施设备的相关指标发生异常时,通过对大数据技术的应用可以准确定位故障位置,提高了故障定位的准确性;对某些特定的基础设施设备运行状况进行统计分析,可以发现其运行状况、运行规律、工作效率等方面存在的问题,从而为解决问题提供有效帮助。

1.3 智能平台能够实现智能分析和预警处理功能

智能分析主要体现在系统能够针对异常事件进行自动分析并根据经验判定预警情况发生;智能化平台能对运维人员日常工作中出现的异常信息进行报警;智能化平台可通过数据挖掘获得更多有价值的信息;智能化平台还能实现数据中心基础设施自动化运行维护和故障预测。

2 大型数据中心运维管理中面临的挑战

2.1 缺乏有效的IT运维技术手段

目前,大型数据中心中的IT设备主要采用集中式管理模式。但随着设备数量快速增加,集中化运维管理模式存在的问题日益突出。当前数据中心设备维护主要采用人工巡检方式,这种方式效率低、周期长。由于数据中心集中式管理,IT运维人员与客户缺乏直接交互和反馈机制,从而造成了IT资产信息不能及时得到响应。

2.2 缺少完善的IT运维数据库

数据中心基础设施的数量与规模在不断扩大,目前已达到数百个节点,且每年新增数十套新设备。在IT设施规模不断增加的同时,其类型、性能、容量、功耗等也在快速变化,现有的管理手段已无法满足快速发展和变化的需求。目前,大型数据中心的管理主要采用人工方式。通过经验和直觉对设备进行维护以及管理,已经无法满足数据中心基础设施运维的要求。

2.3 对IT设备和IT资源的资产状况缺乏深入了解

由于缺乏对设备和IT资源的资产状况的深入了解,导致运维人员在进行数据中心基础设施维护管理时,容易出现“盲人摸象”的情况,造成运维管理效率低下,影响数据中心正常运行。

3 智能化平台在数据中心基础设施运维管理中的应用

3.1 智能化及自动化管理

智能运维平台采用“自动化”和“智能化”两大功能模块。“自动化”是指通过各种数据采集系统,获取网络设备的运行数据,实现实时监测、采集和存储;同时还可结合数据挖掘技术建立科学的决策模型,为运维人员提供直观显示设备运行状况(包括各接口协议、各子系统的运行情况等)的图表,为用户决策提供依据。“智能化”是指通过数据的分析,为运维人员提供相应的信息和决策支持。数据中心智能运维管理平台实现了对网络设备进行自动巡检和故障预测,并将监测结果及时发送给服务器及交换机端口管理人员;对于已发生故障的主机及交换机端口数据进行存储及分析,并将故障信息发送给服务器管理人员;同时智能运维平台还提供了对网络设备中运行状况不良的主机和交换机进行告警通知等功能。

3.2 故障预测与报警

智能故障预测与报警是指通过对数据中心基础设施运行的状态监测,实现对可能发生的潜在故障的预测,并及时通知相关人员处理,从而保障基础设施的正常运行。在数据中心基础设施监测过程中,要建立智能故障预测模型。利用大数据分析,对数据中心基础设施运行状态进行建模分析,根据以往的历史故障数据,将可能发生的故障类型与特征建立模型。通过模型,可实现对故障发生概率和出现时间的预测。当数据中心基础设施监测过程中出现可能发生的潜在故障时,要通过报警系统及时通知相关人员进行处理,并及时反馈处理结果。

3.3 数据统计和分析

首先,通过对各机房不同时间段的数据进行统计分析,可以发现能耗数据的变化趋势,及时采取措施降低能耗。统计分析的数据主要包括:每日基础设施运行时间、服务器使用次数、机柜使用数量、UPS和电池使用量。其次,通过数据统计和分析可以发现机房内温度、湿度、噪声等指标异常值。异常值的分析包括数值变化趋势和异常原因分析。通过对数据中心基础设施运行数据分析和统计,可以掌握数据中心基础设施运维管理中存在的问题,通过对运维管理中存在的问题进行分析处理,从而提升运维水平。再次,通过对设备运行状况的统计和分析,可以了解设备的工作状态。最后,通过对某一时间段不同类型的机柜数以及机柜面积进行统计分析,可对能耗情况进行及时预测。根据对能耗的统计分析,可及时发现问题并提出相应的改进措施。

3.4 安全管控与预警

基础设施的安全运行,是指通过监控系统对数据中心的设备和网络设备进行实时监测,并对异常状态进行及时报警处理。可采用基于硬件的网络入侵检测系统或基于软件的入侵检测系统进行异常状态的预警。在网络安全方面,数据中心应建立完善的运维管理制度和安全运维策略,采用先进检测手段加强基础设施的运行状态监测,保证基础设施运行安全。对于重要数据中心的重要资产及业务数据进行重点监控,并根据数据中心基础设施运行状态制定合理的预警策略,为数据中心基础设施运维人员提供及时可靠的预警信息。在网络设备管理方面,可实现设备信息的动态可视化和设备运行状态可视化,便于对设备故障进行及时处理。可以实现网络设备的实时告警,并对告警信息进行分析处理。在运维方面,可以基于数据中心的各类日志及告警信息进行安全状态分析及故障预测,便于管理者全面掌握基础设施的运行情况。

4 结束语

通过对数据中心基础设施运维管理智能化平台的建设,提高了数据中心运维管理水平。智能化平台具有较强的集成性和通用性,实现了网络设备、安防、环境、运维等业务的集中监控。智能化平台建设,使系统集成能力得到进一步提升。在实际应用中为数据中心的运维人员提供了一个方便、高效、可靠的工作环境;为用户提供了一套完整可靠的运维管理体系。

参考文献:

[1]于刘.大型数据中心基础设施智能化及自动化研究[J].数字通信世界,2020(9):81-82.

[2]李可,王甲甲.电力企业数据中心基础设施运行管理平台设计[J].数字技术与应用,2021,39(10):196-198.