张娜
(机械工业第四设计研究院有限公司,河南洛阳471039)
摘要:随着信息技术的发展,计算机服务器系统在我国的得到了非常广泛的应用,小到中小企业,大到电力、国防、卫生等重点行业都离不开计算机服务器系统提供不间断的工作。因此,一旦计算机服务器系统发生故障,就可能会带来巨大的经济损失。基于此,本文对计算机服务器系统的容错技术进行了探讨。
关键词:计算机;服务器;容错技术
前言
科技改变生活,网络逐渐也成为人们日常生活中不可或缺的一部分,现代生活却是经历了翻天覆地的巨大变化。各行各业或者各种团体机构、组织等对计算机系统的应用也日益广泛,无论是个人档案管理还是什么,还是企业文件机密的保存,都需要经常翻阅、整理、归类,传统的方式是标签好它们的位置,从而节省时间。可即使是这样,依然存在很多漏洞和不便之处,但是计算机服务系统却为我们大大提供了方便之处。
1计算机服务器系统容错技术概述
所谓计算机故障,是指由于计算机部件的物理实现、环境影响、操作错误或者是设计缺陷等原因,引起计算机系统的硬件或者软件的错误的状态。故障检测、诊断和恢复技术是计算机容错技术的重要组成部分。如果计算机系统要进行故障恢复,就要首先采用检测、诊断技术确定故障所处的位置等,这是恢复的前提,最后在恢复技术的作用下使得计算机系统恢复到无故障时的状态继续正常运行。当前运用的计算机容错技术的最基本方法为冗余技术,而硬件冗余技术、软件冗余技术、信息冗余技术和时间冗余技术是冗余技术的四个主要组成部分。
2计算机服务器系统容错技术分析
2.1硬件错误容错技术
(1)硬件冗余
在硬件错误容错技术中采用的硬件冗余技术主要分为部分冗余和完全冗余两种主要方式。对于完全冗余方式来说,按照工作方式的不同可以分为热备、冷备、温备以及双工等四种方式。这四种方式的主要工作方式示意图如下所示:
图1热备、冷备、温备以及双工四种主要工作方式
热备工作方式:在该工作方式之下,两个互为冗余的计算机服务器系统都处于加电工作状态,但是热备计算机系统并不对系统的处理结果进行输出。一旦主计算机系统发生故障,热备计算机系统将接手继续进行工作。等到系统故障修复完毕之后,热备的机器便重新变成备机。
冷备工作方式。和热备方式不同的是,冷备工作方式的备用计算机系统是处于不加电状态,一旦主机发生故障,冷备机器将接手,故障完成后重新变为备用机。
温备工作方式。冗余的两个系统都处于加电状态,一个工作,一个处于等待状态。如果工作的机器发生故障;另一个便接手继续进行工作,故障恢复后自动变成备用等待的机器。
双工工作方式。在该种方式下,两个机器同时进行工作,同时进行处理结果的输出,在发生故障后,对两个机器的结果进行输出比较。
(2)信息冗余
所谓信息冗余即在原始数据中附加若干位的冗余信息以达到故障检测或故障恢复等目标的容错技术,包括检错编码与纠错编码2种。检错编码可以自动地发现错误,而纠错编码具有自动发现错误和纠正错误的能力。编码技术常用在信息的传输、存储和处理中。
(3)时间冗余
在非硬件冗余、非强实时系统中,可使用时间冗余技术来达到容错目的。时间冗余的工作方式主要有两种,第一种是RSHW,即在同一硬件上对同一数据在不同时间片执行同一指令集。第二种是使用数据延迟设备及表决电路结合,将一次数据处理的输出结果通过设置不同的延迟大小而复制成多个版本并在表决器处进行比较。
2.2软件错误容错技术
相对于硬件系统的故障研究,软件错误显得较为困难。当前还没有形成一套成熟而且完整的方法来对软件系统的可靠性、设计错误等进行检测。当前应用较为普遍两种软件故障恢复策略,一种是前向恢复;一种是后向恢复。对于前向恢复来说,将计算机当前计算状态继续进行下去,将之后的状态恢复到连贯的正确状态。而后向恢复,顾名思义,是将计算机系统状态恢复到前一个正确的状态。
(1)前向恢复
目前应用的前向恢复状态的方法主要为N-versionProgramming方法,该方法的基本思路是由不同的团队独立设计,使用不同的方法,不同的设计语言,不同的开发环境和工具来实现。目的是减少各个版本软件在表决点上出现相关错误的概率。其相关的工作方式示意图如下所示:
图2N-versionProgramming方法工作方式
(2)后向恢复
当前应用较为普遍的后向恢复方法主要有恢复块方法和防卫式程序设计方法两种,以恢复块方法来说,其在同一个功能之下,有主块和若干个后备块的概念,一旦主块投入运行后没有通过验收测试,就可以指定第一个后备块运行,从而成为主块,依次顺序直至耗尽所有的后备块。在该种方式下,设计的主块和后备块之间尽量保证相对的独立性,不要因为主块出现错误从而干扰到后备块的运行。
3服务器容错技术对比
目前应用的服务器容错技术有三类:服务器群集技术、双机热备份技术和单机容错技术。它们各自所对应的容错级别是从低到高的,服务器集群技术容错级别最低,而单机容错技术级别最高。
3.1双机热备份
双机热备份技术是一种软硬件结合的较高的应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜及相应的双机热备份软件组成。操作系统和应用程序安装在两台服务器的本地系统盘上,数据是通过磁盘阵列集中管理和数据备份的。数据集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。
机热备份系统图例
双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。“心跳”指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳”信号,则系统的高可用性管理软件认为主机系统发生故障,主机停止工作,备用系统将替代主机发挥作用,以保证网络服务运行不间断。双机热备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即:双机热备模式、双机互备模式和双机双工模式。
(1)双机热备模式:即active/standby方式,active服务器处于工作状态;而standby服务器处于监控准备状态,服务器数据同时往两台或多台服务器写入,保证数据的即时同步。当active服务器出现故障的时候,通过软件诊测或手工方式将standby机器激活,保证应用在短时间内完全恢复正常使用。
(2)双机互备模式:两个相对独立的应用在两台机器同时运行,但彼此均设为各机,当某一台服务器出现故障时,另一台服务器可以在短时间内将应用接管过来,从而保证了应用的持续性,但对服务器的性能要求比较高,配置相对要好。
(3)双机双工模式:是群集的一种形式,两台服务器均为活动,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份,需要利用磁盘柜存储技术。WEBJ服务器或FTP服务器等用此种方式比较多。
3.2单机容错
单机容错技术是在一台服务器实现高性能容错的。单机容错服务器最大的优势就在于它能够自动分离故障模块,在不中断运行的情况下,进行模块调换,维护损坏的部件,并且在一切物理故障消除后,系统会自动重新同步运行,有效的解决了客户的后顾之忧。
单机容错服务器是通过CPU时钟锁频,通过对系统中所有硬件的备份,包括CPU、内存和I/0总线等的冗余备份;通过系统内所有冗余部件的同步运行,实现真正意义上的容错。系统任何部件的故障都不会造成系统停顿和数据丢失。目前,很多容错系统是基于IA架构的服务器,与Windows系统完全兼容,实现以前只有在RISC系统上才能实现的容错。这种容错技术在IA服务器上的实现,将IA服务器的可靠性提高到了99.999%,同时服务器的运行是不间断的。容错产品支持任意硬件热插拔,包括主板、CPU等关键性硬件,外界并感觉不到切换,系统可靠性大大提高,同时因为系统具备纠错能力,系统更加稳定。如果说集群技术可以减少停机,那么容错系统的目标是避免停机,在相同的条件下,容错系统显然更加稳定和安全。
双机热备份和容错服务器的定位稍微有些不同,这是由两者实现的可用性差别决定的。双机热备份适用于业务连续性不是很严格的行业,比如说公安系统、部队系统或者个别的制造企业。而如电信、金融、证券和医疗等要求高的行业容错服务器是最佳之选。还要注意双机热备份不同于服务器集群,双机热备份要求两对路配置完全一样的服务器,而服务器集群的配置要求没那么严格。另外,双机热备份方式需要至少2台服务器,导致在软件采购、软件维护升级、系统硬件升级的投入都比单机容错方式多1倍,而且在双机备份软件出现故障后,其维修的难度较高,对客户会带来较大困难。因此单机容错服务器的总成本远低于双机备份方式的成本。但是在灵活配置方面,双机热备份方案更具优势。但总体来说,容错服务器才是未来的发展趋势。
4结语
综上所述,计算机服务器系统是很多行业的重要基础支撑,而其中运用的容错技术更是保障其稳定、不间断的运行的重要技术,每个企业都应该引起重视。随着未来我国计算机系统规模的进一步扩大,具有成本低、损耗低以及延迟低等一系列优点的容错技术一定可以为系统的可靠性提供新的贡献,从而保证我国信息技术的安全稳定发展。
参考文献:
[1]揣锦华,姚蔚华,常博.一种聚类算法在容错计算机系统中的应用[J].微电子学与计算机,2009(07)
[2]万靖.计算机联锁系统容错技术[J].科学咨询,2010(16)
[3]李洪超.计算机系统的容错技术方法[J].单片机与嵌入式系统应用,2010(11)