广西防城港核电有限公司538003
在工业控制领域,冗余指的是在系统设计中引入额外的原件或者模块,通过监测、比较、切换机制来实现故障的检测和自动恢复,保证系统能够在单个元件或模块发生故障时继续运行,并尽可能减少因故障引起的停机时间和生产损失,以提高系统的可用性,增强对故障和异常情况的容错能力。工业控制领域普遍采用冗余设计,但是有的冗余设计实际是假冗余,并没有提供真正的冗余功能或者没有达到预期的容错效果。
在最近几年中,某公司工业控制系统产品在多个生产现场均发生过由于假冗余问题导致的停机事件: 2018年江苏某1000MW电厂由于level1工业总线交换机故障,传输数据频繁丢包,系统无法识别该类故障模式,没有切换到冗余网络导致汽机跳闸。2019年广西某1000MW电厂由于控制系统通讯卡件存在缺陷,主侧通讯卡件故障后冗余切换不成功导致汽机跳闸。2022年,广东某1000MW电厂由于控制系统冗余切换不成功导致汽机跳闸。以上频繁发生的假冗余跳机事件给企业造成了重大的经济损失,因此有必要对假冗余问题进行全面梳理并提出有效的维护策略。
工业控制系统常见的冗余方式有以下几种:1、网络拓扑冗余:例如由两个总线型网络组成一个虚拟环网,2个总线网络一主一备,自动荣誉切换主备。2、设备冗余:在一个工业控制系统中,关键位置的网络设备常常配置为冗余设备。例如,一个生产线上的交换机。3、控制系统冗余:采用冗余控制器的策略。例如,一个控制系统可以同时运行两个主控制器,它们独立地监测和操作同一个过程,主控制器故障后自动切换到从控制器。4、数据存储冗余:在记录和存储重要数据的系统中,可以使用磁盘冗余阵列(RAID)技术。5、网络通信冗余:采用多路径通信的策略。例如,链路聚合技术、采用双网卡配置。6、电源冗余:重要设备的电源及空开应冗余并独立配置。7、输入输出设备冗余:输入输出卡件及重要传感器应冗余配置。
一、工业控制系统假冗余主要表现在以下几方面:
1、网络拓扑冗余失效:
(1)环路间的路径切换延迟过高,导致数据传输中断。
(2)备用路径未正确配置或失效,无法实现故障转移。
(3)网络设备配置错误或故障,导致无法正常切换路径。2018年江苏某电厂采用的西门子网络交换机的link check功能进行配置不正确,导致单个交换机故障后没有切换到冗余网络 ,该环网所有控制器与主网脱网,现场设备失去控制,造成汽机跳闸。
2、设备冗余失效:
(1)主备设备冗余机制存在缺陷,备用设备无法顺利接管主设备的功能。2019年广西某电厂采用的西门子CP443-5通讯卡件,由于该卡件冗余机制存在缺陷,主侧通讯卡件故障导致汽机跳闸。
(2)冗余设备之间存在硬件或软件兼容性问题,无法实现自动切换。
(3)主设备发生故障时,备份设备切换过程出现错误,导致网络连接中断。
3、控制系统冗余失效:
(1)冗余控制器之间的通信故障,导致主控制器无法及时传递状态信息给备用控制器。
(2)控制器之间存在逻辑错误或软件漏洞,导致备用控制器无法正确接管故障控制器的操作。2022年广东某电厂采用西门子FM458冗余控制器,由于冗余控制器故障监视参数LZF设置不合理,导致主侧FM458控制器故障后,备用FM458控制也发生严重故障,主控制器无法切换到从侧,导致汽机跳闸。
(3)输入/输出模块或传感器的故障没有被及时检测到,导致冗余配置无法发挥作用。
4、数据存储冗余失效:
(1)RAID技术配置错误,磁盘之间的数据分布不均衡或冗余程度不足。
(2)多个硬盘同时发生故障,无法实现数据的完整恢复。
(3)raid阵列卡故障,导致raid磁盘存储功能丧失。
(4)数据存储系统本身存在设计缺陷或故障,导致无法正常读取或写入数据。
5、网络通信冗余失效:
(1)多路径通信的配置错误,导致数据无法正确地通过备用路径传输。
(2)链路聚合技术配置错误或不兼容,无法正常增加带宽和容错能力。
(3)冗余设备故障后切换失败,无法实现自动切换到备用设备。
6、电源冗余失效:
(1)冗余电源系统中的主备电源共享同一个关键元件、线路或设备,形成单点故障。
(2)主备电源负载差异大。
(3)由于系统设计问题、故障检测逻辑不准确或切换过程中的技术问题引起的切换延迟。
(4)备用电源的电池电量耗尽、备用电源开关故障等。
7、输入输出设备冗余失效:
(1)共同故障模式,由于共用电缆或者受到相同外部环境干扰导致的单点故障。
(2)软件错误配置为非冗余模式。
(3)切换装置或控制逻辑存在问题导致不完全自动切换。
(4)设备老化或者故障未发现。
(5)人因错误导致冗余功能失去。
二、识别假冗余问题
工业控制系统中的冗余设计一般通过硬件上的底层设计来实现,对于用户来说是黑匣子,用户看不到底层切换逻辑,因此系统中存在的假冗余是很难直接发现的。需要从设计、调试、维护、检修等各个方面来分析和识别假冗余问题,主要包括以下方面:
1、审查设计文件、设计参数。审查上游文件,找出设计和现场偏差;没有上游文件,则和相同机组的进行对比,识别出参数设置的差异,针对差异进行详细分析,并要求厂家澄清差异。
2、审查切换逻辑。部分控制器带有子控制器,冗余的子控制器通过软逻辑实现主从切换,对于这些软逻辑需要识别和分析,理解切换逻辑。
3、识别单点故障。监测冗余设备的电源、电缆、空开、环境因素是否存在共同因素。
4、调试验证。在调试期间的调试程序需包含全面的冗余测试程序。
5、日常验证。日常的验证可以通过在最小系统上对冗余切换功能进行全面的测试,确保系统中所有可能的故障模式都被验证。
6、状态监测。实施状态监测,通过巡检内容、报警日志、故障日志、事件日志监测设备状态,及时发现异常。
7、培训和提高意识。通过培训维护人员,提高识别假冗余的风险意识,提高处理冗余设备故障的处理能力,针对性编写相关操作程序。
三、消除工业控制系统中的假冗余措施
要消除假冗余问题首先要从思想上避免冗余设备单一故障不影响设备运行的认知偏差,消除对知名产品的可靠性的盲目信任,从各个方面采取措施:
1、优化冗余设计方案。在设计阶段,配置正确的冗余元件,避免选择不合格的、故障率高的元件;选择合适的冗余切换方案,优先选择通过硬件实现冗余切换。
2、消除设计错误。对比上游文件,找出现场配置差异;对比同类型机组,检查交换机参数、CPU参数、通讯卡件参数等重要参数,发现设计错误后及时修正。
3、双重验证。引入双重验证机制来减少假冗余风险,比如增加“主从侧控制器的数据不一致报警”来检查主从CPU的数据是否一致;通过增加“冗余信号的不一致报警”检查冗余信号是否一致;通过对数据传输丢失的双向判断逻辑,提高故障判断的准确性。
4、消除单点故障。从信号回路和真实触发回路进行故障树分析SPV单项弱点,消除冗余设备的电源、电缆、空开、环境因素的共同因素。
5、升级版本消除设备缺陷。跟踪重要工业控制设备的硬件、软件版本升级,及时消除设备隐藏缺陷。
6、完善报警机制。建立完善的报警机制,完善报警分级管理,报警卡上报警信号的含义和响应措施必须正确和直观。及时监测冗余元件的状态,并在发现异常或故障时发出警报。
7、数据多重多时备份。通过raid阵列、光盘备份、硬盘备份、U盘备份等多种方式实现多方式、异地数据备份。备份方式要多时异地。
8、定期更换及维护。重要卡件一般包含易损电子元件,例如电容、二极管等,需要根据电子元件的寿命制定定期试验和定期更换备件策略。
9、人员技能提升。假冗余设备故障问题的判断和处理需要比较专业的知识和技能,当冗余设备出现异常现象时,专业人员需提升技能,通过异常现象能判断出问题的影响及严重程度并及时处理,避免问题进一步扩大化。
10、进行事故假想。假冗余问题隐藏深、专业性强,需要针对各个重要网络编写事故假象预案,维修准备好预案票,操作员做好操作预案,针对性提高应对此类问题的规范性和及时性。
综上所述,本文结合国内近几年电力行业发生的多起跳机事件,指出由于设计、调试、质量、环境等方面的原因,在工业控制系统中普遍存在假冗余问题。提醒工业控制系统的从业者从思想上消除冗余设备不会出问题的认知偏差,全方位识别并消除假冗余隐患,同时结合现场经验,针对如何识别和消除假冗余现象提出了多项具体措施。