民航内蒙古空管分局
2022年春季换季中,技术小组展开二次雷达站设备换季工作。当日,在停机并完成雷达天线驱动系统机油更换工作后,对雷达双通道进行开机,雷达CH B开机操作失败。
一、故障现象
雷达机柜channel CH B RPCM板卡告警,具体为:
① PowerPC MVME5500板件(以下简称PowerPC板)CPU灯灭(正常为绿灯常亮);
② IP carrier板件ack灯灭(正常为绿灯闪亮);
④ VEG板卡fault红 灯亮;
④ REP板卡fault红灯亮;
通过wireshark软件进行网络信号抓包,发现无法获取200.1.1.177或200.1.2.177的任何数据,判断CH B无任何数据输出,尝试使用NOTEPAD++软件FTP连接channel B仍失败,判断雷达channel B无法正常工作。软件及硬件均无法切换至channel B工作。此时CH A工作正常。
PowerPC MEVE5500(简称PowerPC板),是单板机,liynx操作系统,为二次雷达设备的“大脑”,除实现通道管理、时序规划等,还实现脉冲应答解码、点迹生成,在单二次雷达运行时还带有航迹处理程序。整体上,雷达系统的数字处理部分基本由PowerPC板完成。VIM、VEG、REP,此3块板卡主要用来处理雷达信号,VIM负责将接收机送来的信号视频采样,REP对采样数据进行整理分析,VEG在此过程中负责时序及方位等的处理工作。IP carrier(以下简称IPC板),一个提供串行信号互联的板件。2块电源板。
二、故障排除过程
1. 故障定位及初步验证
技术小组询问了之前开关机操作情况,并就故障原因进行探讨分析。考虑本次故障有4块板卡告警,技术小组认为板卡同时损坏概率较小,首先需要定位具体故障原因。
首先锁定至CH B PowerPC MVME5500板件,此板卡损坏会导致CH B作为主机时雷达整体功能丧失。但是为保险起见,需排除其它告警板卡故障导致雷达失效的可能。从功能上分析,REP主要处理雷达目标数据,不会影响服务报文、监控信号的输出,可以排除故障可能,VEG、IPC板卡损坏导致雷达整体失效的可能较小,但需使用备件对当前板卡进行上机验证。首先关闭CH A,分别对VEG、IPC板卡进行更换,每次更换完成后重启CH B,故障现象不变,因此排除以上板件问题,测试完成后换回原板卡继续故障处理;技术小组将故障原因锁定至PowerPC板件,使用PowerPC板备件对CH B原板件进行了替换。更换备件后CH B硬件告警有所不同,具体表现为PowerPC板CPU灯闪亮,BFL黄灯灭,RCP软件link-B仍旧断开。此时确定PowerPC板存在一定问题,但仍无法准确判断故障原因。
2. 串口连接PowerPC板
技术小组决定尝试使用超级终端连接CH B PowerPC板。首先需要确认超级终端能够连接CH A PowerPC板,单独开启CH A后,使用USB转串口线及串口转console口线缆,调整线序后,超级终端登陆CH A成功,关闭CH A,尝试登陆CH B PowerPC。
此时先将原板件更换回CH B,尝试登陆CH B超级终端始终无反应,进一步确认该通道PowerPC板故障。
3. 更换备件、确认故障具体原因
配置完成后,试图登陆SIRS失败,RCP依旧link-B断、NOTEPAD++依旧连接不到B机柜;硬件重启B机柜,则PowerPC板恢复最初备件第一次使用时现象,重新配置环境、尝试登陆或重启,如此循环数次,期间在A信道开启的情况下也尝试数次,故障现象依旧,拆下备件之前,长按PowerPC板reset键,发现超级终端开始弹出数据,一段时间后,设备硬件告警消失。
因硬件告警消失,技术小组判断备件可正常工作,但是需要重新配置参数,NOTEPAD++尝试连接B通道PowerPC板,发现只能FTP连接CH B失败,而CH A连接成功(此时CH A关闭,备件PowerPC板存储的是CH A数据,需要重启3次CH B,使板卡数据变为CH B)。对B机柜进行重启(每次均需重新配置环境后reset)数次后,NOTEPAD++显示连接CH B有数据,连接CH A则无数据,证明备件板卡数据已变更为CH B。备份备件数据后,对CH B上传之前备份的CH B数据,通过NOTEPAD++上传之前备份的channel B数据,上传成功且重启数次,RCP依旧保持现状。
根据RCP告警提示,主要是不能识别地图、参数等,考虑NOTEPAD++上传文件,会有改变数据结构或参数的风险,技术小组决定按与其它台站技术小组沟通的方法,开启CH A,通过对比CH A数据修改CH B的参数、地图、STC等。
开启CH A在对比两通道参数,在此过程中发现RCP参数指示灯出现个别红灯,CH A参数显示异常,无规律性。经技术小组检查,此时CH A硬件无告警,NOTEPAD++显示CH A参数正常,网络抓包200.1.1.49及200.1.2.49显示监控数据正常,但无雷达数据输出。
重新观察RCP数据,主要存在以下问题:
(a)RCP接收到未知的地图、接收到未能识别的消息;
(b)RCP硬盘写入错误;
(c)设备状态指示灯异常;
(d)参数显示异常,map及parameter、STC曲线等均不能正常显示,且不能正常读写参数
(e)通过RCP不能控制雷达开关机或切换等动作;
技术小组分析,CH A硬件状况正常,通过NOTEPAD++查看CH A PowerPC板数据结构正常,雷达关键参数未发生改变,根据RCP软件告警分析,RCP不能调用板卡中的雷达参数,如地图、STC曲线等,同时失去对CH A的控制能力,即不能与CH A取得交互,具体原因未知,目前判断CH A不能正常工作。因CH B故障尚未排除,技术小组决定暂时不通过FTP上传的方式修改CH A参数,硬件将CH A关机后,继续处理CH B参数异常的问题。
单独开启CH B,此时仍需重新配置环境并引导,reset后发现硬件VEG板有fault告警、NOTEPAD++不可连接、RCP的link-B变为不通,这与之前备件测试时情况有所不同,技术小组分析备件由于电池无电,不断重启后也出现一定问题。PowerPC板上还存在一块小板,小板内部插有1块CF卡,channel的数据存储于CF卡上,可以将两块板卡上的3个部分拆分另组合,找到比较理想的硬件状态,在CH A关闭的情况下,技术小组先后对备件与CH B原板件(简称B板)的大板、小板、CF卡进行拆分组合后上机测试
考虑RCP监控及控制CH A/B失效的现象,HDD(硬盘)写入错误告警,RCP与A/B通道PowerPC板通信同时失效,因CH A/B为独立冗余配置,且B板并未成功恢复正常,存在失效可能;A板在此之前除开关机未做任何操作且完全正常,此时亦无硬件告警,所以技术小组认为雷达A/B不能同时工作并非雷达设备本身问题,排查思路应该转换一下,于是决定从RCP方面排查CH A/B参数同时失效问题。
技术小组更换了雷达监控终端,并重新配置RCP参数配置完成并重新打开RCP软件,重启CH A,获得以下结果:
(a)使用超级终端串口登陆SIRS文件夹成功;
(b)使用NOTEPAD++的ftp方式登陆CH A,查看板卡参数正常;
(c)RCP显示各项参数恢复正常,并且能够正常控制天线、辐射等操作,能够进行读写操作,但雷达无目标输出;
通过软件进行网络抓包,发现雷达有服务报文输出,设备恢复正常。