中国移动通信集团河北有限公司,河北 石家庄 050000
摘要:随着5G业务、云网业务的迅猛发展,传输波分网络的带宽需求变大,其网络结构、保护方式也越来越多样化,带来了单一故障伴随告警的根因诊断的新挑战。在网络及业务快速发展的大环境下,传输故障呈现阶段性聚焦现象,波分网络维护承载业务的重要性更为突出,其告警监控、故障处理处于极为被动的局面,由此传输波分网络的高压高负荷监控的矛盾日益显露。传统的波分告警监控模式、告警派单方法,对当前复杂资源模型下的故障定位缺乏流程化诊断的方法,对更深层次故障根因识别能力不足。因此,不能满足各类波分故障场景及业务影响场景的精准判断分析,成为波分故障精细化诊断和直派一线的限制和障碍,造成一线维护人员重复工作量。基于集中监控实际工作需求本方法创新性的提出基于告故障场景的告警聚类逻辑根因诊断思路,梳理告警类别、适配业务场景,告警间逻辑诊断等,明确波分各故障场景的技术逻辑,实现波分告警相关性分析进行故障根因诊断。
关键词:故障场景;传输波分;告警根因
本方法的创新逻辑算法确保所有告警都会落入到某一逻辑分支中,不会遗漏。首先结合故障触发的伴随告警信息基于专家经验对故障根因告警进行筛选,快速定位根因告警,减少无效工单;其次通过综资机房、电路、外线资源等信息,对同一故障导致的业务影响范围进行适配,直观展现故障影响电路信息,减轻人工查询电路信息的工作量,提升运维工作效率;再次对根因告警进行定位定界,快速而准确的输出故障处理建议,指导一线故障处理。
一、基于故障场景的传输波分告警根因诊断方法实现流程逻辑如下:
波分故障场景逻辑分为三类,分别故障场景逻辑、过程业务场景逻辑、以及通用子逻辑。各个逻辑需要提供UI界面,以便可以灵活进行相关参数调整,各个逻辑模块通用的UI界面元素包括输入告警、告警时间窗、输出根因故障名称。故障场景逻辑内各个逻辑模块地位平等,不存在先后关系,基于告警匹配决定那个逻辑生效,要求具备扩展性,可以增加新的逻辑模块。根因诊断建立告警过滤识别及场景分析查询能力、等待节点、场景分析衍生能力、场景分析内置能力、业务影响判断共计五种原子能力,在场景分析内置能力是针对特点逻辑的抽象,比如是否开环、故障边界判断等,各原子能力共享,可灵活调用。
1、告警过滤识别及场景分析查询能力
目的是识别并过滤出哪些告警应该进入当前的处理流程,以历次故障数据为模型归纳总结为6类故障场景,按照故障场景将告警分类,建立各场景告警间关联逻辑。
(1)脱管类故障场景:存在四层判断条件,从前到后为边界脱管网元数量、对应机房有否动环停电告警、上游网元有否LOS告警及LOS数量进行判断,最终输出故障原因。
(2)线路类故障场景:首先进行硬件故障判断,结合网管内部连纤关系,告警分类识别监控板、光放板等单板的无光类倒换类告警,按告警进行中断点的根因识别,输出诊断结果。
(3)设备硬件类故障场景:基于告警名称分流到四个分支中,分别为硬件故障告警、时钟故障告警、主控板故障场景、风扇故障场景。
(4)环境类故障场景:环境类故障分两类,电源类故障和温度类故障,逻辑有所区别,分别进行说明。首先电源类故障存在四层判断条件,从前到后为电源告警网元数量、告警网元是否同一机房、对应机房有否动环告警、告警对应的板卡类型进行判断,最终输出3种故障原因。其次温度类故障存在五层判断条件,从前到后为温度告警网元数量、告警网元是否同一机房、对应机房有否动环告警、是否有风扇告警、告警对应的板卡类型进行判断,最终输出4种故障原因。
(5)性能类故障场景:性能类故障场景包括误码类故障、光功率和光模块故障、端口流量越限、CPU等利用率越限、专网故障。分为两层判断,第一层判断为是否是端口告警,第二层判断端口是否关联拓扑。其中光功率告警和误码告警增加是否同时出现判断。其它性能类告警关联性不强,原因比较明确,直接派单。
2、等待节点
通用节点,当满足条件的告警进入流程后,为了减少频闪告警带来的影响,可以自由配置等待时长,等待时长内如果告警清除,不再进行故障诊断。
3、场景分析衍生能力
目的是将符合不同分支条件的告警按需生成衍生告警。同时,衍生告警可以支持告警标题、网元名称、预处理信息等信息的组织。
4、场景分支内置能力
针对开环判断、故障边界判断,业务逻辑比较复杂。而且逻辑规则已经固化,不存在参数变更的空间,所以封装并打包成内置能力,根据场景有选择使用。
5、业务影响判定能力,采用逐级深入的三级判定,分别为故障涉及电路数,各电路影响情况,包括倒换或中断,各个电路承载业务类型,包括无线、集客、家宽、CMNET等,根据具体告警内容、资源情况、跨域告警能力情况,灵活决定判定到哪一级别。
6、流程编排
根据业务逻辑需要,将上述原子能力进行组合,以中昱脱管场景为例,下图为编排的预期效果图,可以完全实现快速编排、同时满足业务逻辑可读、可解释的目的。
二、场景化告警逻辑分析以告警、拓扑、机房信息、电路信息、跨专业数据为基础但并不仅仅是单纯的数据简单展现,在故障定位定界后,将值班平台监控试图由原来的告警监控转变为基于故障的事件监控,并根据定界信息输出指导故障处理的预处理建议,直观呈现在故障工单中。本方法的主要技术创新点如下:
(1)建立无效告警清洗算法
通过对传输故障场景伴随告警分类分析,将传输资源与故障场景触发告警进行数据贯通,将告警附带电路信息、拓扑信息、板卡信息等附带属性进行资源串联,实现空闲端口上报无效告警的识别能力;
(2)构建面向线路、脱管、性能、硬件、环境五大常见故障场景的告警聚类分析能力
一是梳理常见故障类别定义基于故障场景的专家经验阀值及规则,将告警进行分类分级,实现同类告警同一逻辑进行根因预判。二是建立故障诊断策略树,根据跨类告警相关性分析建立不同类别告警的结合预判流程,在存在交叉环节建立丢弃逻辑,避免重复识别。三是依据资源信息,提取跨专业告警进行辅助预判,分析故障根因,进行精准根因定位。
三、该功能作为集中故障平台中一个分支模块,该功能为集中监控人员提供如下功能:
1)提供基于波分故障场景的监控入口,根据波分故障场景的告警根因,将原有的基于原始告警的监控模式,改为按照故障场景分类呈现,并消除厂家差异,以故障根因直观呈现。
2)实现基于波分故障场景的告警派单,例如光缆故障后,可以根据告警相关性逻辑判断,将光缆中断后产生的6~8条伴随告警衍生为A-B双向线路中断故障,进行收敛派单。
3)提供基于场景逻辑预判的故障定位定界,根据告警相关性逻辑判断,诊断故障根因,并输出根因的故障预处理建议。当跨专业预判故障根因为其他专业时,派发告知工单,其他专业处理完成后本工单自动完结,减少一线工作量。
3)提供基于故障预判的工单回单约束能力,根据告警定位的根因,梳理可能导致故障的可能原因,在回单时进行故障原因限制,避免回单时原因选择的随意性。
本成果在传输网络集中监控中有效的提升了故障发现的及时性,能快速在故障发生的大量相关告警中定位出根因告警,有效缩提升了故障响应速度,提升了传输故障派单的准确率。在通信故障数量大幅增加的环境下,基于故障场景的传输波分告警根因诊断方法发挥了重要作用,为提升业务端感知提供有效网络支撑。
参考文献:
[1]李峰.光传输网告警相关性分析[J] 广东通信技术,2008,12.002.
[2]李程贵.王英豪.营海生.基于告警分析的智能光缆故障定位系统的研究[J]信息通信, 2017,235-237
[3]王峰.一种基于多维属性的光传输网络告警压缩方法[J] 光通信技术,2021,45(5):7-10
1