广东海格怡创科技有限公司,广东 广州, 510627
【摘要】Volte通话是目前4G移动用户普遍使用的高质量的通话业务,但在Volte通话异常排查中,无线空口以上传输问题影响的感知异常一直以来较难准确定位。本文针对性的结合4G Volte端到端通话质量节点特征、接入异常时CSFB回转策略、端到端指标、基站空口指标以及基站传输SCTP链路指标多个维度,综合整理出一种“四步法”排查基站传输隐性故障引起的Volte通话感知异常问题的方法。同时,同步对全网同类问题进行排查和应用,应用效果明显。该方法不需要增加额外运维成本,可推广性很强,具有很高的实用价值。
【关键词】CSFB回转、MOS值、SCTP链路不可用、端到端丢包数、上/下行丢包率
1.问题描述
Volte通话是目前4G移动用户普遍使用的高质量的通话业务,与传统GSM通话相比,有通话接入时延低、语音质量高,而且做到语音和数据业务可以并发使用等优点。但在Volte通话异常排查中,经常存在基站无线侧空口丢包无异常、但用户端到端感知到丢包(单通),以及被叫用户经常无法使用Volte(使用CSFB通话)等疑难4G通话感知异常投诉问题。这些疑难投诉由于无线侧均无法排查到网络异常问题,导致很难快速进行下一步定位及优化,影响投诉问题处理和响应速率。这就急需一种能快速定空口以上传输问题影响的4G通话感知的指导方法。
2.解决方案
本文结合Volte端到端丢包(MOS值)传输节点结构、Volte用户CSFB回转机制特点以及PTN传输指标(SCTP链路不可用时长)特性,介绍一种精准定位基站传输隐性故障引起的4G通话感知异常的方法(详见图1)。该方法主要从以下四步进行排查定位:
第一步,投诉用户占用小区信息收集;
第二步,通过端到端和空口节点Volte丢包进行传输问题初步定界;
第三步,CSFB占比(占比增/减)进行二次定界;
第四步,基站测“SCTP链路不可用时长”进行最终定界。
简易排查流程如下:
图1:基站传输隐性故障“四步”排查流程
2.1步骤一:投诉用户占用小区信息收
根据初步回访信息、信令平台跟踪、现场测试确认等多维度信息收集,准确收集4G语音感知异常用户使用的4G主覆盖小区情况,便于后续步骤分析排查工作深入。
示例:
2022年3月14日收到深大某老师来电反馈在“滨海”小区附近,最近2天经常出现4G终端无法正常通话问题。经现场测试确认,该投诉客户占用4G主覆盖小区为“滨海小区RD-HLH-1”小区。
2.2步骤二:通过端到端和空口节点Volte丢包进行传输问题初步定界
要完成一次Volte端到端通话(以通话本段为例),数据包的传送需通过以下节点:空口节点(终端与基站间)->S1-U节点(基站与S/PGW间)->SGi节点(S/PGW与SBC间)-> Mb节点(SBC与SBC间)(详见图2)。
图2: Volte端到端通话网元及节点
在语音包传输过程中,只要以上相关节点中任一环节异常,本次本端通话都会出现丢包、单通等,影响语音质量差。可以结合大数据平台小区级Volte业务端到端指标统计,确认相关4G通话感知异常小区是否存在端到端丢包异常。相关统计模板(详见图3):
图3:Volte端到端通话指标查询平台及统计模板
示例:
“滨海小区RD-HLH-1”小区在3月13日“RTP丢包数”达到11986次,语音质量平均“MOS值”仅有4.25,低于最近一周的平均水平(详见表1)。
表1端到端“RTP丢包”及“平均MOS值”指标变化
记录开始时间 | 小区名称 | 平均MOS值 | RTP丢包数 |
2022/3/7 0:00 | 滨海小区RD-HLH-1 | 4.32 | 834 |
2022/3/8 0:00 | 滨海小区RD-HLH-1 | 4.34 | 737 |
2022/3/9 0:00 | 滨海小区RD-HLH-1 | 4.31 | 876 |
2022/3/10 0:00 | 滨海小区RD-HLH-1 | 4.36 | 945 |
2022/3/11 0:00 | 滨海小区RD-HLH-1 | 4.34 | 890 |
2022/3/12 0:00 | 滨海小区RD-HLH-1 | 4.35 | 967 |
2022/3/13 0:00 | 滨海小区RD-HLH-1 | 4.25 | 11986 |
“滨海小区RD-HLH-1”小区在3月13日空口“上行/下行丢包率”均远远低于1%,且与最近一周的平均水平持平、无明显异常(详见表2)。
表2 基站空口“上行/下行丢包率”指标变化
时间 | 小区名称 | VoLTE上行丢包率(%) | VoLTE下行丢包率(%) |
2022-03-7 | 滨海小区RD-HLH-1 | 0.01 | 0.01 |
2022-03-8 | 滨海小区RD-HLH-1 | 0.02 | 0.02 |
2022-03-9 | 滨海小区RD-HLH-1 | 0.02 | 0.02 |
2022-03-10 | 滨海小区RD-HLH-1 | 0.00 | 0.02 |
2022-03-11 | 滨海小区RD-HLH-1 | 0.00 | 0.02 |
2022-03-12 | 滨海小区RD-HLH-1 | 0.00 | 0.03 |
2022-03-13 | 滨海小区RD-HLH-1 | 0.01 | 0.03 |
综上,初步确定3月13日4G用户投诉丢包、无法通话问题,主要由于“滨海小区RD-HLH-1”小区存在RTP严重丢包(MOS严重偏低)导致。但相关RTP丢包网络原因初步定界为基站以上节点,排除空口原因导致的RTP丢包(基站小区空口“上行/下行丢包率”低于1%,且处于一周的平均水平)。
2.3步骤三:CSFB占比进行二次定界
Volte语音业务主/被叫接入机制中,不仅保证用户享受高质量的语音通话。而且,在主/被叫接入网络期间,若用户Volte接入长时间无法得到网络侧响应,网络侧在特定定时器超时后,会将该用户呼叫回转至CSFB,来挽救本次接入能通过GSM网络接入。这样一来,在端到端Volte接入过程中,若空口或者空口以上节点网络异常,都会出现本小区CSFB呼叫次数增加问题。相关回转CSFB策略如下:
(1)策略一:Tcall/ Tqos定时器超时,触发CSFB业务。
Tcall:UE设置为10s。当UE上发INVITE请求后启动,10s内如果终端为收到网络回复的trying 100时该定时器超时,终端转CSFB继续通话请求;
Tqos:UE设置为10s。当UE上发INVITE请求,网络回复trying100后10s若为收到网络下发的专载建立请求该定时器超时,终端转CSFB继续通话请求。
(2)策略二:核心网CSRetry定时器超时(即网络侧在核心网在相关定时器时间内无法寻呼(Paging)到被叫终端),随后触发CSFB业务接入。
示例:
统计通话问题站点“滨海小区RD-HLH”站点的“E-UTRAN向GERAN执行CSFB的次数”在3月13日明显高于一周的平均水平(详见表3)。
表3 基站“E-UTRAN向GERAN执行CSFB的次数”指标变化
日期 | 基站名称 | E-UTRAN向GERAN执行CSFB的次数 |
2022/3/7 | 深圳滨海小区RD-HLH | 212 |
2022/3/8 | 深圳滨海小区RD-HLH | 220 |
2022/3/9 | 深圳滨海小区RD-HLH | 210 |
2022/3/10 | 深圳滨海小区RD-HLH | 198 |
2022/3/11 | 深圳滨海小区RD-HLH | 225 |
2022/3/12 | 深圳滨海小区RD-HLH | 230 |
2022/3/13 | 深圳滨海小区RD-HLH | 438 |
综上,进一步验证投诉用户无法使用Volte进行被叫问题,主要由于基站以上链路异常,导致核心网CSRetry定时器超时(即网络侧在核心网在相关定时器时间内无法寻呼(Paging)到被叫终端),随后触发CSFB业务接入次数增加。
2.4步骤四:基站测“SCTP链路不可用时长”进行最终定界
4G基站传输使用的是SCTP链路,可以用“SCTP链路不可用时长”这个指标判定SCTP链路的稳定性。但基站侧SCTP链路较多:S1传输的SCTP就达到12条,还有大量的X2链路的Sctp。所以,只有将步骤二、步骤三的定界与步骤四的排查整合在一起,才能准确的定位出相关4G语音通话感知异常是否由于S1传输的SCTP的“SCTP链路不可用时长”导致。
示例:
统计通话问题站点“滨海小区RD-HLH”的“SCTP链路不可用时长”指标,在3月13日明显出现异常,且高于一周的平均水平(详见表4)。
表4 基站“SCTP链路不可用时长”及相关指标
日期 | 基站名称 | SCTP链路不可用时长(秒) | SCTP链路不可用次数 | SCTP链路重传的包数 | 上行传输误块率(%) | 下行传输误块率(%) |
2022-03-10 | 滨海小区RD-HLH | 0 | 0 | 0 | 6.83 | 0.51 |
2022-03-11 | 滨海小区RD-HLH | 0 | 0 | 2 | 6.73 | 0.47 |
2022-03-12 | 滨海小区RD-HLH | 257 | 2 | 29 | 6.56 | 0.43 |
2022-03-13 | 滨海小区RD-HLH | 6067 | 1 | 0 | 6.53 | 0.53 |
2022-03-14 | 滨海小区RD-HLH | 0 | 0 | 4 | 6.25 | 0.41 |
综合分析,“滨海小区RD-HLH”站点传输链路SCTP存在异常,导致3月13日客户投诉无法使用Volte业务进行通话以及感知异常。
经传输维护同事核查确认,“滨海小区RD-HLH”确实存在光衰问题,经主备传输倒换后,回访投诉客户、通话感知恢复正常,同时Volte业务端到端RTP丢包数恢复正常(详见表5)。
表5 优化前/后Volte端到端“平均MOS值”及“RTP丢包数”变化
记录开始时间 | 平均MOS值 | RTP丢包数 |
2022/3/12 0:00 | 4.28 | 696 |
2022/3/13 0:00:00(调换前) | 4.25 | 11986 |
2022/3/14 0:00:00(调换后) | 4.30 | 874 |
2022/3/15 0:00:00(调换后) | 4.28 | 852 |
2022/3/16 0:00:00(调换后) | 4.28 | 181 |
3.全网同类问题排查和应用效果
结合全网Volte语音投诉、端到端RTP丢包以及MOS值指标统计,利用本文介绍的“四步法”定位传输问题导致4G通话感知异常问题的排查思路,共找到15个站点属于同类问题、PTN传输异常导致Volte语音感知差。
相关问题站点PTN传输故障进维护处理,恢复正常后,“RTP丢包率” 由原值3.21%,下降到0.56%,优化效果明显、达到预期效果(详见图3)。
图3: 优化前/后“RTP丢包率”变化
4.经验总结
本文依据4G Volte端到端通话质量节点特征和Volte接入异常时CSFB回转策略理论,结合Volte端到端指标、基站空口指标以及传输SCTP链路指标,综合整理出一种“四步法”排查基站传输隐性故障引起的Volte通话感知异常问题的方法,并将相关方法应用到优化实践场景中,达到预期效果。整个案例定位过程循序渐进、流程清晰,可为行业工程师提供类似问题排查经验和参考。
参考文献:
[1]江林华.LTE语音业务及VoLTE技术详解[M].北京.电子工业出版社,2016年.
[2]郭宝.LTE学习笔记-从无线优化到端到端优化[M].北京.机械工业出版社,2016年.
[3]周晓雪.基于IMS的VoLTE技术的研究与实现[D].哈尔滨工业大学,2015年.
[4]张明和.深入浅出4G网络-LTE/EPC[M].北京.人民邮电出版社,2016年.
[5]卓松华.VoLTE无线感知丢包与质差小区问题研究[J].广东通信技术.2017年10期.
[6]刘松伦.王超.4G语音解决方案-VoLTE[J].中国新通信,2017年19期.