新聞資訊
了解故障案例及產品資訊
問題描述
SSN2EGS2單板在OSN1500網元上正常運行兩個多月后,出現反復上報COMMU_FAIL、LP_SLM_VC12、ETH_LOS告警并且業務中斷的問題。在現網進行了軟/硬復位單板、拔插單板操作,均無法解決問題。
告警信息
COMMU_FAIL、LP_SLM_VC12、ETH_LOS。
處理過程
1、更換單板為SSN1EGS4等數據單板,SSN1EGS4上軟件做了防協議報文沖擊的保護機制,所以更換單板后問題得到解決。
2、SSN2EGS2單板軟件升級到5.51版本以上。
根因
分析單板的黑匣子,發現debugbuf.log中記錄了大量單板軟復位的記錄,可見的確是不斷的軟復位造成了單板反復上報COMMU_FAIL告警,這個告警表示主控與數據板的以太通訊通道發生了中斷。由于SSN2EGS2這個單板比較特殊,軟復位和硬復位的效果一樣,都會中斷業務。所以,現網EGS2單板發生反復復位故障時,業務是會反復中斷的。而反復上報的LP_SLM_VC12、ETH_LOS告警,也是單板反復軟復位所導致。
從debugbuf.log黑匣子記錄來看,是單板收到了大量協議報文,導致單板CPU占用率過高,從而發生復位。SSN2EGS2單板所采用的5.50版本軟件沒有做防協議報文沖擊的保護機制,當網絡上可能因廣播風暴產生大量協議報文時,CPU會無法承載負荷而復位,從黑匣子記錄也可看到軟狗復位時處理協議報文的進程占到了高達47.63%的CPU資源。所以重新拔插單板后,協議報文沖擊未解除,EGS2單板依舊會發生復位問題。
建議與總結
在應用支路SNCP配合ODUkSNCP特性時,要注意兩種SNCP疊加配置方案的細微區別,這會對客戶側設備造成不同影響。特別是A公司的SDH設備在全球存量極大,做對接測試要注意這個問題。