新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問(wèn)題描述
#1600開(kāi)發(fā)區(qū)匯聚OSN3500設(shè)備與#1602文化路匯聚設(shè)備組成了雙纖雙向復(fù)用段環(huán)
某日晚20:44:28,#1600開(kāi)發(fā)區(qū)匯聚-1(市區(qū)匯聚10)8板N1SLQ16上報(bào)COMMUN_FAIL(串口通信失效告警)。
20:46:09, 8板位-N1SLQ16上報(bào)BD_STATUS (單板不在位告警)。
20:46:10,網(wǎng)元上報(bào)MS_APS_INDI_EX,APS_INDI復(fù)用段保護(hù)倒換告警。此后, 保護(hù)倒換恢復(fù),業(yè)務(wù)正常。
20:52:23,環(huán)網(wǎng)再次發(fā)生復(fù)用段保護(hù)倒換。
20:52:29,EGS4單板上報(bào)TU-AIS告警,業(yè)務(wù)中斷。期間伴隨上報(bào)17板位GSCC上報(bào)HARD_BAD(單板硬件故障告警),告警參數(shù)指向 8板位N1SLQ16。
21:16:57,重啟復(fù)用段協(xié)議后,保護(hù)倒換恢復(fù)正常,業(yè)務(wù)逐漸恢復(fù)。
1、#1600開(kāi)發(fā)區(qū)匯聚-1(市區(qū)匯聚10)8板N1SLQ16上報(bào)COMMUN_FAIL(串口通信失效告警)。
2、#1600開(kāi)發(fā)區(qū)匯聚-1(市區(qū)匯聚10)8板位-N1SLQ16上報(bào)BD_STATUS (單板不在位告警)。
3、#1600開(kāi)發(fā)區(qū)匯聚-1(市區(qū)匯聚10)網(wǎng)元上報(bào)MS_APS_INDI_EX,APS_INDI復(fù)用段保護(hù)倒換告警。EGS4單板上報(bào)TU-AIS告警
處理過(guò)程
1、首次倒換時(shí), #1600開(kāi)發(fā)區(qū)匯聚8板N1SLQ16上報(bào)COMMUN_FAIL、BD_STATUS,導(dǎo)致對(duì)端#1602上報(bào)RLOS告警,引起環(huán)網(wǎng)復(fù)用段保護(hù)倒換,此時(shí)的倒換狀態(tài)是正常的。
2、二次倒換時(shí),業(yè)務(wù)大面積中斷, 重啟全網(wǎng)的保護(hù)倒換協(xié)議,對(duì)#1600與#1602的K字節(jié)重新進(jìn)行了全網(wǎng)重新校驗(yàn),校驗(yàn)后復(fù)用段協(xié)議、K字節(jié)狀態(tài)正常,兩端的保護(hù)倒換狀態(tài)一致,保護(hù)倒換恢復(fù)正常。
3、將K字節(jié)信息采集分析,故障原因是1600開(kāi)發(fā)區(qū)匯聚8板N1SLQ16硬件故障導(dǎo)致本網(wǎng)元的復(fù)用段協(xié)議模塊的K字節(jié)發(fā)送不準(zhǔn)確,導(dǎo)致對(duì)端沒(méi)有收到正確的K字節(jié),導(dǎo)致兩端的協(xié)議模塊沒(méi)有按照預(yù)定的程序切換交叉頁(yè)面,引起了倒換失敗。具體過(guò)程:
A、#1602 11板位收SF消失,其會(huì)向?qū)Χ?1600 8板位發(fā)送“倒換恢復(fù)請(qǐng)求”,#1600 8板位收到對(duì)端“倒換恢復(fù)請(qǐng)求”后會(huì)進(jìn)行確認(rèn),并向#1602也發(fā)送“倒換恢復(fù)請(qǐng)求”。
B、#1602 11板位收到對(duì)端的“倒換恢復(fù)請(qǐng)求”后也會(huì)進(jìn)行確認(rèn),同時(shí)通過(guò)11板位發(fā)送“切換空閑狀態(tài)”給命令給#1600的8板位,#1600的8板位收到“切換空閑狀態(tài)”后進(jìn)行倒換狀態(tài)恢復(fù),下發(fā)交叉頁(yè)面,本端恢復(fù)正常狀態(tài)。
C、同時(shí)#1600的8板位也會(huì)發(fā)送“切換空閑狀態(tài)”命令給#1602的11板位,#1602的11收到“切換空閑狀態(tài)”后,本端也進(jìn)行倒換狀態(tài)的切換,下發(fā)交叉頁(yè)面,恢復(fù)正常狀態(tài),最終使得整個(gè)環(huán)網(wǎng)的倒換恢復(fù)正常。
但當(dāng)時(shí)故障產(chǎn)生時(shí)的情況:由于8板N1SLQ16 瞬報(bào)單板不在位,#1602的RLOS瞬間消失,環(huán)網(wǎng)開(kāi)始進(jìn)行倒換恢復(fù)。 D、板N1SLQ16硬件故障導(dǎo)致其發(fā)送的“倒換恢復(fù)請(qǐng)求”變成了“切換空閑狀態(tài)”的命令,導(dǎo)致#1602直接由“倒換態(tài)”變成了“空閑正常態(tài)”,而對(duì)端#1600網(wǎng)元此時(shí)還處于“倒換態(tài)”,引起雙方倒換狀態(tài)不一致,導(dǎo)致了業(yè)務(wù)中斷。
根因
N/A
解決方案
1、由于發(fā)生了保護(hù)倒換但業(yè)務(wù)中斷,所以懷疑是復(fù)用段保護(hù)協(xié)議異常隨即重啟全網(wǎng)的復(fù)用段保護(hù)協(xié)議,重啟協(xié)議后保護(hù)倒換恢復(fù)正常,業(yè)務(wù)逐漸恢復(fù)。
2、由于#1600開(kāi)發(fā)區(qū)匯聚8板N1SLQ16,N1SLQ16上報(bào)COMMUN_FAIL(串口通信失效告警)、 BD_STATUS (單板不在位告警)的異常告警,對(duì)此單板進(jìn)行更換,更換后異常告警消失,保護(hù)倒換告警消失,保護(hù)倒換結(jié)束,復(fù)用段環(huán)網(wǎng)恢復(fù)正常狀態(tài)。
3、次日凌晨,做復(fù)用段倒換測(cè)試,多次倒換測(cè)試都正常,業(yè)務(wù)無(wú)中斷。
建議與總結(jié)
復(fù)用段倒換時(shí),業(yè)務(wù)大面積中斷的故障,可考慮K字節(jié)傳遞異常,或復(fù)用段協(xié)議異常的影響,造成業(yè)務(wù)大面積中斷,可以果斷嘗試停啟復(fù)用段協(xié)議的方法,使協(xié)議復(fù)位,快速回復(fù)業(yè)務(wù),然后處理其他故障單板。