新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述
運(yùn)營商中心機(jī)房OSN3500設(shè)備配置了4塊EGS4單板與數(shù)通CE對(duì)接,承載3G業(yè)務(wù)。5、6板位EGS4配置為BPS保護(hù);13、14板位EGS4配置為BPS保護(hù),5、13板位為主用。某日客戶反饋該站點(diǎn)主控板上報(bào)HARD_BAD告警,告警參數(shù)為0x0e0xff0xff0xff0xff,告警上報(bào)持續(xù)2-3小時(shí)后自動(dòng)消失,同時(shí)有BPS狀態(tài)事件上報(bào)。業(yè)務(wù)未受影響。
該站點(diǎn)使用N4EGS4單板多板ID配置為N3EGS4單板使用。
主機(jī)版本為:5.21.18.50;EGS4單板版本為:1.14
告警信息
告警名稱:HARD_BAD
告警參數(shù):0x0e0xff0xff0xff0xff
處理過程
1、現(xiàn)場(chǎng)檢查與CE連接的尾纖發(fā)現(xiàn)尾纖故障,更換尾纖后ETH-LOS告警消失,單板link燈亮。持續(xù)觀察再未發(fā)現(xiàn)HARD_BAD告警上報(bào)。
2、該問題需要將N4EGS4單板軟件升級(jí)到1.15及其以上版本徹底解決。
根因
1、從告警參數(shù)看應(yīng)該是14板位EGS4單板故障導(dǎo)致,但如果是單板故障怎么會(huì)自動(dòng)消失呢?現(xiàn)場(chǎng)嘗試插拔單板、更換單板后故障依舊。排除單板故障因素。
2、因?yàn)?3、14槽位單板是后期擴(kuò)容上的單板,因此懷疑擴(kuò)容時(shí)母板倒針。拔下單板仔細(xì)觀察未發(fā)現(xiàn)倒針現(xiàn)象。
3、現(xiàn)場(chǎng)處理過程中發(fā)現(xiàn)現(xiàn)網(wǎng)使用的4塊EGS4單板中只有14槽位單板上報(bào)ETH-LOS告警,并且單板的link燈不亮,因此懷疑是與該單板端口狀態(tài)異常有關(guān),但是端口異常怎么會(huì)導(dǎo)致主控上報(bào)HARD_BAD告警呢?
經(jīng)過最終定位:
SSN4EGS4檢測(cè)到端口linkdown時(shí),會(huì)周期性設(shè)置8K線為2k狀態(tài)值,但每次設(shè)2k狀態(tài)前,軟件錯(cuò)誤地先置了低電平(低電平表示單板故障),并維持了50ms,在這50ms內(nèi),主機(jī)正好來檢測(cè)hadbad狀態(tài),就會(huì)上報(bào)hadbad告警。另外,由于8K線狀態(tài)發(fā)生變化,交叉板會(huì)因此上報(bào)BPS倒換狀態(tài)事件。
因此該告警屬于誤報(bào)。
建議與總結(jié)
發(fā)現(xiàn)問題后多進(jìn)行對(duì)比分析,找出故障單板與正常單板的不通之處,對(duì)于疑難雜癥可以向二線專家及研發(fā)求助。