新聞資訊
了解故障案例及產品資訊
問題描述
一OSN3500設備30槽位EGS2板每間隔約半小時同時瞬報一次BD_STATUS、COMMUN_FAIL告警,單板出現復位,業務出現瞬斷。
告警信息
EGS2板上報約沒半小時瞬報一次BD_STATUS、COMMUN_FAIL告警。
處理過程
1、單板上報BD_STATUS告警,懷疑為單板故障,更換單板后約半小時故障重新。
2、懷疑為槽位問題,對單板更換槽位,但是更換后故障依然。
3、懷疑為以太網接入業務存在環回或異常,采集數據進行分析,通過命令行:mon-show-cpu:30命令返回值中可以看出單板CPU占用率非常高,其中tRstpBpdu任務CPU占用率高達77%,而單板空閑任務VIDL CPU占用率為0%,導致單板清狗任務無法執行,致使單板發生軟狗復位,上報COMMON_FAIL告警,同時造成業務中斷。
TASK-NAME SWITCH-COUNT MIN-TIME MAX-TIME RECENT-TIME TOTAL-TIME(us) PERCENT
tRstpBpdu 1181 74 10178 7556 10439226 77.82%
VIDL 0 0 0 0 0 0.00%
4、對以太網輸入口業務進行歸類,將存在以太網環路或有協議報文的業務割接至其他單板端口上后,告警不再上報,問題解決。后期將EGS2板單板軟件統一升級為5.53后問題徹底解決。
根因
1、單板故障。
2、槽位故障。
3、接入業務存在異常。
建議與總結
EGS2板收到外界發送的大量生成樹協議報文后,會導致單板CPU占用率過高,單板發生軟狗復位,造成這種故障一般有兩種情況:
1、外部網絡往單板發送大量生成樹協議報文。
2、外部網絡往單板發送少量生成樹協議報文,但是整個網絡存在物理環路。
EGS2板在5.53版本及以版本對協議報文進行限速操作,可以從根本解決該問題。