新聞資訊
了解故障案例及產品資訊
問題描述(故障現象)
1、省干ZXCTN 6500-1的44槽位1口和45槽位1口組成一個聚合組與華為SGW對接,開通一段時間后出現隔一兩天報 二層BFD檢測回話狀態down告警,持續時間3秒中左右,導致smartgroup接口失效告警,并觸發FRR切換;另外一臺PTN-2設備也有同樣的端口與這臺SGW對接,告警現象一致。
2、查詢端口,沒有光功率異常和以太網端口未連接告警:
3、BFD配置正常間隔為100ms,倍率3;BFD配置數據正常。
原因分析
1、省干維護工程師首先查詢省干光功率和設備其它相關告警性能等,均未發現異常告警,光功率正常,且未出現以太網端口down等告警,也沒有光路誤碼,說明連接的物理鏈路是正常的,只是因為BFD檢測報文發出的接口狀態down告警。
2、省干PTN請中興研發工程師遠程登陸到兩臺PTN設備進行底層命令查詢,經過排查,BFD數據未見異常,省干PTN設備正常。
3、通過統計查詢省干西區PTN-1和省干西區PTN-2兩臺設備的告警,發現一個規律,所有BFD告警產生時間 和消失時間在省干兩臺設備上幾乎都是同時(即PTN-1報告警的同時PTN-2上也同樣報告警),最多差1-2秒鐘。由此可以判斷,應該有同一個故障源導致了省干兩臺設備同時報此告警,否則兩臺設備之間沒有任何協議,告警如何能實現同時上報呢。通過分析判斷,BFD閃報告警問題很可能由SGW引起導致。
解決方案
故障分析
1、省干維護工程師首先查詢省干光功率和設備其它相關告警性能等,均未發現異常告警,光功率正常,且未出現以太網端口down等告警,也沒有光路誤碼,說明連接的物理鏈路是正常的,只是因為BFD檢測報文發出的接口狀態down告警。
2、省干PTN請中興研發工程師遠程登陸到兩臺PTN設備進行底層命令查詢,經過排查,BFD數據未見異常,省干PTN設備正常。
3、通過統計查詢省干西區PTN-1和省干西區PTN-2兩臺設備的告警,發現一個規律,所有BFD告警產生時間 和消失時間在省干兩臺設備上幾乎都是同時(即PTN-1報告警的同時PTN-2上也同樣報告警),最多差1-2秒鐘。由此可以判斷,應該有同一個故障源導致了省干兩臺設備同時報此告警,否則兩臺設備之間沒有任何協議,告警如何能實現同時上報呢。告警截圖如下圖:
故障處理
1、SGW更換單板后故障恢復,由此驗證了我前面的判斷。