新聞資訊
了解故障案例及產品資訊
問題描述
1、某客戶OSN3500設備交叉板頻繁上報BUS_ERR告警
告警信息
1、9-SXCSA單板上報BUS_ERR告警和HSC_UNAVAIL
2、主機版本為5.21.17.31
處理過程
1、首先確認業務,沒有中斷,9板位交叉板為備板。
2、檢查9-SXCSA單板的詳細告警信息,首先查看HSC_UNAVAIL告警,其參數為:0x04 0x01 0x09 0xff 0xff
對于HSC_UNAVAIL告警,HSC_UNAVAIL只有備板會上報,該告警的含義如下:
參數1: 表示告警的類型。
0x01表示本板狀態壞
0x02表示有業務板檢測到本板壞
0x04表示本板檢測到2型BUS_ERR
BIT[3~6]:預留
0x80表示備板硬復位成功不足5分鐘
參數2: 表示不可用單板的主備狀態。
0x00表示主板
0x01表示備板
參數3:
表示不可用單板的槽位號,取值為0x09,0x0A。0x50,0x51。
3、從上面可以看到可以看到產生此告警為9板位SXCSA單板檢測到2型BUS_ERR告警導致
4、查看BUS_ERR告警,其參數為:0x0d 0x04 0x06 0x02 0xff和0x0d 0x04 0x04 0x02 0xff
BUS_ERR告警,該告警的含義如下:
參數 1: 默認表示單板邏輯板位(包括擴展板位)。
若參數4為0x03,那么參數1表示內部總線所在的交叉芯片號。
參數 2: 默認表示在該板位中的總線序號。
若參數3為0x03,那么參數2表示內部總線在芯片中的物理序號。
參數 3: 不同的比特表示不同的告警存在狀態。
0x10表示存在BUS_LOS
0x08表示存在FIFO溢出
0x04表示存在B1誤碼
0x02表示存在BUS_OOF
0x01表示存在BUS_OOA
參數 4 : 表示BUS_ERR的告警類型。
0x01表示I 型BUS_ERR,它是由單塊交叉板檢測到的。
0x02表示II型BUS_ERR,它是由兩塊交叉板握手檢測到的。
0x03表示III型BUS_ERR,它是由交叉板內部總線檢測到的。
參數 5: 無效參數
5、從上面可以看到,是由于兩塊交叉板握手檢測到13板位產生大量誤碼。其中:
0x0d表示13板位,對應實際單板為SLQ16
0x04代表13板位的第4跟總線,對應實際SLQ16的第4個光口
0x04:表示存在B1誤碼;0x06(其中06=02+04):表示同時存在0x01的OOF和0x04的B1誤碼
確認應該是13-SLQ16-4光口不停的產生大量B1誤碼和OOF導致。
6、查看13-SLQ16的告警信息,發現4光口不停上報R_LOF,經客戶確認其承載在其他廠家波分上面,目前波分線路處于割接狀態。
7、待波分線路穩定后,檢查13-SLQ16-4光口,R_LOF告警消失,性能沒有誤碼,再次檢查交叉板的告警,所有告警結束。確認為波分線路割接導致我司設備不停上報R_LOF,從而導致交叉板產生告警。
根因
1、備交叉板故障
2、主備交叉備份狀態異常
3、線路誤碼導致
4、主交叉板故障
建議與總結
1、正常情況線路板上報R_LOF是不會導致交叉板上報BUS_ERR告警的,從本次故障看到,在于其他廠家波分設備對接時,友商波分線路處于異常狀態時,我司對接線路板不停上報R_LOF,說明交叉板檢測到的狀態是時好時壞,從而導致交叉板上報BUS_ERR告警。
2、對于告警參數中“不同的比特表示不同的告警存在狀態”的說明:
告警參數0x為固定值,后兩位為16進制計數:所以0x10的10對應10進制的16
告警參數后兩位是按照2的bit計算:所以告警參數解釋只有0x01、0x02、0x04、0x08、0x10(依次對應2的0、1、2、3、4次方)
對應其他告警參數,則是按照bit位進行計算,計算方式為:06=02(2的1次方)+04(2的2次方);05=01(2的0次方)+04(2的2次方);