新聞資訊
了解故障案例及產品資訊
問題描述
Metro1000擴容42EFS發現有多臺設備上報HARD_BAD告警,復位單板能夠恢復,但是過一段時間后還會上報,主機從4.2.6.6升級到4.2.6.41P06支持EFS板,業務沒有受到任何影響。
告警信息
Hard_Bad,告警參數為0x11
處理過程
連續三次采集收發兩個方向報文統計,發現端口收發包都沒有變化,說明該端口在數據采集這段時間內無流量。
故障單板端口收包統計如下:
Bid Pid Chn GroupId DateTime Eid Data-High4Byte Data-Low4Byte
3 1 ch1 grp1 2010-8-3 4:2:0 rxpkts 0x00000000 0x00006f4d
3 1 ch1 grp1 2010-8-3 4:2:3 rxpkts 0x00000000 0x00006f4d
3 1 ch1 grp1 2010-8-3 4:2:6 rxpkts 0x00000000 0x00006f4d
故障單板端口發包統計如下:
Bid Pid Chn GroupId DateTime Eid Data-High4Byte Data-Low4Byte
3 1 ch1 grp2 2010-8-3 4:2:0 txbok 0x00000000 0x01ee9326
3 1 ch1 grp2 2010-8-3 4:2:3 txbok 0x00000000 0x01ee9326
3 1 ch1 grp2 2010-8-3 4:2:6 txbok 0x00000000 0x01ee9326
結合故障單板業務正常、端口流量少的現象,懷疑Hard_Bad告警為誤報。
將單板軟件降級至V242版本后,HARDBAD告警消失。
根因
Hard_Bad告警參數為0x11,表示單板數通器件異常,單板會在兩種情況下上報數通器件異常:
1、單板業務不通或業務單通;
2、單板Hard_Bad告警誤報,單板某個端口流量很小、無流量或網線接口異常都有可能導致該告警誤報。