新聞資訊
了解故障案例及產品資訊
問題描述
某日,工程師在進行一臺OSN3500網元平滑升級,更換SXCS為PSXCS,單板上線后發現新插入的9槽位N2PSXCS單板上報TEMP_OVER告警,10槽位N2PSXCS無此告警。
告警信息
TEMP_OVER
處理過程
1、現場工程師查看機房溫度,溫度為23度,空調運行正常;
2、拆卸防塵網進行清理,清理過后插回,告警仍未消失;
3、由于之前SXCS單板并無異常告警,懷疑是單板誤告產生,令現場工程師插拔9槽位PSXCS單板,單板復位上線后,告警仍未消失;
4、用命令行“:cfg-get-bdtemp:bid”查詢9/10槽位單板溫度,9/10槽位溫度分別為65.2/62.5,用“:cfg-get-fanspeed”查詢風扇情況,為normal。
9槽位溫度已經超過65度,所以上報此告警,并非誤告,根據研發分析,9槽位溫度通常情況應低于10槽位溫度,現場9槽位溫度反而比10槽位高,很可能該槽位交叉芯片使用的是fast高功耗型,所以溫度高。此場景可以通過命令行適當調高告警門限和更改風扇速度為high解決,命令行如下:
設置告警門限
:cfg-set-bdtempth:9,700,0
:cfg-set-bdtempth:10,700,0
設置風速
:cfg-set-fanspeed:high
執行命令后,TEMP_OVER告警消失。
經研發確認,芯片是否fast沒有命令可以查詢,只能通過JTAG讀出芯片ID,再轉給IBM確認。簡單的判別方法就是看單板上報溫度,一般fast芯片單板溫度明顯會比其他板高10度甚至更多。
根因
1、懷疑機房溫度過高;
2、防塵網阻塞;
3、單板誤告;
4、單板芯片原因。
建議與總結
通常情況出現TEMP_OVER告警時,處理方式為查詢機房溫度是否正常,檢查防塵網是否阻塞;當出現MSTP+產品芯片高功耗問題時,可以通過適當修改告警門限和調整風扇速度解決。
另外,8/11槽位插入單板也可以促進交叉板散熱。