新聞資訊
了解故障案例及產品資訊
問題描述
中國北方某局點OSN1500多塊單板上報TEMP_OVER告警,結合告警參數和設備工作環境的問題,斷定該告警是單板溫度過低而引起的,下面討論一下NG-SDH設備的溫度檢測機理以及遇到的一些問題。
現網版本:5.36.18.50
告警信息
TEMP_OVER
處理過程
查看當前告警中TEMP_OVER告警參數如下:
2929679 12 TEMP_OVER MJ start 2011-12-01 04:52:16 None 0x01 0x00 0x01 0x02 0xff
3000350 80 TEMP_OVER MJ start 2011-12-24 04:59:15 None 0x01 0x00 0x01 0x02 0xff
結合當前OSN1500產品手冊(V100R008C02)中,對于SDH類單板,由參數4表示單板工作溫度越限的類型,對于交叉類單板,由參數1表示單板工作溫度越限的類型,其中0x01表示單板工作溫度越上限,0x02表示單板工作溫度越下限。那么對于三合一板應該看參數1,工作溫度上限越限,顯然和實際情況相反,查詢的當前單板的溫度cfg-get-bdtemp:80,單板當前問題為-2°C。
BOARD-TEMP
BID TEMP-NOW
80 -20
Total records :1
所以產品手冊中工作溫度越限類型看參數1是錯誤的,經過研發確認,對于交叉類TEMP_OVER告警參數只需要看參數4,參數1為固定值,OSN3500(V100R008)和OSN7500(V100R008)對于參數的解釋也是有誤的,其他版本比如R11的產品文檔在告警參數解釋上有變動,只需要關注參數1。
2、NG-SDH設備溫度上報的機制,單板內部有溫度芯片,可以實時檢測單板的溫度,其他單板和主控板是通過背板通信的方式,將實時溫度上報給主機,主機結合當前網元的所有單板上報溫度中的最大值,記錄到溫度性能事件里面,所以只有主控板才能查詢到單板溫度的性能事件(bdtempmax,bdtempmin,bdtempcur),其他單板查詢出來的是激光器的溫度,該溫度比單板問題高。
3、同一單板的不同版本對于溫度查詢支持情況是不同的,例如SSN2PQ1 VER.C(含溫度芯片)和SSN2PQ1S VER.C(不含溫度芯片),前者屬于早期的版本,后者是降成本的產物,所以前者支持溫度查詢和溫度告警的上報,后者不支持該功能。具體情況可以通過cfg-get-bdtemp:bid,根據返回的結果來判斷該單板是否含溫度芯片。
4、溫度告警是單板內溫度芯片查詢單板實時溫度,和溫度告警門限值進行比較,如果越限就上報TEMP_OVER告警。當然告警門限值可以通過命令行修改:cfg-set-bdtempth:Bid, temphighgate, templowgate;門限值是有范圍限制的,比如上門限在60-80,一些數據單板(SSN1EAS1/SSN1EAS2/SSN1EMS4/SSN1EGS4)是80,其他單板是70,缺省值是65。一般不建議將溫度門限設置超過70。
建議與總結
一般情況下TEMP_OVER是因為溫度過高而上報的告警,但是也有溫度過低上報該告警的情況,為了消除此告警,請盡量保證設備工作環境的溫度處于正常條件(0~45度之間)。