新聞資訊
了解故障案例及產品資訊
問題描述(故障現象)
對中興S330設備進行NCP板的軟件版本和FPGA版本的升級,升級完成后,給NCP下載數據庫時,發現數據項“告警屏蔽”下載失敗,提示“未知錯誤”,數據項“數字量性能門限”下載失敗,提示“6#單板的1#CPU超時”,如圖 101所示。此時業務均正常。
網管上單獨下載數據項“告警屏蔽”、“數字量性能門限”仍舊失敗。
現場反饋多端ZXMP S330設備下載NCP數據庫時,多個網元都出現了相同的故障,但業務均正常。
升級NCP的軟件/FPGA版本完成后,下載NCP數據庫,提示“數字量性能門限”在第5槽位單板的1#CPU下載失敗。
對NCP數據庫進行上載比較,發現網管數據庫有“數字量性能門限”,但NCP數據庫中沒有,因此可以確定“數字量性能門限”的確下載失敗了。
打開E300網管菜單【性能】→【性能設置】→【數字量性能門限配置】, 顯示出各個數字量性能門限的值,這些數字量性能門限是針對整個網元的,不是單獨對于第5槽單板的。點擊【應用】,下發這些值,結果仍顯示第5槽位單板的1#CPU下發失敗。
查詢該網元的當前告警,只有DCC連接失敗的告警,并無其他異常告警。
原因分析
“數字量性能門限”下載失敗會影響數字量性能越限告警的上報,例如當誤碼率越限時卻不上報告警,但不會影響業務。
下載“數字量性能門限”時,提示6#板的1#CPU超時。網管上檢查6#板,發現是OL4AF板,網管上查詢到該OL4AF 板的軟件版本為V1.01R1P05,FPGA版本為V1.01R1P04。
現場是在升級NCP板的軟件和FPGA版本后,下載NCP數據庫時出現的故障。剛開始時,懷疑是新的NCP板軟件和FPGA版本和OL4AF板存在配合問題。后來排除了這一點,確認該故障和NCP板無關。
研發在實驗室用E300網管和T31網管進行反復驗證,故障均未復現。
研發要求現場在下載NCP數據庫時,采用GDownload軟件抓包。對抓取的GDownload報文進行分析,發現網管顯示超時的單板都是配置為4口的OL1板。最終研發定位是由于OL4AF板的內存不足,導致下發“數字量性能門限”失敗。因為“數字量性能門限”與其他的數據表相比,需要較多的光板內存,因此其他的數據表可以下發成功,但“數字量性能門限”下發失敗。
OL4AF板的內存不足的原因,是由于OL4AF板插在中興S330設備的5#、6#、11#、12#這4個槽位,網管上配置為OL1板或者OL4板時,OL4AF板的軟件版本缺陷導致光板的內存出現少量泄漏,隨著光板運行時間的增加,光板內存的泄露情況將越來越嚴重。
解決方案
臨時解決方案:網管上硬復位OL4AF板,釋放光板內存。
根本解決方案:將OL4AF的軟件升級到V1.01R1P10及之后的版本。