新聞資訊
了解故障案例及產品資訊
問題描述(故障現象)
某U31網管管理了很多承載網設備,有MSTP設備、DWDM設備、PTN設備、R10設備。日常維護時,檢查MSTP設備光口的收光功率,發現有一端中興S385設備在一天內總有一個或者兩個歷史15分鐘性能查詢不到。
例如,查詢該網元的11#OL64的端口1在4月4日的歷史15分鐘的收光/發光功率,發現9:00~9:15、9:15~9:30的這兩個15分鐘歷史性能查詢不到。
原因分析
中興S385設備光板的收發光功率等15分鐘性能首先保存在主控NCP板的內存里。該網元配置的主控板是ANCP板,其內存是512M,內存容量是有限的。因此NCP板采用繞接的方式保存歷史15分鐘性能,即當內存存滿了數據以后,后續時間的15分鐘性能數據將覆蓋先前時間的15分鐘性能數據。
U31網管(12.14及之前版本)從服務器正常運行開始后,每隔2小時會主動從設備的主控板NCP板上采集歷史15分鐘性能。U31網管(12.15及之后版本)每隔1小時會主動從設備的主控板NCP板上采集歷史15分鐘性能。
U31網管上查詢不到該中興ZXMP S385設備光板的某個時間段的15分鐘性能,有兩個可能:一是ANCP板在那個時間段發生了復位,導致內存中的性能數據丟失,這樣U31網管肯定采集不到了。二是U31網管還沒有來得及從NCP板上采集性能數據,該時間段的15分鐘性能數據在NCP板的內存里就被后續時間段的15分鐘性能數據給覆蓋了。
Telnet上該ZXMP S385的ANCP板,輸入a-get-resetall,查詢所有單板的復位記錄,發現在性能丟失的時刻,ANCP板并未復位。
運行GDownload軟件,連接到該S385設備上進行抓包,成功抓到了15分鐘性能丟失時的數據包。經過研發分析,發現在那個時間段,ANCP板的內存接收到了大量的15分鐘性能數據,導致U31網管還沒有來得及從ANCP板上采集15分鐘性能,該時刻的15分鐘性能數據就在ANCP板的內存里被后續時間的15分鐘性能數據給覆蓋了。
該端S385設備上配置了6塊SEE板,設備的面板圖如下,每塊SEE板啟用的的以太網用戶口、VCGEOS端口都會上報15分鐘性能項,這樣6塊SEE板上報給ANCP內存的15分鐘性能數據就會很多。
解決方案
通過屏蔽業務板上報的15分鐘性能項,減少業務板上報給ANCP板的15分鐘性能的數據量,盡量延長ANCP板內存里的15分鐘性能被繞接的時間間隔,從而保證U31網管能夠及時的采集到該網元所有時間段的15分鐘性能數據。
由于SEE板上報的15分鐘性能項很多,因此對SEE板設置性能屏蔽。但是SEE板的哪些性能數據可以被屏蔽呢?這是一個矛盾的選擇。因為性能數據對以太網業務故障的分析判斷至關重要。通過對SEE板上報的性能數據進行分析,和研發溝通后,確定下列性能項可以被屏蔽。
SEE板以太網用戶口可以屏蔽的性能項(共10項)
接收長度128-255字節幀數
接收長度256-511字節幀數
接收長度512-1023字節幀數
發送長度128-255字節幀數
發送長度256-511字節幀數
發送長度512-1023字節幀數
接收綠色業務字節數
接收黃色業務字節數
發送綠色業務字節數
發送黃色業務字節數
SEE板VCGEOS端口可以屏蔽的性能項(共10項)
接收長度128-255字節幀數
接收長度256-511字節幀數
接收長度512-1023字節幀數
發送長度128-255字節幀數
發送長度256-511字節幀數
發送長度512-1023字節幀數
接收綠色業務字節數
接收黃色業務字節數
發送綠色業務字節數
發送黃色業務字節數
這些性能項可以被屏蔽的理由是:
1.長度為128-255字節的幀、長度為256-511字節的幀、長度為512-1023字節的幀都是業務數據的幀,不是協議幀,這些幀對以太網故障的分析判斷作用不大。
2.性能項中已經包括有“接收/發送綠色/黃色業務幀數”、所以“接收/發送綠色/黃色業務字節數”可以被屏蔽。在對故障做分析處理時,關注綠色/黃色業務的幀數即可,綠色/黃色業務的字節數可以忽略掉。
現場對這6塊SEE板中的已經開通業務的以太網用戶口、VCGEOS端口逐一屏蔽上述10項性能項后,經過幾天的觀察,該網元再也沒有出現歷史15分鐘性能丟失的情況,故障解決。
注意事項
對于中興S325/S330/S385/S390/設備,主控板保存的歷史15分鐘性能記錄數最大為5000條。如果所有業務板一次性上報的性能數超過了5000條,就會覆蓋掉主控板上一個15分鐘保存的性能項。