新聞資訊
了解故障案例及產品資訊
問題描述
某網絡NG-SDH設備由5.21.16.13/5.21.17.31版本升級到5.21.18.50P01+SPH001時,出現大面積非網關網元脫管現象,網管上可以登錄網元,但不久后又重新脫管。該網絡有10個網關網元,均為OSN3500與OSN7500,接入層設備多為Metro100,Metro1000等盒式設備,市區環網關網元下掛載網元數量為50個左右,未出現脫管現象,郊縣環網關網元下掛載設備大多超過140個,最多的達到184個,出現大面積網元脫管現象。
告警信息
大面積網元在網管上變灰色,呈脫管狀態,有網元脫管告警。
處理過程
1、檢查網管與網關網元的可達性,用PING命令檢查網管與網關之間的網絡連通性和丟包率。
2、在網管功能樹上選擇“通信>網元ECC鏈路管理”,關閉含有脫管網元子網的環路,把一部分設備從現有ECC網絡中完全隔離出來,待ECC不在震蕩后,等待15-20分鐘然后逐漸放開,當打開的網元數量超過120個左右時,ECC風暴再次出現。
3、與客戶溝通,決定臨時增加幾個主要節點的網關網元重新進行ECC劃分,減少當前某些網關的網元掛載數量以解決問題;根據現場可能實現的條件,臨時添加了兩個網關網元,閃斷脫管現象消失,問題得到解決。
根因
初步判斷為ECC風暴震蕩導致大面積網元脫管,原因為當設備版本由5.21.16.13/5.21.17.31版本升級到5.21.18.50P01+SPH001時,新版本占用了更多的主控板CPU資源,使得主控板CPU處理ECC通信的能力下降,且該網絡掛載的網元數量遠大于建議規劃的64個以下,故形成ECC網絡風暴。
建議與總結
設備資料中都有建議的ECC規模說明,雖然超過建議值后也不一定馬上就會出現ECC風暴,但新版本一般都帶有新特性以及新維護功能,這些功能或多或少會占用主控板以及單板的CPU資源,可能造成其他方面處理能力的下降,所以完全可能出現升級前網絡運行正常但升級后出現ECC風暴的問題;進行重大操作簽,建議按照公司標準對ECC進行分割,如確實不具備分割條件,請準備好風險防范措施。