新聞資訊
了解故障案例及產品資訊
問題描述(故障現象)
某ZXMP S385設備13#SEE單板配置開通了一條動環的etree以太網業務,該以太網業務配置了48個葉子節點,某天突然出現該SEE單板承載的以太網動環業務不通。
原因分析
SEE單板以太網業務不通的主要原因一般如下:
1數據配置問題,尤其是UNI、NNI口的帶寬設置,是很多人配置容易忘記的地方。
2對接問題以及以太網內部環回引發廣播風暴導致異常。
由于本次故障是在設備以太網業務開通之后,一般可以排除數據配置問題,由于以太網業務異常,很多是對接問題或者是內部環回引發廣播風暴導致異常。
問題2是故障排查的關鍵。
解決方案
對于以太網不通的問題進行了逐個排查:
1以太網業務相關告警性能排查,沒有發現異常的告警性能。
2檢查以太網數據配置,SEE單板以太網業務配置很簡單,就是一個樹形業務配置。由于是整個樹形業務都異常,這和各葉子節點配置無關。SEE單板配置檢查沒有發現異常。
從以上的排查來看,SEE的數據配置沒有什么問題,初步判斷可能是對接問題或者是廣播風暴導致業務異常。
需要到現場進行排查。為了排查故障,首先找客戶要來動環采集模塊的IP配置。
由于該站點動環業務很多,分別掛在三塊以太網單板上,現場將13#SEE單板和14#SEE單板網線對調,13#SEE單板的業務依舊不通,排除了對接的問題。因為換了網線后,14#SEE單板的業務是正常的。
于是把在電腦上設置IP和采集模塊在同一個段內,ping采集模塊,發現異常,采集模塊可以ping通,但是有很大的丟包。連續ping了三個不同的采集模塊,均是同樣的現象。
從ping采集模塊可以ping同來看,說明以太網數據配置是正常的,從不時出現丟包,大致可以判斷可能是該以太網業務出現廣播風暴導致。
出現光播風暴一般是UNI、NNI口出現環回,但是樹形業務只有一個UNI口,基本上可以判斷是NNI口出現環回。于是在VCG組配置界面,逐個刪除VCG組配置,觀察電腦PING包情況,發現當刪除VCG組40時,電腦ping包恢復正常,不再出現丟包現象。于是將其他刪除的VCG組補齊,繼續觀察,沒有在出現丟包,于是將動環業務網線恢復,經客戶確認動環業務恢復。
正常運行的以太網業務怎么會突然內部NNI口環回業務不通了呢,于是和客戶溝通近期做了什么操作,客戶反饋近期由于接入環中一個設備退網,客戶將兩邊光路打通,之后動環就出現異常了。客戶在拆除該退網設備時,并沒有刪除對應的時隙等數據。問題清楚了,由于客戶一個設備退網,而這個退網設備是到13#SEE單板以太網業務的一個葉子節點,設備退網后,本應該刪除這個葉子節點,但是客戶沒有刪除,導致這個葉子節點內部環回,從而影響了業務。