新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述(故障現(xiàn)象)
東區(qū)PTN-13和東區(qū)PTN-14這兩臺中興6500設(shè)備的54和55槽位共4塊單板報CPU過載告警,通過show process 命令查詢CPU利用率都在83-96之間;而平時正常CPU負(fù)荷為30-40%;這四塊單板的端口對接了四個SGW,分別為SGW65/66/69/70。
組網(wǎng)環(huán)境
華為LTE基站------------本地網(wǎng)PTN網(wǎng)絡(luò)-------------中興PTN省干------------愛立信SGW
原因分析
設(shè)備升級后才出現(xiàn)CPU使用率偏高,可能為設(shè)備軟件BUG。
解決方案
1、對其中一塊線卡進行復(fù)位,復(fù)位后CPU使用率未降低。
2、在診斷模式下進行分析,CPU使用率偏高為CPU受到異常報文沖擊導(dǎo)致。
3、對這兩臺設(shè)備進行收方向抓包,發(fā)現(xiàn)收到了TTL=1的報文,并且這些報文的源IP為基站地址,目的IP為SGW的地址。正常情況下,中興省干6500設(shè)備收到的報文,源IP為SGW的地址,目的IP為華為基站的IP地址。
4、進一步分析基站發(fā)出來的報文的目的地址,經(jīng)過分析發(fā)現(xiàn)這些地址已經(jīng)為SGW廢棄不用的地址。
5、和華為、愛立信進一步溝通確認(rèn),華為基站默認(rèn)有記錄SGW業(yè)務(wù)地址并進行心跳檢測的功能,而核心網(wǎng)修改不再使用的SGW地址,華為基站需要手工刪除這些地址,否則還會繼續(xù)發(fā)ping測報文進行心跳檢測。本次問題主要是華為基站記錄了原來SGW的業(yè)務(wù)地址發(fā)送了心跳檢測報文,報文通過省干PTN傳給SGW,而SGW有默認(rèn)路由,基站發(fā)上來的報文的目的業(yè)務(wù)地址是原來核心網(wǎng)的地址,但最近核心網(wǎng)升級后,這些SGW地址已經(jīng)不再被核心網(wǎng)使用了(如:100.96.126.2/3/4/5等),所以核心網(wǎng)(SGW)收到基站發(fā)上來的報文,沒做任何處理就又用默認(rèn)路由發(fā)給省干。而省干原來配置有指向核心網(wǎng)的路由。導(dǎo)致報文又被再次傳給核心網(wǎng),相當(dāng)于路由成環(huán)。實際抓包有大量TTL=1的報文就證明這一點。這些路由成環(huán)的大量報文導(dǎo)致單板CPU沖高。
6、中興省干ZXCTN 6500設(shè)備升級后出現(xiàn)CPU使用率偏高,升級前為2.0版本,2.0版本對TTL=1的報文,默認(rèn)為丟棄(CPU不處理,所以不會沖高)升級到2.1版本后,根據(jù)RFC792標(biāo)準(zhǔn),2.1版本對TTL=1的報文,需要回送ICMP報文,這樣會消耗大量CPU。
7、刪除基站的心跳檢測功能中記錄的SGW業(yè)務(wù)地址(核心網(wǎng)升級后已經(jīng)不使用的地址),基站不再向核心網(wǎng)發(fā)送目的地址為“不使用的SGW地址”的心跳檢測報文后解決。