新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述
某局現(xiàn)網(wǎng)同一環(huán)上有5個OSN7500設(shè)備GSCC上報chip_abn告警,告警參數(shù):0x01 0x00 0x01 0x01 0xff;主機軟件:5.21.16.13。每次持續(xù)十幾秒至2分鐘之內(nèi)不等,間隔十幾分鐘上報。更換主控后(與原主控板版本一致),新?lián)Q上去的主控板又產(chǎn)生了chip_abn告警。
處理過程
1、經(jīng)過統(tǒng)計上報該告警的網(wǎng)元主控板使用的溫度芯片DS18S20為同一批次,因此更換其中一個網(wǎng)元的主控板(版本一樣,但不是同批次生產(chǎn)),但新更換的主控板很快又產(chǎn)生了chip_abn告警,排除批次溫度芯片故障因素
2、通過對上報chip_abn告警網(wǎng)元主控的工作溫度進行采集,發(fā)現(xiàn)其工作溫度分別為16.5,19,28.5,30,28且查看現(xiàn)場環(huán)境未發(fā)現(xiàn)異常因素,因此排除環(huán)境因素
3、由于所用的版本5.21.16.13為主流發(fā)貨版本,且其他地方都沒有上報此告警,獨只有該局的上報告警,因此排除軟件版本問題
4、換下的單板在實驗室一直沒有重現(xiàn)故障,最后通過研發(fā)分析,聯(lián)系到該局這幾個站點同時有ECC的Qufull丟包現(xiàn)象,而ECC丟包是因大數(shù)據(jù)量DCC通信引起的,而CPU的ECC處理肯定時全負荷運行,ECC數(shù)據(jù)處理占用大量的CPU資源。研發(fā)在實驗室用SmartBits來對網(wǎng)管以太網(wǎng)口進行大數(shù)據(jù)量的沖擊,模擬DCC大數(shù)據(jù)量通信,CPU全負荷處理通信數(shù)據(jù),然后對此進行驗證,現(xiàn)象重現(xiàn)。
5、因此定位為子網(wǎng)過大,導(dǎo)致產(chǎn)生大流量的ECC通信和額外開銷,搶占了溫度巡檢的這樣的低優(yōu)先級任務(wù),造成軟件模擬溫度芯片DS18S20的時序不準(zhǔn),從而檢測到錯誤的溫度值,導(dǎo)致chip_abn告警上報
6、劃分ecc子網(wǎng),觀察發(fā)現(xiàn)告警消失,故障解決
根因
ECC子網(wǎng)過大導(dǎo)致多個OSN7500網(wǎng)元主控上報chip_abn告警
解決方案
重新劃分ecc子網(wǎng),建議不超過64