新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問(wèn)題描述
OptiX OSN3500設(shè)備日常維護(hù)中需要備份網(wǎng)元配置數(shù)據(jù),確保網(wǎng)元主控板丟失數(shù)據(jù)或設(shè)備掉電后自動(dòng)恢復(fù)運(yùn)行。備份網(wǎng)元配置數(shù)據(jù)到主控板,就是把網(wǎng)元配置數(shù)據(jù)備份到主控板的FLASH中。網(wǎng)元掉電后重啟,主控板會(huì)自動(dòng)從FLASH中讀取配置,并下發(fā)給單板。OptiX OSN3500設(shè)備升級(jí)后,兩個(gè)線路板SSN4SLD64 STM-64光接口板狀態(tài)異常業(yè)務(wù)中斷。問(wèn)題出現(xiàn)后嘗試使用升級(jí)前備份的網(wǎng)元數(shù)據(jù)庫(kù)恢復(fù),但是恢復(fù)失敗,業(yè)務(wù)中斷。
處理過(guò)程
1、升級(jí)后發(fā)現(xiàn)slot8和slot11的SLD64單板離線,相關(guān)業(yè)務(wù)中斷;
2、客戶維護(hù)人員發(fā)現(xiàn)slot8和slot11的N4SLD64物理單板從升級(jí)之前的N1SLD64邏輯板變成了SSN2SL64邏輯板,修改邏輯單板從N2SL64到N1SLD64;
3、修改邏輯板類型后,單板上線但是業(yè)務(wù)不恢復(fù);
4、問(wèn)題知會(huì)到本地中方,以及TAC,華為中方開(kāi)始介入處理;
5、經(jīng)過(guò)和機(jī)關(guān)GTAC溝通,決定執(zhí)行回滾;
6、移走升級(jí)完的兩個(gè)R10版本GSCC,插入R8版本的SSN4GSCC,開(kāi)始使用升級(jí)之前備份的數(shù)據(jù)庫(kù)恢復(fù);
7、恢復(fù)超時(shí),恢復(fù)失敗,業(yè)務(wù)仍然中斷(DC密碼錯(cuò)誤,導(dǎo)致超時(shí));
8、放棄從數(shù)據(jù)庫(kù)恢復(fù),GTAC根據(jù)升級(jí)前備份的數(shù)據(jù)庫(kù)制作交叉配置腳本,本地命令行下發(fā);
9、下發(fā)成功,但是業(yè)務(wù)仍然全部中斷,發(fā)現(xiàn)升級(jí)之前備份的數(shù)據(jù)庫(kù)有問(wèn)題,無(wú)法使用;
10、開(kāi)始尋找最近備份的有效數(shù)據(jù),使用11月份巡檢收集到的業(yè)務(wù)配置,制作交叉配置腳本;
11、執(zhí)行腳本,業(yè)務(wù)恢復(fù)。
根因
主控單板GSCC內(nèi)部DRDB和FDB之間的同步開(kāi)關(guān)被異常關(guān)閉,導(dǎo)致FDB中存的數(shù)據(jù)是歷史配置的,和當(dāng)前運(yùn)行的業(yè)務(wù)不符。由此導(dǎo)致兩個(gè)問(wèn)題:
1、升級(jí)之后主控復(fù)位,復(fù)位之后主控重新下發(fā)數(shù)據(jù),下發(fā)的是FDB中的舊數(shù)據(jù),和當(dāng)前邏輯板位配置以及業(yè)務(wù)配置都是不符的,因此升級(jí)上報(bào)成功但是業(yè)務(wù)中斷;
2、網(wǎng)元數(shù)據(jù)備份的時(shí)候是從FDB備份的,因此升級(jí)前使用DC備份的數(shù)據(jù)也是有問(wèn)題的,無(wú)法基于這個(gè)數(shù)據(jù)庫(kù)進(jìn)行恢復(fù),導(dǎo)致回滾失敗,造成業(yè)務(wù)中斷。
數(shù)據(jù)庫(kù)備份功能默認(rèn)enable,故障網(wǎng)元之前巡檢發(fā)現(xiàn)該網(wǎng)元是disable,未修復(fù)。
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:50+06:00]>
:dbms-get-autobackup
DBMS-AUTO-BACKUP : disable
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:52+06:00]>
:dbms-get-cyclebackup
CYCLE-BACKUP-SWITCH : disable
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:53+06:00]>
:mml-get-evtflag
CMD EVT FLAG: disable
解決方案
找到升級(jí)之前最近的有效的網(wǎng)元數(shù)據(jù)庫(kù)備份文件,或者升級(jí)前的網(wǎng)管備份腳本,據(jù)此制作業(yè)務(wù)恢復(fù)腳本,重新刪除和配置全網(wǎng)交叉。
建議與總結(jié)
1、定時(shí)巡檢,對(duì)于巡檢中發(fā)現(xiàn)的異常及時(shí)跟蹤解決,即使客戶不主動(dòng)要求解決,也要主動(dòng)推動(dòng)解決;
2、升級(jí)動(dòng)作嚴(yán)格參考升級(jí)指導(dǎo)書(shū),尤其是對(duì)于不理解的步驟,也要嚴(yán)格執(zhí)行,因?yàn)楹芸赡芫褪菍?duì)某個(gè)潛在隱患的關(guān)鍵過(guò)濾措施;
3、加強(qiáng)對(duì)產(chǎn)品知識(shí)的理解,分清楚網(wǎng)元數(shù)據(jù)備份(從FDB備份)、網(wǎng)管數(shù)據(jù)上載(從DRDB上載)、網(wǎng)管腳本備份(DRDB動(dòng)態(tài)有效數(shù)據(jù))、網(wǎng)管上同步入口(備份網(wǎng)元數(shù)據(jù)到SCC)這幾個(gè)概念的含義,故障時(shí)及時(shí)找到有效數(shù)據(jù)。
4、升級(jí)嚴(yán)格遵守流程做各種備份,以備萬(wàn)一之需。