當前位置:
首頁 > 最新 > 「22·25」3號線控制中心 OTN 節點箱

「22·25」3號線控制中心 OTN 節點箱

重要故障分析報告

南京地鐵運通號分公司 第 3 期 2018 年 年2月25日

「22·25 」3號線 控制中心 OTN 節點箱

2 月 25 日 19:16,3 號線控制中心 11 號 OTN 節點箱故障,造成

3 號線部分車站無線、專用電話業務停用。現場人員重啟 11 號節點箱

並對部分車站無線和專用電話業務重新載入後,所有故障現象消除,

設備全部恢復正常。

一、事件經過

19:16 3 號線通信網管班(以下簡稱「網管工班」)值班人員徐靜

發現無線系統、專用電話系統和傳輸系統網管不斷出現告警,告警現

象和內容如圖 1、圖 2、圖 3 所示。根據告警內容初步判斷,傳輸系

統存在業務通道故障,導致控制中心和車站無線和專用電話系統通信

中斷。

圖 1 傳輸網管告警

圖 2 專用電話網管告警

圖 3 無線網管告警

二、故障影響

故障導致全線部分車站無線系統、專用電話系統 2 小時無法使用,

直接影響行車調度員與電客車司機和車站值班員的正常通話。

三、處理經過

19:18 網管工班值班人員徐靜核對告警內容,確認無線和專用電話的告警都為 2M 鏈路中斷告警,均與傳輸系統有關,判斷主要告警由傳輸系統引起,立即通知傳輸系統分管工程師海燕。

19:25 網管工班當班人員徐靜、張萬陽進一步核對告警詳細內容,發現出現告警的業務通道全部與南京南控制中心的 11 號 OTN 節點箱 E1-24P 板卡有關,所以進入通信設備房,檢查 11 節點箱硬體設備狀態,如圖 4 所示,根據指示燈狀態顯示,11 號節點箱硬體狀態正常,並將這一現象反饋工程師海燕。

圖 4 故障時 11 號 OTN 節點箱工作狀態

19:35 徐靜通過傳輸系統網管對 11 號 OTN 節點箱 7 槽位的 E1業務通道重新載入,載入後故障沒有恢復。

19:40 徐靜通過傳輸系統網管對 11 號 OTN 節點箱 8 槽位的 E1業務通道重新載入,載入後故障同樣沒有恢復。

19:45 由於軟體重新載入業務無效,現場處理人員研究決定,更換 E1-24P 板卡。張萬陽首先更換了 11 號節點箱 7 槽位 E1 板卡後,業務有短時間恢復,但之後再次出現告警。

20:00 張萬陽更換 11 節點箱 8 槽位 E1 板後,並通過傳輸系統網管重新載入板卡業務,故障沒有恢復。

20:20 網管工班員工唐玉傑趕到現場支援,並查看傳輸系統告警信息,發現告警內容中有少量其它類型業務板卡的瞬間告警存在,如圖 5 所示。

圖 5 11 號節點箱 ET100DAE 板卡告警提示

20:35 唐玉傑再次重新載入 11 號節點箱 7 槽位和 8 槽位的 E1 業務。在操作過程中發現,在對所有業務 Unload 操作的過程中,部分業務依然處於 Load 狀態,Unload 操作無效。

20:50 基於上述現象,現場參與搶修的人員研究決定對控制中心11 號節點箱進行重啟。

21:00 到達現場並參與搶修的網管工班長周望望,對 11 號節點箱進行硬體重啟操作。

21:10 11 號節點箱重啟完畢,傳輸網管告警逐步全部恢復。但仍有個別車站無線系統和專用電話系統告警尚未恢復。

21:20 3 號線通信正線班人員保障配合人員重啟無線集群基站,但業務依舊沒有恢復。

21:25 工程師海燕在傳輸網管依次重新載入故障未恢復的 E1 業務通道,業務開始逐步恢復。

21:35 現場測試無線、專用電話業務已全部恢復正常,通話全部正常,並回復生產調度故障處理完成,設備恢復正常工作。

四、故障原因分析

1、BORA 板卡軟體卡死

根據故障現象和各系統網管告警日誌內容,本次故障的原因為 3號線通信傳輸系統控制中心第 11 號 OTN 節點箱公共控制邏輯(BORA)板卡軟體卡死,導致數據發生異常錯誤,進而引發該節點箱所有業務中斷,由於 2M 業務告警提示比較明顯,所以主要發現為2M 通道故障。

圖 6 11 號節點箱板卡分布

圖 7 OTN 節點箱內部工作原理示意圖

2、值班人員對 OTN 故障處置流程理解不到位

本次故障處理時間較長,反映出員工對 OTN 故障處置流程理解不到位。由於該故障以往沒出現過,員工在沒有經驗情況下,缺乏突發故障應急處理能力,不能及時突破常規處理模式。

五、整改措施

1、督促 OTN 系統廠家儘快出具 BORA 板卡軟體卡死原因的故障分析報告。

2、要求 OTN 系統廠家提供此類故障的權威性故障處理維修手冊,以提高現場搶修效率,減少故障影響時間,同時後續還會繼續要求廠家人員定期提供非常見故障的維修手冊,供技術組和班組學習。

3、技術組根據廠家提供的維修手冊完善 OTN 節點箱的故障處理指南,利用故障處理指南對現場員工進行培訓。

4、加強班組人員故障處理期間的配合默契,強調工作群信息回復的及時性和重要性,避免信息回復不及時而導致的信息中斷。

GIF


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 珠江路OCC通信網管班 的精彩文章:

TAG:珠江路OCC通信網管班 |