當前位置:
首頁 > 最新 > 這次80萬用戶斷連的事故,我們分析本可以通過兩片膠布避免

這次80萬用戶斷連的事故,我們分析本可以通過兩片膠布避免

近日,網上流傳廣西移動9月8日華為核心網設備升級發生事故,造成了約80萬2/3/4G用戶9個小時左右無法接打電話的影響。看過那張流傳的故障報告單後,我們分析這其實是一起人為操作不規範造成的事故,而這個事故本可能通過兩篇帶顏色的膠布避免的。

事故經過簡單概括

從故障報告單上看到,本次事故發生的原因在於本來應該對同設備甲的A板卡進行的操作放到了B板卡上面,導致設備甲上的用戶數據被清除;

並且更可怕的是在做完設備甲的操作後並沒有經過業務波測就立馬對互為備份的設備乙進行操作,還發生了相同的錯誤,然後設備上備份的用戶數據也被清除了。

如何避免這樣的錯誤

這樣的事故既然已經發生,我們旁人也不能對此說上什麼或者做點什麼,唯有從其中吸取教訓,規範我們日後的生產勞動。我們能從中學到什麼呢?

筆者的監理生涯中曾經也經歷過幾次類似的事情,只是沒有造成這樣嚴重地後果或者及時發現問題避免了事故的發生。舉其中一個例子:

背景:由於需要對現網設備擴容新的板卡,電源模塊功率不足,需要更換更大功率的電源模塊(2500W升級至4000W)。設備使用交流電,從架頂配電單元取電,同架內還放滿了其他設備也是從同一架頂配電單元取電。

升級方案:將舊的電源模塊下電從設備里挨個抽出來,然後再把新的大功率電源模塊插進設備後上電。一台設備有兩個互為主備的電源模塊,先升級二平面設備的備路電源模塊,沒問題再升級二平面設備的主路電源模塊;二平面設備升級完再對一平面設備電源模塊升級。

事件經過:某個凌晨對這對思科設備進行電源模塊升級,二平面的取電端子(空開)分別是A3A5、B3B7,這些序號被印在保護面板上。操作前,施工人員將覆蓋在空開上的保護面板拆了下來,然後開始對舊的電源端子下電操作——下空開。施工單位有一個員工甲拿著萬用電錶蹲在設備前測試,另外一個員工乙聽他指揮打開關。甲沒注意到A路和B路不對稱,喊順嘴命令乙把B5空開給關了,剛好B5空開連著的是一個單路取電的流量監控設備,被乙給關了。

事故發生後,筆者立馬向建設單位項目經理進行了彙報,他當時就重點對筆者說了一件事:你們操作前為什麼不對將要被操作的端子進行標記?剪幾條帶顏色的膠帶貼到空開上,是不是就可以避免這次事故了!主管的這個方法讓我印象很是深刻,後來應用到一次大型割接需要操作列頭櫃的時候,避免了這兩位施工人員的再次犯同樣的錯誤。

所以,一看到這份事故報告的內容,筆者就猜測被操作混了的A板卡和B板卡可能一個是從左往右數的X數槽位,另外一個可能是從右往左數的X數槽位,不細緻的話確實是有可能弄錯的。然後立馬就想起了以前經歷過的那次事:如果操作前,廠家督導能夠對被操作的板卡進行一下標記是不是就可以避免出現這樣的錯誤?至於將同樣的錯誤複製到另外一台設備上的事情,這本身就是割接方案的漏洞或者沒有嚴格執行割接方案,本次不探討這個問題。

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 通信一哥們 的精彩文章:

TAG:通信一哥們 |