因誤開 IDC 滅火器,導致 Azure 在歐洲罷工超過 7 小時!
北歐Azure存儲相關事件之根本原因分析(RCA)
微軟近日解釋了一連串故障事件導致北歐的一些Azure客戶在近7個小時的時間內無法訪問其服務。
影響概述:2017年9月29日協調世界時(UTC)13:27至20:15,由於一個存儲可擴展單元(storage scale unit)無法正常使用,北歐的一部分客戶在連接或管理該地區託管的資源方面遇到了困難。依賴該地區受影響的存儲資源、因此受拖累的服務包括:虛擬機、雲服務、Azure Backup、App ServicesWeb Apps、Azure Cache、Azure Monitor、Azure Functions、Time Series Insights、Stream Analytics、HDInsight、Data Factory、Azure Scheduler以及Azure Site Recovery。
客戶影響:一部分存儲資源不可用,這導致相關的虛擬機關閉,以確保數據持久性。一些Azure Backup保管庫在故障持續的這段時間內不可用,從而導致備份和恢復操作失敗。Azure Site Recovery可能無法故障切換到最新的恢復點或無法複製虛擬機。HDInsight、Azure Scheduler和Azure Functions可能遇到了服務管理和作業故障,資源無不依賴受影響的存儲可擴展單元。Azure Monitor和Data Factory遇到了依賴這個可擴展單元的管道方面的延遲和錯誤。Azure Stream Analytics作業停止處理輸入及/或生成輸出持續了幾分鐘。Azure Media Services的數據流請求、上傳和編碼出現了故障和延遲。
解決方法:將虛擬機部署到配備託管磁碟的可用性集(Availability Sets)提供了彈性,可以為基於虛擬機的工作負載防範重大的服務影響。
根本原因和緩解方法:在一次常規的定期滅火系統維護期間,發生了意外釋放惰性滅火劑的情況。滅火機制被觸發後,它開始自動關閉空氣處理單元(AHU),這是為火勢控制和安全設計的系統。雖然數據中心裏面的情況得到了重新確認,AHU也重新啟動,但受影響滅火區的隔離區的環境溫度還是高於正常的運行參數。由於受到內部散熱監測機制的觸發,受影響區域的一些系統自動關閉或重新啟動,防止這些系統過熱。觸發惰性滅火劑滅火在第一時間就知道了,在隨後的35分鐘內,所有AHU恢復正常,環境溫度恢復到了正常的運行水平。數據中心設施的電源在這次事件中沒有受到影響。所有系統已恢復到完全正常的運行狀態,在調查意外釋放惰性滅火劑期間,進一步的系統維護已被暫停。由於上述事件的性質以及受影響滅火區的隔離區域的散熱情況方面的差異,一些伺服器和存儲資源沒有以一種受控的方式關閉。因此,需要另外的時間來排查故障,並恢復受影響的資源。一旦可擴展單元達到了所需的運行節點數量,客戶就看到情況得到逐漸而穩步的改善,直到20:15 UTC完全解決了故障,這時存儲和相關服務都已完全恢復過來。
後續步驟:我們對於給受影響的客戶帶來的影響深表歉意。我們在不斷採取措施改進微軟Azure平台和我們幫助確保此類事件將來不會發生的流程。在這裡,這包括(但不僅限於):滅火系統維護分析繼續開展,設備工程師查明意外釋放惰性滅火劑的原因,並且減小再次發生的風險。針對這種場景下的存儲資源,工程團隊繼續調查故障情況和恢復時間方面的改進。隨著重要的調查和分析工作深入開展下去,我們會在10月13日周五之前發布該RCA的補充信息。
※銀行業的競爭生存取決於人工智慧
※運維危矣?Oracle 發布「自動駕駛」的資料庫 18c
※蘋果向 ARM 處理器開放 iOS和macOS 內核
※AI 接管我們的工作,唯有程序猿還有機會!
TAG:雲頭條 |