當前位置:
首頁 > 科技 > 微軟提供雲服務故障的初步報告

微軟提供雲服務故障的初步報告

至頂網軟體頻道消息: 微軟已經對9月4日影響全球客戶的故障發布了一份初步根本原因分析(RCA)報告。Azure工程團隊正在繼續調查此事件,並表示他們將在"未來幾周內"提供更詳細的分析。

微軟的官員們在這份分析報告中表示,受到影響的客戶將在10月份的賬單中,根據微軟Azure服務水平協議(Microsoft Azure Service Level Agreement)得到相應的補償。

9月4日,正如之前在博客的文章中所述,微軟在美國中南部的數據中心附近出現了一次雷擊,很多Azure服務出現了故障,需要通過Azure 動態目錄(Azure Active Directory)進行身份認證的Office 365也受到影響,此次事件的影響波及到了微軟全球的很多客戶。

微軟的分析報告總結表示,風暴導致"電力系統供應的波動,導致電壓驟升。"電壓的驟升導致一個Azure數據中心切換至發電機供電,並關閉了該數據中心的製冷系統,但該中心配備有浪涌抑制器。該數據中心仍然通過冷卻系統中與負載相關的熱緩衝器維持所需的工作溫度,但是等到緩衝器作用耗盡,溫度就出現了升高,設備就出現了自動關閉。

一些硬體在關閉之前就已經被損壞,包括"大量存儲伺服器"以及其他網路設備和電源單元。現場團隊開始嘗試恢復基礎架構,這意味著更換故障硬體,將伺服器遷移到健康的伺服器上並檢查數據是否已經損壞。

對於那些想知道為什麼微軟的數據中心沒有在故障中轉移到備份站點的人:"當時做出的決定是為了恢複數據而不是轉移到另一個數據中心,因為由於地理複製的非同步特性,故障轉移會導致部分數據丟失。"

關閉數據中心會影響許多依賴於該數據中心內存儲伺服器的Azure服務。受影響的服務包括:torage、虛擬機(Virtual Machines)、Application Insights、認知服務和自定義視覺API(Cognitive Services & Custom Vision API)、備份(Backup)、應用程序服務(以及用於Linux的應用程序服務和用於容器的Web應用程序)、用於MySQL的Azure資料庫、SQL資料庫、Azure自動化(Azure Automation)、站點恢復(Site Recovery),Redis緩存(Redis Cache)、Cosmos資料庫、流分析(Stream Analytics)、媒體服務(Media Services)、Azure資源管理器(Azure Resource Manager)、Azure VPN網關、PostgreSQL、Application Insights 、Azure機器學習工作室、Azure搜索、數據工廠、HDInsight、物聯網中心、分析服務、密鑰庫、日誌分析、Azure監視器、Azure計劃程序、邏輯應用程序、Databricks、ExpressRoute、容器註冊表(Container Registry)、應用程序網關(Application Gateway)、服務匯流排(Service Bus)、事件中心(Event Hub)、Azure Portal IaaS Experiences-- Bot服務、Azure批處理、Service Fabric和Visual Studio Team Services(VSTS)。

微軟表示"這些服務中的絕大部分在協調世界時9月5日的11:00都已經恢復了",但是也承認到了9月7日的8:40才完全解決這些問題。

為什麼美國中南部地區以外的客戶也會受到這一系列事件的影響?據該帖子稱,"Azure Service Manager的彈性不足",它採用的是"經典"資源類型的運營管理服務。微軟的高管們表示,"雖然ASM是一項全球服務,但它不支持自動故障轉移。"由於對ASM和其他相關服務的各種依賴性,美國中南部地區以外的Azure資源管理器服務也受到了影響。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 至頂網 的精彩文章:

哪種Scale out架構能更有效滿足分散式計算?-大規模負載整合基礎架構優化及實踐
谷歌、Facebook、微軟和Twitter推開源計劃 以釋放用戶數據

TAG:至頂網 |