阿里雲又宕機!
在雲界流傳著一句話:「運行不穩定,宕機兩行淚!」
這不,今天凌晨因為阿里雲宕機,不少華北互聯網公司的程序員、運維人員接到報警後從被窩爬起來幹活去了。
58一程序員如此描述今早的驚魂幾小時:「很多朋友經歷了昨晚阿里雲3小時左右的故障,我司的業務也收到了一定影響,技術的同事一起熬夜奮戰,最終觀察服務穩定運行了兩個多小時,直到凌晨五六點多才逐漸登出VPN。」[1]
對此,阿里雲官方發布公告:華北2地域可用區C部分ECS伺服器等實例出現IO HANG。針對本次故障,將根據SLA協議,儘快處理賠償事宜。
為何阿里雲宕機影響巨大?
在CSDN的2018-2019開發者大調查報告顯示,在國內公有雲市場中,阿里雲的市場占額最大,高達67%,遠超第2至5名的總和。
據阿里雲官方文檔顯示:「中國有40%的網站都運行在阿里雲上,一半獨角獸公司都在阿里雲。」
所以說,阿里雲輕微一抖動,影響中國近半數的互聯網網站啊!
「雲」非百分百靠譜,且雲且珍惜
雖然阿里雲承諾會賠償,可阿里雲故障頻出,不僅讓眾多IT人忙得人仰馬翻,還讓網友略微心寒啊:
這不僅僅是一個賠償的問題,對於客戶來說訪問不了或造成高於賠償多少倍的有形無形損失,技術方面仍然需要過硬啊!
把業務系統部署在平台上,要的就是安全、穩定和可靠,不是賠償的事兒。
甚至有人想更換一個雲商,但無論是公司自搭建伺服器平台或者各家雲商,從沒有說自己的產品是100%安全的。
阿里雲的官方文檔清楚地寫道:「對於單實例維度,阿里雲承諾一個服務周期內ECS的服務可用性不低於99.95%;對於單地域多可用區維度,阿里雲承諾一個服務周期內ECS的服務可用性不低於99.99%」。
那麼作為程序員,我們在設計系統架構時,系統的容災性必須要考慮完整:「在每一層都假設依賴的服務出故障時該怎麼應對,要麼冗餘,要麼降級,一定要考慮,不能把生命完全交給別人控制。避免單點故障,採用多台雲伺服器的時候還要考慮不同可用區,否則單個可用區也可能徹底掛掉。」[2]
參考資料:
[1]架構師之路《這一次,除了罵阿里雲,還能做些什麼?》
[2]阿里雲社區《IT之家,這不是個案》
【完】
熱 文推 薦
※那些簡歷造假拿 Offer 的程序員,後來都怎麼樣了?
※不了解沙特,那你就看不懂矽谷
TAG:CSDN |