Cloudflare宕機導致全球大癱瘓，官方回應系軟體部署不當

科技 07-04

北京時間7月2日21:50分左右，Cloudflare經歷了一次全球性的網路宕機，用戶訪問使用了Cloudflare的網站出現502錯誤，直接導致 Huobi OKEx Bitfinex Coinbase BigONE CoinMarketCap 全掛了。更為諷刺的是通常用於檢查 Web 服務中斷的 DownDetector 站點也受到了影響。

受本輪宕機事件影響，加密貨幣交易所 CoinDesk 顯示了不正確的報價，錯誤地將比特幣價格壓低到了 26 美元（BTC 在今年 6 月份飆到了 10000 美元以上）。

Cloudflare 首席執行官 Matthew Prince 在某條推特底下表示，本輪宕機事件並非黑客攻擊所引發，而是伺服器超載了。他寫到：「由於 CPU 使用量激增，導致主系統和備份系統出現了崩潰」。

隨後Cloudflare 公司在博客文章上證實了其首席執行官的說法。該公司在 HTTP502出錯事件報告發布一小時後、在網路性能問題修復30分鐘後進行了更新，並表示，Cloudflare在新的Web應用層防火牆(WAF）中部署了一個配置錯誤的規則，且這些規則一次性在所有節點上部署，其中一條規則包含的正則表達式導致了其在全世界各地的機器 CPU 佔用 100%，從而導致了全球大面積宕機。Cloudflare工程師已經在第一時間修復了此問題，目前Cloudflare相關服務已恢復正常。

因為WAF規則是由自動化測試套件在模擬模式下進行，它順利通過了測試，並被一次性同步推送全球CDN節點上應用部署，因此導致全球集群機器上的CPU峰值達到100%。這100%的CPU峰值最終導致了大量用戶訪問時看到的502錯誤。在最糟糕的時候，覆蓋了總體流量的82%。

值得一提的這是Cloudflare公司最近經歷的第二次網路中斷問題，儘管其在6月24日經歷的 BGP 路由泄漏是由Verizon 和Noction 引發的。

Cloudflare 公司的首席執行官表示，BGP 路由泄漏難以修復，因為 Cloudflare 團隊無法在中斷期間聯繫 Verizon NOC。

鑒於超過1600萬家網站都在使用Cloudflare 公司的 DDoS 緩解措施、性能提升和多種其它服務，因此 Cloudflare 網路中斷通常會對整個互聯網造成巨大影響。

Cloudflare 稱，這起事故暴露了它測試的不充分，他們將檢查和修改測試流程，避免以後發生類似的事故。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雲有料 的精彩文章:

※即刻伺服器今日中午又雙叒叕崩了！網友：再崩卸載
※IDC最新預測，2023年智慧城市支出達1895億美元

TAG:雲有料 |