當前位置:
首頁 > 最新 > 華為雲運維最佳CP引領AIOps新風向

華為雲運維最佳CP引領AIOps新風向

在第九屆全球運維大會GOPS上,華為雲應用運維域首席架構師蔡小剛做了以「華為三位一體探索AIOps關鍵技術的實踐」為主題的演講,從4個方面與大家分享華為雲運維採用產學研三位一體模式促進雲管平台關鍵技術探索的實踐,涉及大規模Kubernetes容器集群的管控,Serverless環境中因果序列追蹤、多源數據的RCA分析探、聚類演算法實現網路包的Blackbox分析。

作為全球領先的雲計算服務商,華為雲提供兩大運維服務——應用運維管理(AOM)和應用性能管理(APM)服務,實現複雜雲應用的端到端性能洞察。華為雲應用運維投入持續研發,在智能AutoScaling、Serverless的調用跟蹤、基於AI的異常檢測和RCA分析、基於Clustering的Blackbox分析等方面進行了創新性探索並取得長足的進展,增強了大規模雲應用的智能運維(AIOps)能力。

華為雲應用運維域首席架構師現場分享

關於「華為三位一體探索AIOps關鍵技術的實踐」的演講

大規模K8S容器集群的管控

華為已經在試驗環境中成功驗證了百萬容器級別的管控。由於容器集群的計算資源異構、網路虛擬化、集群類型多樣、秒級擴縮容等導致的複雜性,以及客戶應用技術棧的多樣性(比如微服務化、Serverless化、基礎組件服務化)導致的複雜性,對管控提出了兩方面的要求:一是滿足平台自身的OM運維;另外一方面要滿足部署在平台上的客戶應用系統的運維訴求。華為雲應用運維域針對性設計實現了應用及資源模型化---Inventory建模,實現了傳統意義上的CMDB和OSLC的能力,把基礎設施和應用映射起來,為跨資源、跨層面的關聯提供了現實可能。

容器彈性伸縮Auto-Scaling的決策來自華為雲運維服務,除了預定義的scaling外,還實現了機器學習演算法的Auto-Scaling,為複雜的大規模應用提供更智能的選擇,最大化節省客戶資源成本開銷。

除了上述兩點,華為雲應用性能管理(APM)和應用運維管理(AOM)還實現了開箱即用的性能數據採集、在線感知和計算、異常告警、應用拓撲、調用鏈分析等功能,結合華為雲性能測試服務(CPTS)、大數據智能分析等生態服務,實現對應用運維的端到端性能洞察。良好的雲原生分散式架構成功解決了海量數據、大規模應用部署帶來性能下降的挑戰。

大規模容器應用管控 — 支撐工具及生態環境

Serverless環境中因果序列追蹤

Serverless使得開發者無需關注基礎設施,只用聚焦業務邏輯並進行簡單部署就可以完成,提供了快捷的開發方式。這也意味著APM for Serverless是一個全新的子領域,需要一種針對性的應用性能跟蹤、評估的機制。華為雲聯合美國加州大學教授,對Serverless場景進行深入研究,採用Go語言,對分散式日誌記錄系統Chariots的理論進行了實現和擴展:GoChariots。它本質上是在logging之前通過隊列排序,按照因果順序(Causal Order)依次追加日誌記錄。

通過為Serverless和微服務雲應用程序提供因果順序跟蹤,並且可以跨雲(不與特定雲服務商綁定)。它可以以複製模式運行,因此跨數據中心應用程序可以與最近的副本進行通信,大大降低了通信開銷,提高了可用性和進度。由於SDK使用HTTP POST將事件發送到後端,因此對function的開發語言沒有約束。

另外,結合AWS Lambda環境,華為雲開發了GammaRay,基於第三方開源AWS Instrument SDK for Python(Fleece)庫埋點,驗證了Causal Order Tracking(COT)理論。GammaRay是對X-Ray的擴展,只適用於AWS Lambda調用關係分析。

(具體細節參考華為在IC2E的full paper: Tracking Causal Order in AWS Lambda Applications。)

多源數據的RCA分析探索

根因分析RCA已經是個老話題了,單點技術不斷進步完善、積累和突破,但仍然是森林中的「樹」,為了避免盲人摸象的問題,必須進行全面的分析。

一個複雜系統中,一旦故障的發生會引起連鎖反應,直接體現就是故障的傳導鏈。在此場景中,首先要解決異常檢測(anomaly detection);其次要解決問題的定界定位(RCA:root cause analysis)。針對異常檢測,除了傳統靜態閾值比較,華為雲還開發了基於時序數據分析的動態閾值,典型的有ARIMA演算法等。大部分情況下,利用APM的應用拓撲、事務分析就能發現性能瓶頸或者問題。為了更全面的分析,華為雲聯合歐美大學教授和華為海外專家一起利用ML對調用鏈數據做了深層次的數據分析。如在多個時序變數預測的單一事件場景中,採用了隱馬爾科夫模型(HMM:Hidden Markov Model),在工程實現中結合APM中的Inventory數據、拓撲數據和調用鏈數據來確定事件依賴關係,從而發現故障傳導鏈。當前我們還在合作研究驗證無監督機器學習應用在日誌、指標的實時Stream關聯分析與預警。

聚類演算法實現網路包的Blackbox分析

在業務通用的兩種主流分散式追蹤技術採集方案代碼侵入式埋點和非侵入式探針外,華為雲開發一種全新的用非侵入式方法來實現調用拓撲級別的分析。數據採集工具vProbe支持識主流的應用協議,通過旁路監聽網路獲得數據。數據只涉及基礎的性能數據,不涉及業務或者隱私方面的數據(必要時採取數據脫敏措施)。

在BlackBox分析研究中,學術界有很多研究,但是其工程實現遠遠滿足不了產品級別要求。華為雲不斷嘗試創新方法,經過理論分析和原型推導驗證,最後利用Hierarchical Clustering實現了服務之間的因果路徑推導,準確率基本達到了90~95%以上,與基於Whitebox方法得到的應用拓撲基本一致,區別在於不能做到單一transaction的性能追蹤,但對整個應用的性能態勢感知和瓶頸識別已經完全可以滿足問題的及時告警和定界定位。

我們相信雲計算及其應用運維,單純的人海戰術已經失靈,而DevOps、AIOps和NoOps是必然選擇。此路漫漫其修遠兮,同道攜手上下求索……


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

穿衣搭配:初春簡約日常搭配示範,職場通勤必備!
你需要正能量嗎?

TAG:全球大搜羅 |