張真：AIOps六大技術難點與宜信運維的重大變革

最新 03-31

運維發展歷程與工業革命異曲同工，工業的三次革命分別是機械化、電氣化與信息化，運維則是原始手工、腳本與自動化工具。那麼工業4.0悄然來臨的今天，智能化又將會給運維帶來哪些影響？AIOps早期是由Gartner提出，原義是基於演算法的IT運維，隨實踐、反思和討論的不斷積累，對它的認知發生了一些變化。

隨著人工智慧技術的發展，基於人工智慧的IT運維越來越被普遍認可，所以AIOps如今被解讀為Artificial Intelligence for Operations。近日，宜信研發總監，接受了51CTO的專訪，核心圍繞AIOps技術難點，金融行業AIOps應用現狀與宜信運維的重大變革展開。

張真·宜信研發總監

什麼如何理解AIOps？

要理解AIOps，首先要弄懂與DevOps之間的關係。張真表示，AIOps可以看成DevOps的高級階段，AIOps不是要完全取代成熟的DevOps工具鏈，而是給DevOps工具鏈裝上「大腦」，將人工決策驅動的運維過程轉型成系統自主決策驅動的過程，所以與DevOps工具鏈深度集成是落地AIOps的必由之路。

用一個形象的比喻，可以把AIOps看成運維的「鋼鐵俠」模式，系統不再是簡單的工具，而是像鋼鐵俠戰甲一樣可以協助甚至獨立自主的完成任務。

所以，AIOps其實就是將AI技術應用到IT運維領域，提升效率和創造現實價值的「工程化」過程。既然是AI的工程化過程，就需要務實的看待AI技術，需要選擇合適的AI技術去解決有效的運維場景，例如智能報警，智能巡檢，智能上線，智能自愈等等。

AIOps的六大技術難點

理解AIOps之後，我們來看看AIOps的技術難點。這部分，張真從六方面進行了闡述：

AI「工程化」的複雜性

目前，機器學習是AIOps的重要手段，其他還有自然語言處理，高級搜索，知識圖譜等，也需要綜合應用到這個領域，才能達成實際「工程化」的落地效果。換言之，把AIOps認為就是演算法落地是片面的。

不僅如此，為了解決特定場景的問題，可能還要「借鑒」或「移植」其他領域的技術和方法，如宜信在實踐中從IoT領域受啟發創立的「微智能」方法，結合知識圖譜，建立微智能知識圖譜技術。

如何獲取高質量，高時效的監控數據

演算法的運用是以數據為前提的，儘管經典監控架構已經可以覆蓋Metrics，Logging，Tracing三大類數據，但由於每種數據都是各自一套系統捕獲，歸集，存儲，使得數據的時效，對齊，品控的標準難以一致。

此外數據格式也可能差異很大，在經典大數據架構下，還要經過清洗，格式轉換，面對海量數據時，時效就會進一步下降。

多維度數據的關聯難度大

經典監控架構由於採集不統一，即便Metrics也可能來自不同的監控系統，例如面向網路監控，面向主機監控，面嚮應用監控可能就是三套不同的系統，更不用說Logging，Tracing的數據，這就造成了多維度數據的關聯難度大。

除時效外，可實時關聯的數據是系統能夠「接近」甚至「達到」專業人員的任務決策能力的另一個關鍵。

機器學習模型的訓練困境

智能運維運用機器學習的重要目標之一就是能夠識別故障特徵。但是運維SLA的目標是保證系統可用性99.9...%。這樣的矛盾造成故障在實際運行過程中儘管時有發生，但相對於機器學習需要的樣本實在是太少。

目前，宜信解決方案是建立一套與生產相同的模擬環境，它是樣本收集，也是訓練模型的場所，當然即便如此，也有模擬環境的局限性，有些場景也難以模擬。

如何實現運維場景的實時感知

運維的時效性也要求系統的感知足夠充分，這裡不僅僅是監控數據，之所以運維人員比系統有更強的判斷力，在於他們掌握了更充分的運維場景的信息，例如他們清楚網路架構，設備之間的關聯關係，物理機/虛擬機分布，應用關聯關係，應用技術棧，甚至業務用途等，它們是問題定位，根因分析，影響評估的基礎，所以這些信息也要能被實時感知起來，而這一塊在傳統監控中是缺失的。

遺留技術棧，混合架構增大複雜性

不管金融行業，還是其他行業，只要不是新企業，都面臨大量的遺留系統，它們在技術棧，架構上可能存在很大差異。因此對它們的感知，數據採集需要額外的投入。

另一方面，如果遺留系統還在不停的引入新的業務需求，會進一步引入新的複雜性。

AIOps於金融行業的應用現狀

當問及AIOps於金融行業的應用現狀如何，張真表示，智能運維目前是處於從初創走向成熟的階段，但其應用範圍還與行業特點相關，不同行業在運維模式上存在差異，這些差異會影響落地進展。金融行業還處於智能運維的早期試驗階段，這與金融行業的特點息息相關。

一方面，金融行業是傳統行業的代表，也包括互聯網金融企業，都需要嚴格落實合規，安全，法務，流程等，所以對智能運維帶來的新技術需要更長時間的適應；

另一方面，多數金融企業的基礎平台，如監控，發布，CMDB，安全管控等，甚至包括支持金融業務的系統，建設已有很長時間，在技術棧，架構，部署，組織運作等層面都需面臨面向智能運維的轉型，這種轉型是帶有變革性的。

目前業內有切身痛點，同時又具備相關技術研發能力的企業會較早進入智能運維初級階段，宜信也是其中之一員。2017年9月，宜信開源了支撐AIOps的三大利器，也希望能夠促進AIOps在金融領域的發展。

宜信運維的重大變革

羅馬非一日建成，宜信運維也是從手工運維一次次變革，迭代到當下智能運維時代。宜信運維的重大變革大致可分為手工、自動化、DevOps工具鏈、基於全維監控移動化與智能運維五大階段。

手工運維時代

手工運維時代是人力+計算機腳本的模式，例如資產管理靠人工錄入，數據準確性完全依賴流程；應用打包依靠人工觸發，然後上傳到生產環境；應用部署依靠人工輸入命令或運行腳本完成；監控只能看到最基本的幾個指標；運維協作依賴於「人找人」等等，這個階段稱為「石器時代」。

自動化運維初期

自動化運維初期是人力+專業系統的模式，每一種專業系統覆蓋一個運維領域。例如建立了監控系統，提升了運維的監測效率；資產管理系統幫助提升資產管理的效率；持續集成系統幫助管理代碼，Build以及版本等；發布系統實現應用部署的遠程發布等等。

這個階段是運維的工業革命時代，效率被提升，同時也要注意到專業領域的系統其實是「割裂」的，人力依然是核心的驅動力。

DevOps工具鏈建設期

DevOps理念的發展以及相關開源工具幫助建設DevOps工具鏈，這個時期的明顯特徵是通過DevOps工具鏈的建設從需求，開發，Build，測試，集成到發布/回滾的端到端流程被打通，開發，測試，運維的協作被較好的解決。

這個時期也伴隨了人員技能，團隊運作模式的轉型，例如功能測試人員逐步被自動化測試平台取代，他們會轉型為測試平台的研發和運維。開發人員不再只關注開發，藉助自動化測試，CI/CD等可以實現自助式的測試，打包，上線/回滾，開始關注測試和運維過程。運維人員也不再只是被動接受工單，開始關注應用質量以及流程事件跟蹤。

當然，這個時期的監測，管控，安全，運維處理等還是依賴人力+專業系統的模式。

基於全維監控的移動化運維

這個階段還是自動化運維的範疇，但事實上宜信已經啟動了智能運維的建設，把它分為三個台階：全維監控，全維關聯和全維智能。全維監控是基石，之所以強調全維，正是對前面難點中提到的「高質量，高時效的監控數據」和「運維場景的實時感知」的應對理念。

一方面，全維監控宜信重構了整個監控運維體系，使用統一監控系統採集Metrics，Logging，Tracing數據。同時在這個基礎上補充了Profiling（畫像）數據，它可以看成將用戶端到數據中心，以及數據中心內部的數字投影，這使得系統可以感知與人類相同甚至更加細粒度的「現實」場景。

另一方面，為了解放人員的「視野」，移動化運維模式也引入進來，這需要監控體系能夠支持這種工作模式，使包括業務，開發，測試，CI/CD，運維等所有人都可通過移動設備隨時監控，排障，甚至處理各種事件。

智能運維建設期

當前，宜信正處在智能運維建設階段，是人工智慧技術的綜合應用時期。全維關聯，是將全維的監控數據和畫像數據完整的，高時效的關聯在一起。

一方面可以支持更快更好的自動化運維；另一方面，也夯實智能運維的第二個基石，使得系統可以全面地使用這些數據來實現協助甚至自主決策的運維。

在這個階段，任務機器人（AI-Mission Robot,也叫運維機器人）系統被建設起來，並初步具備了「智能」。同時，這個階段也促進了團隊運作方式的進一步轉型，從單鏈條的協作方式逐步轉向以系統為中心的多維協作，系統為所有人提供客觀的，統一的視圖，也為各種事件處理提供執行計劃、協助建議、甚至主動決策與實施。

張真表示，智能運維建階段是最具顛覆與飛躍性的迭代，目前已經在一些場景下落地：

全維智能—宜信運維的未來規劃

當問及宜信運維的下一步規劃，張真表示，會很快迎來第六階段：全維智能。主要發力如下三方面：

不斷提高任務機器人的決策準確性。這裡需要更多的數據積累，模型調試和整合，也需要嘗試更多的技術和方法，使得它的「智能」更加接近專業人員。

不斷提高任務機器人的學習能力。機器學習需要大量的訓練工作，目前「離線」訓練還是主流的方法，但是線上環境「千變萬化」，需要將這種「學習」逐步推向「線上」；此外，需要使用「更少」的數據獲得「更多」的判斷力，概括來說就是實現「小數據，大任務」的模式。這裡看似矛盾，其實因為運維的時效要求，訓練數據越多自然效果越好，但是也意味著訓練時間越長，這也是一個更大的技術挑戰，。

不斷提高任務機器人的通用性。儘管宜信已經在一些場景下取得進展，但是還沒有覆蓋運維的所有場景，需要不斷發展新技術來適應更多的場景。更大一點說，不同行業的運維模式也是有差異的，如何通過一套系統的方法，甚至一套產品化的系統來應對不同行業的運維場景，也是一個挑戰。

張真老師，是5月18-19日，於北京·粵財JW萬豪酒店即將舉行的2018WOT全球軟體與運維技術峰會重量級嘉賓，分享的議題是「運維機器人之任務決策系統演進之路」，亮點內容內容搶先看：

首先，從總體分享UAVStack的智能研發/運維一體化路線藍圖，如前面提到，宜信智能化之路分為三個階段：從全維監控到全維關聯，最後到全維智能。

接著，分享運維機器人相關內容。運維機器人是全維關聯，全維智能兩個階段的核心，而其任務決策系統又是其「大腦」的「智能」重要組成之一。宜信運維機器人又叫任務機器人（AI-Mission-Robot），從類人行為上，它有兩種基本行為模式：任務驅動和自主驅動。

任務驅動是接受來自人的指示而採取行動；

自主驅動是人給定目標，它自主規劃達成目標的方案並採取行動。

無論是那種模式都依賴於任務決策系統。

議題會從宜信實踐出發，闡述任務決策系統的關鍵原理，架構演進，典型場景的應用剖析。

開發者可以從張真對任務機器人「大腦」聚焦和深入的剖析，從中獲得如下一些啟發：

從任務決策系統的架構演進，來共同探討任務機器人的「智能」是如何「被創造」。

從任務決策系統的「任務驅動」技術演進，來討論自然語言是如何被「映射」成一個系統的API並被準確執行。

從任務決策系統的「自主驅動」技術演進，來深入了解任務機器人是如何做到「發現問題，定位問題，分析問題」。