當前位置:
首頁 > 最新 > 張真:AIOps六大技術難點與宜信運維的重大變革

張真:AIOps六大技術難點與宜信運維的重大變革

運維發展歷程與工業革命異曲同工,工業的三次革命分別是機械化、電氣化與信息化,運維則是原始手工、腳本與自動化工具。那麼工業4.0悄然來臨的今天,智能化又將會給運維帶來哪些影響?AIOps早期是由Gartner提出,原義是基於演算法的IT運維,隨實踐、反思和討論的不斷積累,對它的認知發生了一些變化。

隨著人工智慧技術的發展,基於人工智慧的IT運維越來越被普遍認可,所以AIOps如今被解讀為Artificial Intelligence for Operations。近日,宜信研發總監,接受了51CTO的專訪,核心圍繞AIOps技術難點,金融行業AIOps應用現狀與宜信運維的重大變革展開。

張真·宜信研發總監

什麼如何理解AIOps?

要理解AIOps,首先要弄懂與DevOps之間的關係。張真表示,AIOps可以看成DevOps的高級階段,AIOps不是要完全取代成熟的DevOps工具鏈,而是給DevOps工具鏈裝上「大腦」,將人工決策驅動的運維過程轉型成系統自主決策驅動的過程,所以與DevOps工具鏈深度集成是落地AIOps的必由之路。

用一個形象的比喻,可以把AIOps看成運維的「鋼鐵俠」模式,系統不再是簡單的工具,而是像鋼鐵俠戰甲一樣可以協助甚至獨立自主的完成任務。

所以,AIOps其實就是將AI技術應用到IT運維領域,提升效率和創造現實價值的「工程化」過程。既然是AI的工程化過程,就需要務實的看待AI技術,需要選擇合適的AI技術去解決有效的運維場景,例如智能報警,智能巡檢,智能上線,智能自愈等等。

AIOps的六大技術難點

理解AIOps之後,我們來看看AIOps的技術難點。這部分,張真從六方面進行了闡述:

AI「工程化」的複雜性

目前,機器學習是AIOps的重要手段,其他還有自然語言處理,高級搜索,知識圖譜等,也需要綜合應用到這個領域,才能達成實際「工程化」的落地效果。換言之,把AIOps認為就是演算法落地是片面的。

不僅如此,為了解決特定場景的問題,可能還要「借鑒」或「移植」其他領域的技術和方法,如宜信在實踐中從IoT領域受啟發創立的「微智能」方法,結合知識圖譜,建立微智能知識圖譜技術。

如何獲取高質量,高時效的監控數據

演算法的運用是以數據為前提的,儘管經典監控架構已經可以覆蓋Metrics,Logging,Tracing三大類數據,但由於每種數據都是各自一套系統捕獲,歸集,存儲,使得數據的時效,對齊,品控的標準難以一致。

此外數據格式也可能差異很大,在經典大數據架構下,還要經過清洗,格式轉換,面對海量數據時,時效就會進一步下降。

多維度數據的關聯難度大

經典監控架構由於採集不統一,即便Metrics也可能來自不同的監控系統,例如面向網路監控,面向主機監控,面嚮應用監控可能就是三套不同的系統,更不用說Logging,Tracing的數據,這就造成了多維度數據的關聯難度大。

除時效外,可實時關聯的數據是系統能夠「接近」甚至「達到」專業人員的任務決策能力的另一個關鍵。

機器學習模型的訓練困境

智能運維運用機器學習的重要目標之一就是能夠識別故障特徵。但是運維SLA的目標是保證系統可用性99.9...%。這樣的矛盾造成故障在實際運行過程中儘管時有發生,但相對於機器學習需要的樣本實在是太少。

目前,宜信解決方案是建立一套與生產相同的模擬環境,它是樣本收集,也是訓練模型的場所,當然即便如此,也有模擬環境的局限性,有些場景也難以模擬。

如何實現運維場景的實時感知

運維的時效性也要求系統的感知足夠充分,這裡不僅僅是監控數據,之所以運維人員比系統有更強的判斷力,在於他們掌握了更充分的運維場景的信息,例如他們清楚網路架構,設備之間的關聯關係,物理機/虛擬機分布,應用關聯關係,應用技術棧,甚至業務用途等,它們是問題定位,根因分析,影響評估的基礎,所以這些信息也要能被實時感知起來,而這一塊在傳統監控中是缺失的。

遺留技術棧,混合架構增大複雜性

不管金融行業,還是其他行業,只要不是新企業,都面臨大量的遺留系統,它們在技術棧,架構上可能存在很大差異。因此對它們的感知,數據採集需要額外的投入。

另一方面,如果遺留系統還在不停的引入新的業務需求,會進一步引入新的複雜性。

AIOps於金融行業的應用現狀

當問及AIOps於金融行業的應用現狀如何,張真表示,智能運維目前是處於從初創走向成熟的階段,但其應用範圍還與行業特點相關,不同行業在運維模式上存在差異,這些差異會影響落地進展。金融行業還處於智能運維的早期試驗階段,這與金融行業的特點息息相關。

一方面,金融行業是傳統行業的代表,也包括互聯網金融企業,都需要嚴格落實合規,安全,法務,流程等,所以對智能運維帶來的新技術需要更長時間的適應;

另一方面,多數金融企業的基礎平台,如監控,發布,CMDB,安全管控等,甚至包括支持金融業務的系統,建設已有很長時間,在技術棧,架構,部署,組織運作等層面都需面臨面向智能運維的轉型,這種轉型是帶有變革性的。

目前業內有切身痛點,同時又具備相關技術研發能力的企業會較早進入智能運維初級階段,宜信也是其中之一員。2017年9月,宜信開源了支撐AIOps的三大利器,也希望能夠促進AIOps在金融領域的發展。

宜信運維的重大變革

羅馬非一日建成,宜信運維也是從手工運維一次次變革,迭代到當下智能運維時代。宜信運維的重大變革大致可分為手工、自動化、DevOps工具鏈、基於全維監控移動化與智能運維五大階段。

手工運維時代

手工運維時代是人力+計算機腳本的模式,例如資產管理靠人工錄入,數據準確性完全依賴流程;應用打包依靠人工觸發,然後上傳到生產環境;應用部署依靠人工輸入命令或運行腳本完成;監控只能看到最基本的幾個指標;運維協作依賴於「人找人」等等,這個階段稱為「石器時代」。

自動化運維初期

自動化運維初期是人力+專業系統的模式,每一種專業系統覆蓋一個運維領域。例如建立了監控系統,提升了運維的監測效率;資產管理系統幫助提升資產管理的效率;持續集成系統幫助管理代碼,Build以及版本等;發布系統實現應用部署的遠程發布等等。

這個階段是運維的工業革命時代,效率被提升,同時也要注意到專業領域的系統其實是「割裂」的,人力依然是核心的驅動力。

DevOps工具鏈建設期

DevOps理念的發展以及相關開源工具幫助建設DevOps工具鏈,這個時期的明顯特徵是通過DevOps工具鏈的建設從需求,開發,Build,測試,集成到發布/回滾的端到端流程被打通,開發,測試,運維的協作被較好的解決。

這個時期也伴隨了人員技能,團隊運作模式的轉型,例如功能測試人員逐步被自動化測試平台取代,他們會轉型為測試平台的研發和運維。開發人員不再只關注開發,藉助自動化測試,CI/CD等可以實現自助式的測試,打包,上線/回滾,開始關注測試和運維過程。運維人員也不再只是被動接受工單,開始關注應用質量以及流程事件跟蹤。

當然,這個時期的監測,管控,安全,運維處理等還是依賴人力+專業系統的模式。

基於全維監控的移動化運維

這個階段還是自動化運維的範疇,但事實上宜信已經啟動了智能運維的建設,把它分為三個台階:全維監控,全維關聯和全維智能。全維監控是基石,之所以強調全維,正是對前面難點中提到的「高質量,高時效的監控數據」和「運維場景的實時感知」的應對理念。

一方面,全維監控宜信重構了整個監控運維體系,使用統一監控系統採集Metrics,Logging,Tracing數據。同時在這個基礎上補充了Profiling(畫像)數據,它可以看成將用戶端到數據中心,以及數據中心內部的數字投影,這使得系統可以感知與人類相同甚至更加細粒度的「現實」場景。

另一方面,為了解放人員的「視野」,移動化運維模式也引入進來,這需要監控體系能夠支持這種工作模式,使包括業務,開發,測試,CI/CD,運維等所有人都可通過移動設備隨時監控,排障,甚至處理各種事件。

智能運維建設期

當前,宜信正處在智能運維建設階段,是人工智慧技術的綜合應用時期。全維關聯,是將全維的監控數據和畫像數據完整的,高時效的關聯在一起。

一方面可以支持更快更好的自動化運維;另一方面,也夯實智能運維的第二個基石,使得系統可以全面地使用這些數據來實現協助甚至自主決策的運維。

在這個階段,任務機器人(AI-Mission Robot,也叫運維機器人)系統被建設起來,並初步具備了「智能」。同時,這個階段也促進了團隊運作方式的進一步轉型,從單鏈條的協作方式逐步轉向以系統為中心的多維協作,系統為所有人提供客觀的,統一的視圖,也為各種事件處理提供執行計劃、協助建議、甚至主動決策與實施。

張真表示,智能運維建階段是最具顛覆與飛躍性的迭代 ,目前已經在一些場景下落地:

全維智能—宜信運維的未來規劃

當問及宜信運維的下一步規劃,張真表示,會很快迎來第六階段:全維智能。主要發力如下三方面:

不斷提高任務機器人的決策準確性。這裡需要更多的數據積累,模型調試和整合,也需要嘗試更多的技術和方法,使得它的「智能」更加接近專業人員。

不斷提高任務機器人的學習能力。機器學習需要大量的訓練工作,目前「離線」訓練還是主流的方法,但是線上環境「千變萬化」,需要將這種「學習」逐步推向「線上」;此外,需要使用「更少」的數據獲得「更多」的判斷力,概括來說就是實現「小數據,大任務」的模式。這裡看似矛盾,其實因為運維的時效要求,訓練數據越多自然效果越好,但是也意味著訓練時間越長,這也是一個更大的技術挑戰,。

不斷提高任務機器人的通用性。儘管宜信已經在一些場景下取得進展,但是還沒有覆蓋運維的所有場景,需要不斷發展新技術來適應更多的場景。更大一點說,不同行業的運維模式也是有差異的,如何通過一套系統的方法,甚至一套產品化的系統來應對不同行業的運維場景,也是一個挑戰。

張真老師,是5月18-19日,於北京·粵財JW萬豪酒店即將舉行的2018WOT全球軟體與運維技術峰會重量級嘉賓,分享的議題是「運維機器人之任務決策系統演進之路」,亮點內容內容搶先看:

首先,從總體分享UAVStack的智能研發/運維一體化路線藍圖,如前面提到,宜信智能化之路分為三個階段:從全維監控到全維關聯,最後到全維智能。

接著,分享運維機器人相關內容。運維機器人是全維關聯,全維智能兩個階段的核心,而其任務決策系統又是其「大腦」的「智能」重要組成之一。宜信運維機器人又叫任務機器人(AI-Mission-Robot),從類人行為上,它有兩種基本行為模式:任務驅動和自主驅動。

任務驅動是接受來自人的指示而採取行動;

自主驅動是人給定目標,它自主規劃達成目標的方案並採取行動。

無論是那種模式都依賴於任務決策系統。

議題會從宜信實踐出發,闡述任務決策系統的關鍵原理,架構演進,典型場景的應用剖析。

開發者可以從張真對任務機器人「大腦」聚焦和深入的剖析,從中獲得如下一些啟發:

從任務決策系統的架構演進,來共同探討任務機器人的「智能」是如何「被創造」。

從任務決策系統的「任務驅動」技術演進,來討論自然語言是如何被「映射」成一個系統的API並被準確執行。

從任務決策系統的「自主驅動」技術演進,來深入了解任務機器人是如何做到「發現問題,定位問題,分析問題」。

GIF

WOT峰會更多信息點擊原文查看

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI推手 的精彩文章:

TAG:AI推手 |