Gartner:AIOps「智能運維」真的來了,並且是趨勢
摘要
智能運維AIOps平台結合大數據和機器學習功能來支持IT運維。I&O(基礎設施和運維/運營)領導人應該開始部署這樣的平台,以加強目前的性能監控,但計劃需要5年時間來擴展到服務台和自動化系統。
概述
關鍵發現
在過去的三年里,IT部門分別部署了大數據和機器學習技術,以支持IT運維的監控。然而,在過去的6個月里,企業開始將他們的IT運維導向的大數據和機器學習項目結合起來,並將它們擴展到服務台和自動化。
企業使用人工智慧進行IT運維(AIOps),以增強和偶爾地替代傳統的應用程序性能監視(APM)和網路性能監視和診斷工具(NPMD)。
在過去的18個月里,面向IT運營的供應商一直傾向於專註於大數據或機器學習,而收購和發展戰略的趨勢則導致了兩者結合起來的新一代平台的出現。
AIOps技術的稀缺性正在改善,一方面,大學畢業生擁有快速增長的數據科學技術,另一方面,供應商簡化了交付AIOps功能的介面。
建議
負責優化IT運維以驅動業務價值的基礎設施和運維/運營(I&O)領導者應該:
通過採用側重於歷史數據的增量方法,以增量方式確保部署AIOps功能的成功。
通過選擇能夠接收和提供日誌數據、文本數據、有線數據、指標、API數據和社交媒體派生的用戶情緒數據的AIOps平台,確保對IT系統的過去、現在和未來狀態的全面了解。
通過選擇支持有能力逐步部署IT-運維-面向機器學習的四個階段的工具,可視化和統計分析、自動模式發現、基於模式的預測和根本原因分析,來深化IT運維團隊的分析技能。
戰略規劃設想
從今天的5%起,到2022年,40%的大型企業將結合大數據和機器學習功能,支持和部分替代監測、服務台和自動化流程和任務。
市場定義
AIOps(見注1))平台是將大數據和人工智慧或機器學習功能相結合的軟體系統,以增強和部分取代廣泛的IT運維流程和任務,包括可用性和性能監視、事件相關性和分析、IT服務管理和自動化。
其核心功能是:
從各種資源中攝取數據
存儲獲取的數據
提供對數據的訪問
在以下兩方面上啟用數據分析:
數據輸入
存儲數據訪問
分析工作的目標是發現描述或能夠生成正在規劃的數據集的模式。因此,它們超越了數據本身,這些模式是新的元素,可以用來預測可能發生的事件和出現的情況,並及時向後看,以確定當前系統行為的根源(參見圖1)。
圖1 AIOps平台使IT運營管理(ITOM)能夠持續洞察
來源:Gartner(2017年8月)
市場方向
人工智慧技術在過去的20年里斷斷續續地影響了ITOM的演變(見注2),而AIOps平台只是最近的一個例子。然而,從2015年到2017年初,有可能對AIOps採取兩種截然不同的方式。在第一個方法中,一個供應商將會將對歷史數據的訪問、索引、存儲和訪問的能力打包在一起,並以最低程度的自動化程度支持基本的可視化和統計分析功能。在第二種方法中,供應商將提供一種能夠自動實時模式發現流數據的引擎。在過去的6個月里,這條線開始變得模糊。
在歷史數據管理中擁有強大地位的供應商要麼是自主開發的,要麼獲得了流數據和自動模式發現和預測功能。此外,AIOps平台傾向於擴大他們能夠消化的數據類型的範圍。特別是,在過去,僅支持記錄日誌數據的供應商現在正在擴展其範圍,以包括度量和連接數據。在Gartner對AIOps的大約500個客戶調查中,超過300個客戶表示願意擴大範圍。因此,考慮到供需兩方面的趨勢,Gartner預計,未來5年,大範圍的AIOps平台將成為交付AIOps功能的實際形式。
到目前為止,AIOps的功能主要用於支持IT運維流程,以支持監視或觀察IT基礎設施和應用程序行為。無論是採用機器學習在事件管理環境中更好地重複刪除事件,還是在應用程序性能監控環境中將應用程序日誌提取添加到基於位元組碼工具的數據收集中,AIOps平台投資幾乎總是以減少IT問題解決的平均時間的能力為目標。然而,在過去六個月中,在針對AIOps主題進行的大約500次調查中,有30次Gartner客戶表現出越來越多的使用AIOps功能,通過將大數據和機器學習應用於故障排查來提高對事件和問題的參與度,及CMDB功能,並在開發和生產之間的界面上驅動自動化。 換句話說,AIOps功能正在開始擴展,超越了監控,到了ITOM其他領域。
市場分析
到目前為止,幾乎沒有廠商提供全面的集成的AIOps平台。然而,許多供應商提供了大量的AIOps功能,其中的子集是相互集成的。為了更清楚地了解市場是如何演變的,以及供應商之間的相互關係,Gartner將現有的AIOps能力劃分為11個類別:
歷史數據管理——允許對日誌數據、線數據、指標和文檔數據進行存儲、索引和持久存儲的軟體或設備,由於所得到的資料庫大多是非結構化的,或者更優秀的,半結構化的,並且存儲的數據集本身在高容量中積累,高速變化,並根據不同的格式隱式地構造。這種歷史數據管理功能可以被合理地稱為「大數據管理」。
流數據管理——允許捕獲、可能的歸一化和索引的軟體或設備,以及在下面提到的一個或多個數據類型的實時呈現。流數據管理軟體不僅必須能夠展示傳入的數據,用戶會認為實時,但是實際上還必須提供數據給用戶,直接輸入的時候不需要持久化資料庫的訪問。
日誌數據攝取——允許從任何軟體或硬體設備生成的日誌文件中捕獲字母數字文本字元串的軟體,以及用於訪問和分析的數據的編寫,並可能為存儲編入索引。
有線數據攝取——允許從網路上的源頭直接捕獲數據包數據的軟體,所有的協議和流程信息都應該準備好進行訪問和分析,並可能對存儲進行索引。
度量數據攝取——允許直接捕獲數字數據的軟體,可以立即應用獲取數據的時間序列和更一般的數學運算。
文檔文本輸入——允許對人類可讀文檔進行輸入、解析和語法和語義索引的軟體。這可能包括使用通常被描述為自然語言處理(NLP)的技術。
自動模式發現和預測——基於以上提到的一種或多種類型的歷史或流媒體數據的軟體,得出數學或結構模式描述了可能被推斷出的新型關聯,但並沒有立即出現在數據集上。這些模式可以被用來在時間上向前推進,並以不同程度的概率預測事件。
異常檢測——使用先前組件發現的模式的軟體,首先確定什麼是正常的系統行為,然後從正常的系統行為中辨別出偏離。
根源決定——通過自動模式發現和預測組件建立的關聯關係網路刪除依賴關係的鏈接,以提供有效干預的方法。
本地交付——一個或多個以上的AIOps能力作為一個本地解決方案的能力。
軟體即服務——能夠從雲中交付一種以上的AIOps功能。
典型供應商
在這個市場指南中列出的供應商並不意味著一份完整詳盡的列表,本部分旨在提供對市場及其產品的更多了解。
AIOps平台供應商擁有廣泛的能力,並且持續增長,值得注意的是,能夠提供某種能力並不意味著能夠以有效的綜合方式提供能力。
在表1中,我們提供了提供AIOps平台功能的供應商的代表列表。
表1 代表AIOps供應商的能力
來源:Gartner(2017年8月)
市場建議
通過採用側重於歷史數據的增量方法,以增量方式確保部署AIOps功能的成功
I&O團隊必須循序漸進地逐步部署AIOps功能,從訪問和分析歷史數據開始,然後在稍後的時間點訪問和分析流數據,以及應用機器學習功能。應該注意的是,歷史和流數據分析都需要構建和細化描述能夠生成這些數據的IT環境的模型。
AIOps功能的有效部署,甚至局限於以監控為導向的用例,需要一種文化的改變。監控、ITSM或自動化的概念應該根據數據源(而不是技術類型或基礎設施層)重新組織它們的領域,從而顛覆了傳統上設計的工具、流程和任務的大部分原則。Gartner發現,最好從掌握各種來源的大型持久數據集開始。只有在IT運營團隊熟練掌握了AIOps的大數據方面之後,它才會嘗試掌握能力類別。因此,在選擇工具或服務時,企業應該優先考慮那些允許部署數據攝取、存儲和訪問的供應商,這些供應商可以獨立於剩下的AIOps組件,但仍然支持逐漸增加其他功能。
選擇AIOps平台,能夠支持廣泛的歷史和流數據類型
現代IT操作的目標之一是深入了解IT系統的過去狀態,並將學習與當前面向總體IT平台的潛在未來狀態聯繫起來。為了實現這一目標,I&O領導者必須選擇能夠接收和提供廣泛的歷史和流媒體數據類型的AIOps平台,包括:日誌數據、文本數據、有線數據、指標、API數據和社交媒體派生的用戶情緒數據。
AIOps平枱曆來關注單一數據源,如日誌數據或線纜數據。不幸的是,無論給定的數據集有多大或頻繁更新,對單個數據類型的限制往往限制了對一個人或一個模式發現演算法的集合所能獲得的系統行為的洞察。這有點像盲人和大象的古老傳說。每一個盲人都接觸到大象身體的不同部分,得出了一個完全不同的結論,關於這個動物的形狀和性質的結論是完全不同的。現代IT系統——以其模塊性、動態性和分散式性——需要一個多視角的方法,即使是為了了解正在觀察到的事情,更不必說計劃他們的未來,或者確定使他們到達目的地的原因。因此,企業應該選擇那些能夠從多種來源中攝取和分析數據的AIOps平台。
選擇提供可增量地部署it操作的四個階段的工具——面向操作的分析和機器學習
增強IT操作團隊技能的關鍵屬性之一是漸進式方法。支持增量部署和支持IT-運維-面向機器學習的四個階段的工具必須獲得更高的投資優先順序:
可視化和統計分析
自動化的模式發現
基於模式的預測
根本原因分析
在IT運維環境中部署人工智慧非常困難,必須逐步實現。IT運營團隊應該通過熟練掌握數據可視化和基本統計分析,開始他們的人工智慧之旅。不惜一切代價,抵制一次做這一切的誘惑。只有在這些核心「手工」學科被掌握之後,人工智慧或機器學習才會被接近。在這裡,他們最初應該嘗試允許軟體揭示組織大量數據的模式。接下來,他們應該測試這些模式允許他們預測未來事件和事件的程度。只有當團隊開始使用根本原因分析功能時,才會接近結束。最後,AI的所有四個階段都很重要,企業應該選擇儘可能多的工具。這些階段應該以模塊化的方式進行部署,但也要確保IT操作能夠在學習過程中獲得價值。
證據
自2016年6月以來,已經有超過500次的調查涉及AIOps和/或AIOps平台的選擇。
注1
AIOps從演算法發展到人工智慧
在Gartner的詞典中,「AIOps」的首字母縮寫為「演算法IT運維」。然而,在過去的一年中,在Gartner和一般的市場使用中,「人工智慧」一詞主要指的是將自動模式發現演算法應用於大型數據集,其次,嘗試模仿一些人類的智力行為,比如語音。由於這些正是AIOps平台的特點,所以我們決定在我們對這個主題的報道中採用這種命名法。雖然演算法方法毫無疑問是這個市場形成的基礎步驟,但我們現在強調這個領域的「人工智慧」術語,以便更好地反映對AI概念的接受和對其潛力的不斷增長的投資的快速轉變。
注2
AIOps之前
從歷史上看,「人工智慧」一詞已經被用來表示試圖模仿人類的知覺和智力操作系統(硬體和軟體)。20世紀50年代末,大學和國防部開始進行這樣的嘗試,到目前為止,已經有兩個時期,這種學術和軍事工作的成果進入了商業市場。第一個時期從上世紀80年代中後期開始,結束,而不是巧合,結束了冷戰。第二個時期開始於過去十年的結束,至今仍有增無減。
在商業化時期,「人工智慧」一詞被用來作為營銷言論涵蓋特定的知性與感性操作嘗試模仿(例如,計算機視覺系統和NLP系統)和軟體系統或硬體/軟體棧,優化的兩個演算法範例,證明有用的模仿工作(基於規則的推理引擎和機器學習),無論該產品是否體現這些模式是針對模仿人類大腦的任何方面。在商業化的第一階段,第一個演算法範式得到了青睞,而第二階段的購買者和供應商,似乎主要關注第二種模式。
在20世紀90年代早期,圍繞基於規則的推理引擎開發的許多知識產權被重新用於支持技術,從而使分散式系統管理的相對新領域得以實現。現在的許多服務台系統,在他們的心裡,都是基於規則的推理引擎,直接從1990年到1995年的時間框架下的代碼直接下降。分散式管理框架也常常是由人工智慧組件構建的。例如,IBM Tivoli管理環境基本上是一種基於規則的推理引擎,編寫在邏輯編程語言Prolog中。
當然,近年來,人工智慧已經捲土重來,但正如上面所提到的,以機器學習為基礎的技術已經佔主導地位。值得注意的是,從一個演算法的角度來看,幾乎沒有什麼新東西(例如,深度學習演算法是在20世紀80年代後期發現的,它們本身只是以前開發的神經網路演算法的一個小變體)。最新的是計算和通信成本的降低,這使得1980年代後期的不實際操作變得非常實際。
像許多其他市場領域,ITOM部門現在也試圖利用經濟和計算上可行的機器學習演算法範例的用例,或者建立在基於規則的ITOM功能開發後的第一期商業化或從頭開始創建新的純模式發現系統。正如本研究中所提到的,在其他地方,機器學習在ITOM上下文中被證明是非常有效的,當它與一個大數據能力結合在一起時。無論如何,將人工智慧嫁給ITOM並不是一個令人吃驚的創新。這只是一段30年的關係的最新篇章。
TAG:雲技術之家 |