當前位置:
首頁 > 科技 > 變身智能運維,你應該這樣做

變身智能運維,你應該這樣做

那麼,在 AI 時代,作為運維技術人員,應該怎麼應對?從傳統運維轉變為智能運維,又該怎麼著手落地呢?我們先從智能運維的定義和發展談起。

智能運維的定義和發展

按照 Gartner 的定義,AIOps 是 Algorithmic IT Operations,究其本質,可以簡單理解為將人工智慧知識和互聯網運維領域相結合,讓運維具備機器學習和演算法的能力。

(圖片來源——智能運維中的科研問題,裴丹)

我們大家都知道,在運維發展的過程中,最早出現的是手工運維;在大量的自動化腳本產生後,就有了自動化的運維;後來又出現了 DevOps 和智能運維。在運維的過程中,涉及到的步驟可以概括為:產生海量的監測日誌,進行分析決策,並通過自動化的腳本進行控制。運維的發展過程,主要是分析決策步驟發生了變化:起初,由人工決策分析;後來,在採集數據的基礎上,使用自動化的腳本進行決策分析;最後,用機器學習方法做決策分析。

運用機器學習方法做決策分析,智能運維從而達到如下效果:

能夠準確的復現並診斷過去發生的事件;

能夠及時準確的檢測、診斷當前正在發生的事件,並確定最適合的應對方案;

能夠相對準確地規劃和預測將來可能發生的事件。

智能運維落地挑戰及關鍵

從清華大學計算機系副教授裴丹的有關智能運維的研究中可以歸納出,智能運維落地的核心挑戰是:從工業界的角度,我們有數據、有應用,但是缺乏一些演算法和經驗;從學術界的角度,我們有不少理論演算法,但是缺乏實際的數據以支持科學研究,也不熟悉運維的場景。其中,在實際應用中,智能運維的一個主要挑戰是根據具體需求評判應用哪些機器學習演算法,並適配或改造。

基於智能運維想要達到的效果,具體的機器學習技術包括以下幾項:

面向歷史事件的: 批量根因分析、瓶頸分析、熱點分析等;

面向實時事件的: KPI 異常檢測、日誌異常監測、事件關聯關係挖掘、報警聚合、快速止損、故障根因分析、止損建議分析;

面向未來的:配置管理、容量預測、趨勢預測、故障預測、熱點預測等。

所以,在目前這個階段,智能運維想要繼續往前推進並取得更好的成果,需要把智能運維里的一些關鍵演算法定義好、分解好、應用好。這是智能運維落地的一個關鍵步驟和手段。

智能運維的落地途徑推薦

有關智能運維的落地,日誌易產品總監饒琛琳同樣有著深刻的見解和豐富的實踐經驗。饒琛琳,日誌易產品總監,曾任新浪微博系統架構師、大數據運維技術專家,從事運維 11 年,精通大規模互聯網性能優化,機器數據處理分析,監控和管理平台的部署開發。

饒琛琳認為,運維工作中有三個比較重要的方面:監控、管理和故障定位。在大數據時代,智能運維是基於大數據之上。目前看來,運維想要把監控、管理和故障定位這三部分有機結合起來,就不可避免的需要用到機器學習演算法知識。

傳統的 IT 運維需要管理大量的告警,極大地分散了企業的注意力,消耗運維人員大量的時間和創新力。運用機器學習演算法進行快速的監控和排障、還能進行智能告警預測,把運維人員從紛繁複雜的告警和噪音中解脫出來,才能變身為真正的智能運維。

所以,要想儘快在智能運維領域有所突破,首先要主抓好監控系統和告警系統,並利用機器學習演算法進行快速監控和排障。想要實現和搭建一個智能運維平台,也應從以下四點出發:

非結構化數據的處理

多模塊關聯追蹤分析

動態閾值的異常檢測

平台服務的資源管控

為了幫助企業能快速解讀智能時代下的新運維,為了更好的實現智能運維的落地,幫助傳統運維變身智能運維,我們特邀了日誌易產品總監饒琛琳在 CNUTCon 2017 全球運維技術大會會前兩天(9 月 8 日 -9 日)和大家進行一個面對面的深度培訓交流。

屆時,將會結合智能運維平台四個要點,分享其構建數據驅動的智能運維平台的心得,深度剖析基於演算法的運維平台背景和架構;針對智能運維能夠達到的理想狀態,培訓講解運維場景中的根因分析、異常檢測、故障監測定位、數據概要、配置管理、和智能告警、未來預測中所用到的演算法知識。

彩蛋福利 —— 留言點贊贈書

在文末評論留言:「對智能運維的看法和想法」。截止到 8 月 22 日之前留言被點贊最多的前五名用戶,即可獲得《ELK stack 權威指南(第 2 版)》一書。

添加小助手微信,及時獲取贈書獲獎情況信息。

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 InfoQ 的精彩文章:

使用Spring構建REST服務
七月精選十篇技術好文,收藏指數滿格!
深度學習在美團點評推薦平台排序中的運用
首席架構師是怎樣煉成的?今晚直播!

TAG:InfoQ |

您可能感興趣

你是不是搞運維的,一句話就能證明!
在滴滴,我們是怎麼做運維的?
運維:對不起,這鍋,我們不背
讓運維更智能 智能業務運維的AI之道
優秀的運維架構師應具備怎樣的知識體系
不認命,就是運維人員的命
自動化運維可不只是說說而已!
運維的本質是什麼?
有關雲伺服器的十問答,運維你必須知道!
這個運維厲害了
如何落地資料庫智能化運維?
人工智慧給雲時代的智能運維帶來了哪些創新
一本運維人寫給運維人自己的書
統一監控平台,你不得不知道的一站式運維監控神器!
為什麼這麼多電力用戶選擇中聯電力智能運維服務?
誰拖了運維的後腿?
為什麼嫁人就要嫁Linux運維工程師,看完你就懂了…
當單身已久的運維小哥養了貓,整個畫風就不可控了...
智能運維實踐:硬碟失效預測技術
利用大數據技術實現智能運維