當前位置:
首頁 > 最新 > 利用大數據技術實現智能運維

利用大數據技術實現智能運維

版權所有?德塔精要,轉載請註明出處

一、到底什麼是智能運維?

其實智能運維是相對傳統運維的一種升級和進化,智能運維能夠實現業務系統的自動化故障智能檢測,自動判斷哪些異常、哪有有告警,從而能夠輔助管理者進行故障根源判斷和處理。

二、傳統運維軟體出現這麼多年,為什麼現在會提出來智能運維?

幾年前一般的企業只有幾十個或者幾百個伺服器資源,而今天隨著雲計算、虛擬化技術的發展,互聯網技術的廣泛應用,一個企業擁有幾千台或者上萬台伺服器資源也是常見的。這30-40倍的增長使得在運維層面的負擔變的更加嚴重。在監控層面要想獲得每一個伺服器的每一個指標更加困難。

另一方面,業務系統複雜度也在增長,架構更加複雜,cache數據、非關係型資料庫、大數據架構、離線的數據處理、app、PC端應用等,這些以傳統監控方式一個一個配置已經不能滿足管理需求。隨著管理資源的數量和負責度增加,監控出現了太多的指標和圖表,人的精力是有限的,工程師規模卻沒有太大的增長。那麼如何從海量的指標中找到工程師關注的指標、關注的圖表,傳統的監控一個一個配置方式已經不能滿足需求。所以,今天的運維管理人員更需要智能化的運維來幫助他們降低運維的壓力。

三、為什麼說利用大數據技術能實現智能運維呢?

傳統系統無法實現海量數據的處理

IT資源從幾十到幾百台上升到萬級甚至是十萬級,監控本身每天可能產生的數據就是幾十T到幾百T,如何把這些海量的數據採集和計算存儲下來,並且把這些海量數據給用戶展現出來,從而進行一定分析,為管理提供決策,這是傳統監控系統很難解決的。

傳統無法處理的報警風暴

隨著監控指標的增加,帶來的就是報警的增加。假設每天發送3W-5W條簡訊、每天郵件報警量50W-100W,幾百個工程師如何處理過來,工作負荷無緣無故增加。

更新的基於大數據的智能監控方式可以解決,把相關度更高的告警聚合到一起,或者把重複的告警不發送,把最需要關注的告警和最需要的故障信息推送給工程師,這些需要通過大數據的相關性演算法、聚合的處理能力來實現。

傳統的監控方式無法實現問題診斷

監控系統有問題發現的功能,同時也要具備輔助工程師定位、處理問題的能力,傳統的監控系統指標採集和圖表展示,如何能夠幫助工程師進行問題診斷,這個是我們希望在智能運維繫統去解決。在人力經驗和精力都無法滿足的情況下我們希望智能運維繫統能夠自我診斷,從服務過去的運維數據中自動識別故障特徵,從而能夠更準確的識別和診斷故障。

四、如何利用大數據技術實現智能化運維

從數據採集維度首先要獲得更加全面的海量數據

從業務的角度出發,首先監控要從三個部分採集更多的基礎輸出,包括基礎架構(軟硬體、日誌、網路信息、容器虛擬機)部分;用戶端(CDN、WEB、移動端、PC客戶端)數據,只控制了server端,用戶端出現問題也無法使用;應用部分(軟體層面、應用層面),包括WEBServer+APP Server+File Server+Load Balancer等。從採集數據的內容來看,基礎架構數據更多的事性能數據、銷售數據等,例如磁碟、CPU等;用戶側數據更多是流量、錯誤率、用戶訪問情況、用戶體驗、操作信息、操作記錄這些用戶關心的數據;

從數據處理層面實現數據聚合

監控系統將採集回來的數據進行時間序列處理,原始的日誌信息等很難用作處理判斷的,只有將它轉換成可識別的結構化數據或者時間序列數據,我們才能方便進行判斷。

最簡單的方式就是把每一個單位時間採集的原始各類信息數據轉換為時間序列數據,然後對單位節點的數據之上再去做聚合。

還有一種方式是聚合是按照業務維度聚合。例如一個用戶的訪問系統時間、訪問的地域、使用的運營商、用戶的查詢的內容等,這一類信息包含了用戶訪問系統的業務維度是什麼樣的數據。系統將監控數據按照業務維度進行聚合,按照業務維度計算,這個是在業務維度進行聚合,用戶看到的就是一種二維的業務運維維度。

通過數據處理實現異常自動的檢測

傳統的監控方式一種是恆定閾值的方式(cpu小於10%報警),一種是同環比(周期性的對比,響應時間上漲20%報警等)。這些告警方式都比較簡單,簡單易懂。但是缺點一樣明顯,需要大量的工程師的投入,體現在兩個方面,一個就是監控的配置,一個是隨著環境變化人工閾值變化維護。

但是一些情況下,傳統的監控方式是無法實現準確告警,例如數據在波峰的突降或者波谷的徒增情況,傳統的閾值監控就無法識別,出現遺漏。第二種就是緩慢偏移情況,系統的運行數據緩慢的偏離的閾值的設定,這類情況可能很難觸發恆定閾值,但是業務系統已經出現的問題,傳統恆定閾值是很難識別的。第三種就是不斷漂移的閾值範圍,例如流量信息在不同的節假日的或者上班高峰訪問流量是不確定的,這類監控是無法通過人工的設定去捕捉的,這樣容易出現很多監控誤報。

利用大數據如何解決人工的閾值設定呢,首先可以利用統計學方式,根據數據的正態分布規律,利用標準差或者方差的方式推斷閾值來代替人工設定的閾值,這個方式可以解決大量的人力;另外一種方式針對同環比情況,可以利用同環比方差計算,例如把原始數據切分成很小的時間窗口,針對每一個小的時間窗口他的同環比區間內我們去計算均值和方差,最後會得到一個整體趨勢性數據的閾值範圍。

那麼讓機器去識別如何利用這兩種數據呢,這裡就需要利用分類的演算法,讓機器自動區分,數據是否是具有周期性分布,還是同環比情況。

當然數據還是不斷變化的,這種情況可以利用數據針對不同的節假日、上班高峰的大量歷史數據進行比較,這裡需要大量的歷史數據,同時需要對數據的對比分析,從中通過演算法識別出來規律,從而避免監控移動或者誤報。

利用大數據技術實現智能運維其實還有很多領域可以突破,這裡只是列舉很小的一部分。例如數據可視化技術讓開發、運維人員更加直觀的處理問題;利用基於大數據預測、預警的能力來實現故障預判,在故障發生前就提前進行預判,從而提升業務系統可用性;利用大數據的處理能力,採集處理更多的服務端的數據,這樣使得監控運維的數據信息更加完整,形成全方位的運維數據覆蓋,實現用戶、服務、計算資源的無死角管理。

未來我們還是希望能夠讓系統自動理解故障趨勢和模式,通過某種方式自動的理解運維人員思維方式,更深入的服務。例如通過監控系統通過歷史數據去分析、去學習,自主的分析分體和識別問題,幫助工程師識別問題,或者利用學習功能自動發現應用或者環境的變更,從而自適應的調整運維模式,這些都是可以利用大數據技術實現。

《淺談大數據第一期》

德塔 | 專家團隊

乾貨 | 共41篇

版權所有??德塔大數據研究院

轉載請註明出處

DaaS慧報(有溫度的大數據報告)

大數據落地方案

大數據思想

主編:林帥兵|德塔大數據研究院院長

責任編輯:孫一欣

責任美編:彭 琦

德塔大數據研究院專家團隊

師文軒|德塔大學名譽校長

感謝德塔精要研發中心全體人員

歡迎在下方留言,「塔塔」會在第一時間回復您!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 德塔大數據研究院 的精彩文章:

監控領域的下一個春天
如何讓大數據助力智慧轉型

TAG:德塔大數據研究院 |