當前位置:
首頁 > 科技 > 雲智慧AIOps智能運維應用實戰之告警抑制

雲智慧AIOps智能運維應用實戰之告警抑制

自2016年Gartner提出AIOps智能運維以來,諸多中國雲計算、大數據和運維管理廠商都推出了AIOps解決方案,然而這些實踐多是針對特定IT環境和應用場景進行智能化處理,放到其他行業或企業中就很難適用,這也限制了企業用戶對AIOps的認知和嘗試。

雲智慧作為國內最早開始探索AIOps智能運維的獨立解決方案提供商,在過去兩年里陸續為數十家不同行業、不同應用場景的大型企業成功實施了智能運維,積累了豐富的智能運維應用場景和解決方案,並率先實現了AIOps智能運維的產品化、場景化和實用化。接下來這段時間,我們會為大家介紹雲智慧AIOps智能運維平台的智能告警、根因分析、智能預測等產品模塊,及其在不同用戶場景的應用價值,希望為大家正確理解和選擇AIOps提供參考。

企業IT系統運行過程中會產生海量日誌數據、監控數據,這部分數據既滿足大數據的屬性,又隱藏著巨大的業務價值,因此企業進行AIOps實踐多是從智能告警入手。今天我們就來介紹智能告警的第一個環節——告警抑制。

告警抑制典型應用場景

中大型企業的IT應用系統龐大而複雜,設備數量動輒成千上萬,任何一個小小的IT問題都有可能引發「告警風暴」。所謂告警風暴是指在短時間內系統產生大量告警消息,這些消息有的是由某種共同因素引發,互相之間存在一定關聯,有的則沒有任何關係。

以雲智慧服務的某大型企業為例,某次告警風暴產生時,平均每分鐘800+條告警消息,運維人員每天接收各類告警消息多達2萬條,導致運維人員疲於應付大量的告警消息,需要耗費更多時間排查和處理問題,大大降低了運維效率,而且由於無法第一時間發現根源問題,延誤了故障處理時間,往往會給業務運行帶來潛在風險。

壓縮比高達90% 告警抑制功能特點

常規的運維監控產品都是根據固定閾值觸發告警,這種監控方式會頻繁遇到告警報錯、漏報、告警風暴等問題,嚴重干擾運維人員的工作效率。雲智慧AIOps智能運維平台的告警抑制產品針對海量的、持續的冗餘告警消息,通過智能演算法結合固定規則的方式對告警消息進行告警壓縮和告警合併,在保證核心告警內容(即不壓縮核心告警內容)的前提下抑制告警消息數量,為運維人員提供有效的告警信息。

雲智慧智能運維平台告警抑制流程

我們把相同告警源產生的重複消息進行壓縮的過程叫告警壓縮,告警壓縮是實現告警抑制的前提和基礎,通過告警壓縮可以減少70~80%的重複告警,並在此環節把告警消息(Message)生成為警報(Alert)。接下來,將不同告警源產生的警報按照規則、演算法進一步合併的過程叫告警合併或告警收斂。通過告警合併,告警消息的壓縮比可提升到80%~90%。

下面用幾個實例來解釋一下雲智慧智能運維平台的告警抑制流程。

例1:告警壓縮

用戶利用 Zabbix 對伺服器BJ_Pay_ngix_1進行監控,監控了 CPU Load,監控頻率為10s。在13點24分開始觸發 CPU Load 告警,並且持續了8分鐘未恢復,整個期間產生了50條重複告警消息,通過雲智慧智能運維平台的告警抑制,將50條消息壓縮為1條警報(Alert),並可以通過時間線功能,查看整個生命周期內的告警分布情況。

例2:告警合併(告警收斂)

主機BJ_Web服務1產生 CPU、內存使用率的告警,同時同一個集群的 BJ_Web 服務2也產生了 CPU和內存使用率的告警,通過告警壓縮生成4個警報(Alert),通過告警合併將集群內所有警報合併為一個告警事件(Event)。當然,也可以基於業務線對業務告警、APM 告警等警報進行合併,然後通過時間線功能,查看多個警報之間的時間順序,來初步判斷告警的根因情況。

以上是雲智慧AIOps智能運維平台告警抑制功能的基本原理,此產品不但能接入雲智慧自有的監控寶、透視寶等告警源,還可以通過REST API 、Agent、URL 回調等方式對主流監控Zabbix、Nagios的告警數據進行接?,或根據客戶需求對特定告警源進行定製化接入。此外,用戶可配置各類抑制規則,設置 事件通知的分派策略,獲得更高壓縮比、更快速的智能告警。

如今,雲智慧AIOps智能運維平台的告警抑制產品已經在金融、航空、地產、製造、政企等多個行業通過線上環境的生產驗證。由於客戶類型和業務系統的差異,實際壓縮率可高達95%,並做到了核心內容零損耗。

告警抑制典型案例

某大型企業集團擁有在線商城、辦公系統、財務系統等核心系統,涉及到多地多個機房和幾十套應用子系統,頻繁的告警消息對運維工作造成了極大幹擾。為避免此類干擾,該集團的運維人員只能臨時關閉若干系統的監控功能,但這種方式導致了業務系統與基礎環境的監控缺失,無法有效實時掌控整個運維環境的運行。

雲智慧工程師根據對歷史故障的分析,把該企業的故障分為幾類:

?閃斷類:故障發生後迅速自愈

?重複類:單個對象的一個或多個指標持續告警

?範圍性故障:某個區域或某個集群出現範圍性故障,範圍內的多個對象短期內同時出現告警

當以上幾類告警在發生時,運維人員需要第一時間區分故障類型,才能快速定位問題。通過部署雲智慧智能運維平台,利用REST API、Agnet 採集等方式對接各個監控系統,將告警消息進行統一匯聚和整合,然後進行有效的告警抑制處理,大幅降低告警事件的數量和告警發送的頻率,同時提高了告警通知的精度。

某次故障發生後,某地數據中心短期內出現了上千條的告警消息,經過壓縮合併後抑製成了幾十條警報和不到10個事件,壓縮率達到了95%以上。部署雲智慧智能運維平台三個月以來,該企業運維人員每天接收告警數量從人均182條降低到了25條,同時整個運維團隊的平均接手時間(MTTA)和平均解決時間(MTTR)都大幅縮短。

附註:Gartner於2018年7月13日發布的《Hype Cycle for ICT in China, 2018》中,雲智慧成為AIOps領域的Sample Vendors。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 PChome電腦之家 的精彩文章:

世界知識論壇聚焦全球智慧 完美世界蕭泓縱論跨文化交流創新之道
5.1聲道實體環繞聲場重塑視聽體驗 索尼迴音壁HT-S500RF在華上市

TAG:PChome電腦之家 |