當前位置:
首頁 > 最新 > 從0到1,AIOps領先業內的實踐之路

從0到1,AIOps領先業內的實踐之路

編者按:《百度雲說》是刊登百度雲管理層及產品、技術專家系列觀點文章的專欄。在這些文章中,將逐步揭秘百度雲對行業、市場、生態、技術、產品和解決方案的實踐與思考。我們希望通過這樣的方式,讓您更加了解百度雲,同時促進行業交流,更好地服務用戶。

百度雲智能運維團隊負責人曲顯平

本期《百度雲說》邀請到的嘉賓是百度雲智能運維團隊負責人曲顯平。曲顯平是百度雲資深的智能運維專家,主導過百度監控系統、運維數據倉庫、智能運維平台等多個重要項目。

運維是個苦差事兒,尤其是當一個企業的業務規模不斷成長時,各種線上故障隨時可能發生,業務應用的頻繁迭代成為家常便飯。但不可否認的是,運維的價值正在變得愈發重要。尤其是隨著AI時代的來臨,AI技術的融入,運維開始從自動化邁向智能化,智能運維所帶來的價值逐漸彰顯。百度雲開創了國內智能運維從0到1的先河,率先在智能運維領域進行了諸多實踐。本文聚焦在百度雲的運維發展歷程以及在智能運維中的實踐真知。訪談全文如下。

Q:能否介紹一下百度雲的運維發展歷程?

曲顯平:百度運維的發展歷程一直跟百度自身業務發展緊密聯繫,主要劃分為四個階段:

2007年之前,百度運維主要是依靠腳本&工具,這個階段,主要通過人工執行命令腳本來實現運維操作;

2007年--2011年,進入到標準運維平台階段,通過抽象運維操作,形成標準化的運維模式,通過Web交互來實現自動化運維操作;

2011年--2014年,進入到開放可定製運維平台階段,通過提供運維配置的代碼化管理和運維操作的API化,實現運維的可配置和可定製;

2014年以後,進入到智能運維平台階段,這個階段融入了智能工程框架和智能演算法策略,逐步實現運維的智能化。

在智能運維之前的階段,運維的核心目標是提升效果,比如多個業務的持續交付速度、應用服務的穩定性、降低運維成本等。進入到智能運維階段,百度雲的運維目標隨著支撐業務規模不斷增長、運維場景不斷豐富而發生了根本性變化,百度雲的智能運維更加關注釋放運維自身的效率,以及解決傳統運維方法所不能解決的挑戰。

Q:百度雲開創了國內智能運維從0到1的先河,如何做到的?

曲顯平:在我看來,之所以能夠在智能運維領域領先主要在於:

第一,百度雲智能運維團隊之前主要服務百度內部業務,百度複雜的業務環境和需求一直推動著百度雲智能運維的發展;第二,百度雲智能運維團隊是一個整體,並不是按照事業部來劃分成不同的獨立團隊,整個運維團隊的業務視角和經驗遠比各業務獨立運維的團隊豐富;第三,百度雲的智能運維團隊是規模最大的單一運維團隊,覆蓋的業務數量和伺服器數量在國內是最多的,通用運維能力也是最強的。

補充一點,百度雲之所以在AIOps能夠領先,是因為百度從始至終崇尚技術,百度雲的AIOps相關技術絕對是業界領先的。百度雲的智能運維最近幾年成長非常迅速,關鍵還在於百度雲的智能運維能夠做到兼容並蓄、開放包容,像SRE、DevOps、ITIL等理念,百度雲都會學習和總結,最終形成一套自己的方法論。現階段,百度雲的智能運維完全可以跟Google、Facebook相媲美。

Q:在智能運維中,大數據、人工智慧技術發揮了什麼作用?

曲顯平:AIOps這個詞是2016年Gartner提出來的,早期的意思是Algorithmic IT Operations,即基於演算法的IT運維,主要是指用大數據、機器學習驅動自動化、服務台、監控這些場景的能力提升。到2017年,Gartner將AIOps的概念改成了Artificial Intelligence IT Operations,即智能運維。

事實上,百度在2014年開始就對智能運維進行的諸多探索,最開始集中在監控指標分析、報警分析、故障根因分析、性能和成本分析等方面,到2016年百度雲智能運維團隊已經完成對AI應用於完整的運維平台研發的論證,我們認為AIOps的目標是將人的知識和運維經驗與大數據、機器學習技術相互結合,開發成一系列的智能模型和策略,並融入到運維繫統中,利用智能運維繫統去高效、智能地完成運維任務。

大數據、機器學習等技術在智能運維中發揮著重要的作用。大數據主要指的是對數據的處理能力,像海量監控指標計算與存儲、海量日誌統計分析等問題,就需要採用大數據的技術和手段去解決;而機器學習,更側重分析問題和解決問題的方法和手段,有了海量數據,如何做智能異常檢測、智能容量預測、智能諮詢和問答等,就需要利用機器學習等方式去解決;運維的問題日益複雜,需要我們將大數據和機器學習的技術組合在一起,發揮更大的作用。

最後,其實每個運維操作都可以分解成感知、決策、執行這樣一個標準流程,我們所需要做的,就是總結抽象運維模式,將大數據和機器學習的技術,融入到運維操作的每個階段,讓問題感知、分析決策、調度執行都讓機器自動去完成,就可以實現運維的智能進化。

Q:百度雲如何將運維領域的經驗沉澱成產品?

曲顯平:事實上,百度雲一直是希望將在運維領域的實踐和經驗賦能給其他行業的客戶。目前,百度雲對外提供的運維產品主要有兩種:

一種是標準類的運維產品,適合基礎設施薄弱或者希望借鑒互聯網運維理念做轉型的客戶,它們需要標準運維產品來構建運維基礎;

另外一種就是智能運維(AIOps)產品,適合基礎設施規模比較大、業務環境比較複雜的用戶。

此外,百度雲的智能運維產品支持私有雲和公有雲等環境。

現在已經包括金融、製造、視頻媒體等多個行業的用戶採用了百度雲的智能運維產品和解決方案,百度雲希望未來有更多用戶能夠享受到百度雲智能運維帶來的價值。

Q:具體介紹一下百度雲智能運維的經典應用或案例。

曲顯平:現階段,百度雲的智能運維已經在百度內部得到了很多應用。比如:

智能異常檢測,以前需要人手工去配置監控閾值發報警。我們通過人工智慧技術,構建異常檢測模型,並且不斷讓它去學習和優化,現在大量的監控指標已經不再需要人工配置,而且,通過機器學習的方式會減少人為錯誤,大幅提升召回率和準確率;

消除報警風暴,我們監控了百度數以十億計的業務指標,很多指標之間都有關聯關係,一個故障可能會導致很多關聯報警的出現,如果沒有應用機器學習等人工智慧技術,對數據進行學習和建模,很難把最關鍵的報警識別出來。百度雲的智能運維很好地解決了報警風暴問題,把報警量減少了95%以上;

故障診斷,百度的很多業務系統規模都十分龐大,這給故障期間的快速定位根因帶來了很大挑戰,我們利用了大數據和機器學習的手段,對系統的全局和局部狀態分析,將可能的根因推薦給運維工程師,幫助運維工程師快速診斷並處理故障,減少故障造成的損失;

故障自愈,像單個機器/實例的故障問題、單個IDC的故障問題以及某些業務的故障問題,讓機器去智能判斷,並且後續由機器介入和解決,整個過程不需要人工干預;

容量預測,根據不同業務和系統指標,訓練容量水位模型,自動預測接下來一段時間的容量情況,一方面可以在容量快要達到極限時,及時預警並觸發擴容操作,另一方面,在節假日或業務做活動期間,可以根據歷史情況和實時數據,準確預估容量,確保業務活動保障順利進行;

SQL入侵檢測,將SQL語法樹抽象為特徵向量,利用機器學習對資料庫的海量日誌數據、歷史SQL數據進行訓練,能夠有效地檢測SQL入侵,保障資料庫安全可靠。

百度雲的智能運維產品是跟百度雲對外賦能緊密配合的,已經有包括金融、視頻媒體、製造等行業客戶採用了百度雲的智能運維產品、解決方案。比如金融客戶,基礎設施規模足夠大,對AI應用有強烈需求。百度雲智能運維解決的智能異常檢測、報警收斂、智能故障自愈、運維智能助手、運維知識圖譜等都與金融行業有契合點;其他像媒體行業、視頻直播類網站、智慧城市、智慧機場也有百度雲智能運維的成功案例。

Q:百度雲智能運維的產品如何滿足不同行業、不同規模用戶的需求?

曲顯平:百度雲智能運維對外提供的產品一定是符合行業標準的。當前,很多客戶的運維產品是從傳統運維產品發展而來的,這些產品未來很難適應智能運維的需求。百度雲很早就認識到這個問題,認為AIOps的標準需要儘早去定義。如果後續市場中,所有智能運維的產品都圍繞標準去構建的話,那將對AIOps市場的發展起到極大的推動作用。

事實上,百度雲智能運維團隊也一直堅持投入行業標準的建設中,比如在運維相關領域的頂級會議SREcon、SIGCOMM、INFOCOM、CoNEXT、LISA中,持續發表了多篇重量級的論文和演講,致力於AIOps行業標準的逐步建立。

往期

回顧


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 百度雲 的精彩文章:

打破數據圍牆 加速金融創新

TAG:百度雲 |