DevOps升級&AIOps落地,看看這些大廠都是怎麼做的?
現有應用場景的不斷變化使得技術的更迭越來越快,不久之前,人們還在科普DevOps是什麼,但是如今DevOps已有英雄遲暮、日薄西山的跡象,AIOps正以蓬勃之勢邁入大眾視野。如何才能從DevOps走向AIOps?也許,這篇文章可以給你答案!
2018年10月17日—19日在北京海淀永泰福朋喜來登酒店舉行的第十屆中國系統架構師大會,專門設置了《基礎架構運維:從DevOps到AIOps》專場演講。該專場分為上午和下午共兩場演講,本文,我們先來看看上午場中的宜信、京東數科、阿里巴巴、去哪兒網,他們都是如何實踐的?
謝知求:宜信全維度監控與應用運維平台及開源賦能
宜信技術研發中心自主研發了一套智能化服務技術棧——UAVStack。為什麼會取名叫UAV呢?宜信技術研發中心架構師謝知求解釋說,UAV是無人機的縮寫,寓意無人機翱翔藍天,智能的、透明的完成任務。
據悉,UAVStack的設計思想採用了「微智能」,功能包括全維監控(UAV.Monitor),應用性能管理(UAV.APM),用戶體驗管理(UAV.UEM),容器化支持(UAV.Container) ,服務治(UAV.ServiceGovern),任務機器人(HIT)等。
針對智能運維AIOps,謝知求表示可以分為3步走,全維監控、全維關聯和全維智能。
第一步全維監控,通過統一採集體系,完成指標(Metrics)、調用鏈(Tracing)、日誌(Logging)這三大類監控數據的採集,保證了數據的時效、對齊和品控。
第二步全維關聯,全維關聯通過採集系統、應用和服務的現實描述以及它們的關聯關係,結合知識圖譜技術,實現系統對現實的增強感知,這種數據也叫畫像數據(Profiling),進而利用畫像數據實現對指標、調用鏈、日誌等監控數據的實時關聯。
第三步全維智能,引入智能任務機器人,用機器取代人去做決策。在這一階段,一方面通過對接大數據平台實現對機器學習模型的訓練,同時將知識圖譜和機器學習模型轉化成可插拔式的服務,以實現對任務機器人「決策能力」的持續交付。
董璐:京東數科DevOps落地攻略
傑克· 韋爾奇曾說過,「如果外界的變化率超過了內部的變化率,那末日就不遠了。」也正是受此啟發,京東數科開始推進DevOps。京東數科持續集成平台研發負責人董璐表示,通過推進DevOps,他們想要達到減、加、降、升的效果。
其中,「減」指的是減少溝通成本,落實文字,在線管理;「加」指的是增加質量把控
除QA外,增加單元測試、代碼掃描等;「降」指的是降低研發風險,制定規則,驗證、告警;「升」指的是提升自動化水平,包括構建、校驗、掃描、採集、統計等操作。
京東數科DevOps的演變落地共經歷了三個階段,分別是工具化、平台化和一體化。工具化階段,讓複雜又重複的工作變得簡單;平台化階段,將工具組裝到一起,變的更強大;一體化階段,把各個部件組合到一體,協作起來。對於下一步的發展目標,董璐也給出了明確的答案那就是生態化,內聚力量,外聯資源,多點賦能。
柯旻:阿里巴巴大數據智能運維實踐
如果要論互聯網公司的技術實力,那麼阿里就不得不提。隨著公司的不斷發展,規模的飛速增長,阿里運維體系也在不斷演進變化。
運維1.0時代是組件監控模式,通過腳本代替手工運維模式;運維2.0時代是流程化運維模式,通過標準化規範化,把組件監控與運維流程相結合,批量自動化運維;運維3.0時代是平台化運維模式,進一步固化運維常見場景,實現一體化監控,提升端到端運維能力,對運維服務集中化管理。運維4.0時代是智能、數據化運維模式,高度自動化,精細化,精準化,通過大數據機器學習等技術以提供智能分析決策,運維能力服務化。
在從DevOps走向AIOps的過程中,必須還要經歷一個DataOps的階段。在大會上,阿里巴巴大數據資深技術專家柯旻向我們展示了數據化運維的相關案例,例如全鏈路分析診斷、硬體自愈、聚類異常檢測、聚類尋優、運籌優化。
肖雙:百萬級報警平台的架構設計與實現
監控是每個公司基礎架構中不可缺少的一部分,如何構建適用於公司不同階段不同需求的監控系統需要技術團隊不停的探索和嘗試。在這個主題中,去哪兒網高級運維開發肖雙以去哪兒網百萬級監控報警設計與實現為核心,和我們分享了他們Ops團隊在建設監控系統期間遇到的問題和解決的方法。
2014年的時候, 去哪兒網開始自主調研開發適合自己的監控系統,並逐漸研發成功,成為了現在使用的watcher。Watcher 是基於開源項目Graphite+Grafana深度開發, 支持主機基礎監控報警和業務監控報警,提供統一的管理展示界面,報警監控都可以在統一的界面上查看和配置。
目前watcher在去哪兒網應用量級大概是監控的應用有1500+,指標量四千萬+,每周的報警量百萬+。相比於之前的監控系統來說,watcher具備以下特點:用戶可以自定義報警以及自定義個性化報警;自定義報警級別,還有值班排班,當前我們規定了P1-P4 四種級別;樹形結構的指標和視圖展示,一個目錄樹結構對於組織架構和對指標和視圖上的管理都是非常清晰和方便的;橫向擴展能力強,數據高可用。
想要第一時間了解大會更多精彩信息,歡迎訪問大會專題(請戳了解更多)
※分羹IPv6市場 山石網科基於IPv6的智能多維安全防護體系深解析
※被SLC、MLC、TLC搞暈?一文了解所有快閃記憶體類型
TAG:IT168企業級 |