當前位置:
首頁 > 最新 > 自動化和智能化運維是咋回事?請看光大銀行數據中心的探索與實踐

自動化和智能化運維是咋回事?請看光大銀行數據中心的探索與實踐

無論是GB/T33136數據中心成熟度模型的建立,還是自動化運維白皮書的編寫,中國光大銀行都是重要的參與者,也是積極的踐行者。在不久前召開的2018中國IT服務創新大會上,光大銀行信息科技部總經理助理彭曉,從數據中心運維的角度,向與會嘉賓分享了相關標準和白皮書落地的思考和心得,以及光大銀行在自動化和智能化運維過程中的探索與實踐。

光大銀行信息科技部總經理助理 彭曉

運維現狀思考與分析

在這裡我想先給大家分享一下運維管理的「BCDT理念」。

「B」是Bottom -line,即底線思維。生產運行過程中最重要的一點就是數據一定要備份,光大銀行的生產數據備份包括存儲備份、帶庫備份、邏輯備份等多種備份模式,數據的安全是服務客戶的基礎,這就是底線思維。同時,光大銀行所有生產運行系統必須有技術和業務預案,有可以進行生產事件處置工具,所有的變更必須可回退,所有系統在部署時也要有冗餘。在應急處置的時候,大家都會提「三板斧」的概念,第一可重啟,第二可切換,第三可隔離。

「C」是Closed-cycle,即閉環思維。我們在事件處置包括監控時有一個原則:基礎設施出現問題的告警,必須先於操作系統和中間件、資料庫;系統級的告警要先於應用;應用的告警要先於客戶服務部門和業務部門;客戶服務部門發現問題要先於客戶;這就是運維事件處置和客戶服務的閉環。

另外,出現問題以後除了及時處置外,還要進行修復、開發,設置層層防護手段,比如,如果有兩個以上的系統出現命中系統補丁的話,我們就會給所有的系統都打上相關的補丁,這也是一種閉環。從運維工作逐步前移至架構、開發、測試各過程,以及非功能標準和需求的制定,這是另外一個環。總體而言,「B」和「C」是傳統運維當中最典型的思維模式,目的是希望平穩運維、減少變更,防範各種風險,也是一種比較典型的風險厭惡型的文化。

近一階段,隨著金融科技的發展,光大銀行安全運營工作更關注「D」(Development),即發展思維。光大銀行正在實施數字化和智能化轉型,努力打造一流財富管理銀行,在轉型發展過程當中,我們的安全運營工作從原來的穩態思維轉向更關注未來發展的敏態、穩態共存的思維,比如,此前光大銀行按月進行應用系統集中發布,現在已轉換到按周發布,更關注業務發展變化與技術革新對業務的支持,滿足效率提升、快速交付的需求,隨著變更頻度和數量的大幅增加,這對安全運營來說也是新的挑戰。

最後是「T」(Technology),即技術思維

光大銀行一直秉承技術是科技人的安身立命之本,也是業務發展的驅動力。新技術的應用給我們帶來新的挑戰,包括大數據技術、區塊鏈技術、分散式架構等,這些新技術對於基礎設施支撐帶來新的需求,也對運維模式提出新的要求。與此同時,新技術也會給我們帶來創新的機會,因為有危的地方就會有機,流程不順的地方就是我們的創新點和效率提升點,通過利用技術的創新和改進,最終實現科技支撐業務發展。

針對利率市場化的全面提速、各種互聯網理財產品的興起,以及雲計算、大數據、分散式計算、互聯網+等新技術的運用給運維的複雜度帶來新的挑戰,光大一是面向技術,重點解決做好運行保障,嚴控運行風險,提升運維效率與質量;二是面向管理,通過提升工作的體系化、管理的精細化與量化程度,提高風險管控能力、提升科技服務的質量與效率。

光大銀行自動化運維發展階段也是與我們的運維思維的發展轉變十分契合。

我們2008年開始建立獨立的運維中心,實施文檔化運維,主要是以廠商手冊為主;

2010年開始腳本化運維,利用腳本減少人工操作;

2012年啟動工具化運維工作,開展了運維自動化平台建設;

2014年進入服務化運維階段,開始了從運維到運營的轉變;

2017年啟動運維大數據分析平台建設,開始智能化運維的探索與實踐。

光大銀行自動化運維實踐

接下來談一談光大銀行的自動化運維的實踐。簡單地說,它圍繞的核心是運維對象、運維活動和運維場景。對運維工作而言,我們的運維對象就是各類基礎設施、生產系統和各類生產業務活動,它是配置管理的基本要素,也是自動化運維的基石,運維活動是這些運維要素的,要鎖再往上就是運維場景,通過它來滿足內外部的需求,圍繞需求場景進行自動化建設。

在自動化運維實踐中,光大銀行開展了以配置管理為核心的監管控一體化建設,它的核心是配置管理,配置管理平台的架構採取「中央集權+分而治之」的分級管理模式,充分發揮集中配置庫管理與各專業配置庫管理的作用,實現服務視角配置信息網。它集的是管理信息的權,治理的是各專業領域的配置信息,包括應用配置庫、系統配置庫、網路配置庫、機房配置庫等,再對各類配置信息進行數據加工和整合,形成全局的配置信息。

有了統一的配置庫後,又如何保證配置的準確性呢?我們主要採取了三個手段

第一是配置項的標準化,包括建立配置項的模板、可擴展的配置項模型;

第二是所有的配置項通過自動化的方式進行採集;

第三,即基線的自動比對。

在操作原子化的場景組合編排中,我們首先是將日常運維場景中的操作,以操作簡單、可重用原則為基礎進行原子化拆分,規範輸入輸出,由二、三線運維人員在平台中進行原子腳本和功能的實現;根據不同應用場景,對原子操作進行組合,形成場景化的工具/流程交付給一線運維人員使用。

光大銀行建立起了以自動化為賦能手段的科技知識共享體系,通過場景組合的設計理念,二線、三線運維人員將專業知識固化為工具,實現一人提供、全員共享運用,屏蔽人員能力差異;並通過全覆蓋式逐級轉移交付:涉及人員廣(一線+二線+三線)、覆蓋流程全;通過服務處理+預案演練+系統切換+變更參與等過程強化知識轉移效果。

此外,光大銀行還實現了多中心協同的開發運維一體化,開發、測試、生產等環境使用同一技術平台,跨環境遷移部署,貫穿一致;通過在開發、測試、生產三個環境上的自動化實現應用構建與交付的標準落地;運維人員牽頭,利用應用模型與差異化的參數管理實現環境的一致性管理,大幅提升了應用交付的效率和自動化投產能力。

智能化運維探索與展望

最後談一談光大銀行對智能化運維的探索。有人認為智能運維最主要的一點是對規則的打破,甚至是沒有規則,但我不完全同意這個觀點,我認為它代表的是新規則的形成。智能化運維之前,我們經歷了工具化運維階段,這是一種主動的運維;接下來是服務化運維,實現了從運維到運營的轉型;最後才到智能化運維。

智能化運維建設的重要基礎是實現海量數據的管理與分析能力,建立系統的自我學習能力。在海量運維數據平台建立之前,運維數據是孤立的,數據量不斷增大,部分數據被丟棄,數據分析也不方便;平台建立之後,數據可以全面採集、統一管理、融合分析,並可選擇合適的機器演算法進行告警預測、智能動態基線告警等。光大銀行通過智能化運維分析平台的建設,在網路防火牆數據分析發現異常流量、生產系統運行趨勢分析、監控告警的精確定位進行了一些實踐,取得了初步的成效。

從智能化運維面臨的挑戰來看,首先仍然是要保證安全優先、穩定第一;其次是要轉變傳統的運維思維方式,實現運維人員開發化,要有能力寫腳本、搭平台、制定非功能需求等,實現運維前移;再次是要進行海量數據管理和機器學習;然後是要進行智能化運維的賦能,真正形成標準化、知識化、工具化,並可有效應用、持續改進的閉環運作模式;最後再談一點,要思考智能化運維的安全,這一點是所有人都不能忘記的,智能化運維實踐以後,前期對於安全風險的評估必須到位,以光大的自動化運維相關係統為例,每季度還要定期演練系統失效時能不能支撐變更、事件處置、批量執行等場景。

對於光大銀行的自動化和智能化運維來說,目標就是要實現運維人員從圍繞系統工作到圍繞數據和自動化工具平台開展工作的轉變,通過智能化運維繫統進行數據分析和輔助決策,通過自動化運維平台進行運維任務的執行和處置。以上是我們對自動化和智能化運維工作的思考和實踐,也歡迎業內同行和我們進行交流。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT即服務 的精彩文章:

TAG:IT即服務 |