當前位置:
首頁 > 最新 > FinTech時代三大商業銀行數據中心運維管理策略與實踐

FinTech時代三大商業銀行數據中心運維管理策略與實踐

關注一下,更多精彩等著你!

關注一下,更多精彩等著你!

FinTech時代,全球範圍內的社會形態、商業生態和客戶行為發生深刻變化,科技賦能效應日益明顯。IT已經從內部運營支撐工具逐步演進為企業的核心競爭優勢,對商業銀行更是如此。

商業銀行如何藉助以雲計算、大數據等為代表的新興技術夯實運維基礎?如何從戰略層面審視並構建一體化的運維管理體系?如何在降低成本、保障信息安全的前提下打造高效節能、高可用、低風險的綠色數據中心?……諸多問題需要業界進行不斷探索與突破。

本文將分享中國銀行、農業銀行及工商銀行在數據中心的運維管理方面的策略及實踐。

中 國 銀 行

數據中心運維轉型策略與實踐

一、數據中心智能化運維總體規劃

在前期積極探索、局部試點的基礎上,中國銀行將智能化運維體系建設列為科技引領數字化發展的重要任務,數據中心成立了智能化運維工作組,以系統工程的思維,強化頂層設計、前瞻規劃,整體推進智能化運維體系建設工作。

1.規劃總體思路

與互聯網企業相比,中國銀行業務交易類型更為豐富,技術平台更加多樣,基礎設施架構更為複雜,數據一致性和準確性要求更高,實施難度和挑戰也更大。因此,中國銀行立足於自身實際需要,結合業界發展趨勢,依照「把握一個原則、實現兩個融合、提升五大能力」的總體思路,規劃智能化運維體系。

「把握一個原則」,即把握安全合規與敏捷高效相平衡的原則;

「實現兩個融合」,即實現雲計算、大數據、物聯網、虛擬現實、人工智慧等新技術與傳統運維技術相融合,實現技術手段進步與管理流程優化相融合;

「提升五大能力」,即重點提升運行狀態的趨勢預測能力、生產事件的精準定位能力、運維操作的自動化執行能力、系統的靈活擴展能力和服務的快速交付能力,逐步實現運維模式從事件驅動型向數據驅動型的轉變。

2.智能化運維體系技術框架

中國銀行數據中心以「平台化、集成化、自動化、數據驅動」為目標,設計了智能化運維體系技術框架。該框架共包含:基礎設施層、數據演算法服務層、自動化運控層、交互管理層、智能化監測層、開發與質量控制層等六個層面。各層面有機協同,共同構成智能化運維體系的技術平台支撐(如圖1所示)。

基礎設施層:主要是指數據中心的「運維對象」,是智能化運維體系的「地基」,由傳統集中式架構下的「兩地三中心」環境、新建分散式私有雲環境、以及雲化資源管理系統三部分構成。

數據演算法服務層:「數據驅動」是智能化運維體系的重要特徵。使用配置管理資料庫(CMDB)管理應用部署信息、網路配置等靜態數據,使用大數據智能演算法平台對性能容量、日誌、網路流量包等動態數據進行集中收集、存放。利用統計演算法、圖演算法、數據挖掘演算法,對多源數據進行關聯發掘分析,供智能監控、生產安全管理等上層平台進行模型的訓練優化與消費,從而將信息激活並轉化為知識和洞察力,作為輔助決策和智能自主判斷的依據。

自動化運控服務層:日常運維自動化、資源供給自動化和應用發布自動化,是數據中心自動化管理的三個關鍵領域。通過自動化運控服務層,對分散的工具進行整合,集中管理各領域的自動化腳本,以組合編排的方式,形成跨應用、跨平台的關聯自動化調用能力,延長自動化鏈條。同時參考敏捷開發流程和DevOps工程理論,形成以版本交付為核心的開發、測試、投產上線一體化流程。批量自動化平台可以與大數據演算法平台聯動,用於分析優化批量關鍵路徑,預估批量執行窗口等場景。

交互管理服務層:該層的核心是流程管理和運維協作兩個平台,主要用於承載數據中心大型工程項目跨團隊協作所依賴的兩條信息流,即流程管理信息流和技術交互信息流。流程管理平台需要進一步發展,使之與自動化的運維操作相適應,逐步實現基於規則的自動化變更審核、自動化流程審批和智能化工單分派。運維協作平台將技術信息的交互過程由線下轉為線上,與自動化運控平台、配置管理資料庫和雲化資源管理系統聯動,使配置信息的生產和消費形成閉環,實現數據驅動的完整自動化過程。

監測服務層:在智能化運維體系中,監測服務層一方面是數據的重要提供者,另一方面也是數據的消費者。監控管理和安全管理,既是運營管理的關鍵領域,也是落地運用數據挖掘、機器學習、人工智慧等新技術的主要場景方向。未來,監測服務層將構建面嚮應用的監控視圖,基於數據演算法服務層和自動化運控服務層支持,提升威脅智能化分析、精準告警、問題快速定位等能力,輔助事中決策,並實現應急處置、安全防護、以及用戶行為審計的自動化。

開發與質量控制服務層:通過制訂統一的運營工具研發標準、建設運維工具的集成開發測試基礎設施、設計中心級運維平台工具的開發框架和公共服務,來兼顧共性與個性的運維需求,實現前述各平台工具的有效集成,形成平台化、整體化的運維工具體系。

3.智能化運維體系建設策略

智能化運維體系建設是一項系統性工程,需要協調推進,久久為功,重點應處理好以下幾個關鍵問題:

一是循序漸進,處理好長遠目標與近中期目標的關係。從運維體系發展的規律來看,標準化和自動化是實現智能化的基礎和必由之路。同時,在數據中心,標準化和自動化所適用的應用領域,也遠多於智能化。因此,中國銀行將紮實開展運維標準化工作,不斷提升運維自動化的覆蓋面,為智能化建設打牢根基。

二是要分清主次,結合中心發展要求制定合理的實施路徑。智能化運維體系工程浩大,實施難度高,需要聚焦重點、有所側重、持續建設。私有雲中心建設是中國銀行進行數字化轉型的重要舉措,數據中心將以此為契機,以適應互聯網場景下業務的快速敏捷交付為目標,瞄準業界先進,面向未來,在雲環境上率先設計一套高起點的自動化、智能化運維管理平台。

三是要做好運維數據治理。數據是智能運維的「血液」。在智能化運維體系建設中,需要設計標準化的數據關聯格式,逐步實現數據在各平台工具間的交換共享和有序流動,提高數據的綜合分析利用效力。

四是要做好管理流程變革和新型人才培養。智能化運維體系建設涉及「人員、流程、技術」的全面革新,需要統籌推進,任何一方面的短板都可能導致變革失敗。因此,建立簡明、高效、適用的配套管理機制,培養數量充足的FinTech新型人才隊伍至關重要。

二、數據中心運維轉型實踐

近年來,中國銀行著力打造「場景生態豐富、線上線下協同、用戶體驗極致、產品創新靈活、運營管理高效、風險控制智能」的數字化銀行。科技體系正積極推進全行雲平台、大數據平台、AI平台三個基礎平台建設。數據中心的智能化運維轉型實踐,也首先圍繞私有雲中心的建設展開。

1.雲中心基礎設施建設

中國銀行自2015年開始開展雲平台應用實踐,在生產中心搭建了雲平台,為運維管理和日常辦公提供雲計算服務支持。同時,也為各分行網路金融類特色業務發展的需求提供託管服務,以自服務模式滿足總分行對IT資源快速交付、彈性擴展的需求,為大規模建設雲中心積累了經驗。

作為配合數字化轉型戰略的重要舉措,今年以來,中國銀行加快推進分散式私有雲中心建設,將其作為全行FinTech業務的主要載體。相對於傳統數據中心,雲數據中心建設轉變為面向服務的架構設計,秉承高效、可靠、綠色的設計思路,以基礎設施敏捷部署為目標,為提升數據中心的交付能力奠定了基礎。通過採用微模塊架構、SDN網路技術,構建IaaS平台和PaaS平台,雲中心實現了高密度、集約化、自動化的資源分配,有力地支撐了上層應用構建高可靠、高可用、可彈性伸縮的金融業務服務。在此基礎上,打造基礎設施綜合運維門戶,基於三維可視化技術對機櫃能耗和溫濕度進行監控、基於物聯網RFID電子標籤技術進行資產管理,並探索使用智能巡檢機器人、增強現實(AR)技術等輔助運維工具,來實現數字化高效運維。

2.研發雲中心智能化運維平台

結合數據中心智能運維體系總體規劃,在雲中心以X86分散式系統為主要運維對象,構建「雲圖」智能運維體系(如圖2所示)。「雲圖」智能運維體系在設計上以輕量級ITSM為指導思想,在架構上基於開源軟體進行分層設計、模塊化部署,向下對接混合IT基礎設施,向上支持不同類型應用,基於業務與應用視角,實現IT資源服務化運營、應用自動化快速交付、容量智能分析等運維全生命周期閉環管理。

配置管理層面,傳統靜態資源視圖與實時採集的動態資源視圖相結合,形成雲中心全方位、多層次、多角度的CMDB配置信息庫,可為資源容量規劃、應用故障排查、交易串聯分析等運維場景提供有力支撐。

運維數據分析層面,通過收集生產中產生的各類系統、應用日誌,以及性能數據,運用大數據分析技術與深度學習演算法,實現包括動態APM指標監控、容量預測、輔助故障定位、告警聚合等功能,提升運維主動性。

自動化執行層面,通過工作流引擎實現任務可視化編排,固化日常運維動作,自動化完成安裝部署、健康檢查等變更操作,強制變更前後自動化校驗,達到減少人為失誤、促進安全生產的效果。

DevOps方面,通過引入容器資源編排與集群管理、代碼託管與版本管理、CI/CD持續集成與持續部署、項目可視化管理等工具平台,可大幅提高應用從需求提出到最終上線的速度,滿足業務的敏捷迭代、快速發布需求。

安全管控方面,整個「雲圖」智能運維平台通過數據中心統一的一體化訪問控制平台進行單點接入,使用動態口令隨機生成密碼、操作錄屏、操作日誌事後審計等技術手段,滿足數據中心運維操作安全合規的要求。

3.配套管理機制轉型探索

精簡優化現有制度和流程。中國銀行在規劃運維轉型的過程中,高度重視管理流程與技術平台的融合,以敏捷高效為目標,精簡優化資源調配、變更管理、訪問控制等配套管理流程,適應未來雲中心快速迭代、自動交付的需要。

積極探索「IT雙速」機制。一方面,不斷優化提升傳統瀑布式項目投產效率;另一方面,與科技體系各部門緊密協同,針對全行戰略性重點項目,成立跨部門的高效融合項目組,整合全行科技及業務資源,突破現有項目管理機制,實施全流程敏捷機制,全力做好配套資源保障,實現速贏見效。

4.積極開展FinTech新型人才隊伍培養

著力打造新型人才隊伍。今年以來,中心面向未來發展,建立了「三橫三縱」矩陣式培養體系,以「互聯網安全專家」、「數據分析師」、「系統架構師」三支新軍,以及「英才計劃」、「先鋒計劃」和「兼職講師計劃」三個計劃為抓手,積極打造青年專家隊伍,為建設新時代全球一流數據中心提供高水準、數量充足的專業人才支持。

不斷壯大運維開發力量。一方面,由專職運維開發團隊負責中心級運維工具、運維平台的建設。另一方面,各技術團隊成立運維開發小組承擔細分領域運維開發任務,打造「統分結合」的運維開發人才隊伍,為智能化運維轉型奠定堅實的人才基礎。

農 業 銀 行

構建開發式運維生態系統

一、數據中心當下運維主要矛盾

農業銀行數據中心歷經十餘年發展,生產運行安全平穩,IT治理成效顯著,日均交易量保持5億筆以上,為外部客戶和行內業務部門提供了穩定可靠的生產運行環境,但也存在不少深層次的運維問題,制約著農業銀行金融科技的發展。

1.運維模式受限

為了應對產品多樣性和需求的高頻變化,應用產品的敏捷、迭代開發、灰度發布等概念逐步應用於軟體開發的整個管理過程,傳統的運維模式已無法完全滿足快速的應用產品需求,這是倒逼農業銀行數據中心要走出傳統運維道路,要促使運維為金融科技服務的主因。

2.運維工具眾多

各部門根據自身需求自研或者外包開發採購了運維工具,各工具相對獨立,表現為縱向緊耦合,橫向無關聯的煙囪式建設特點,信息孤島效應明顯。後期在開源技術的帶動下,運維工具更是層出不窮,運維工具缺乏統籌,管理半徑無限擴大的窘局也日益提出。

3.系統環境交錯

農業銀行數據中心的系統硬體從大型機、小型機到X86,資料庫從Oracle、Sybase 到 MYSQL,供應商從IBM到 EMC、華為、 HP、CISCO等更是不勝枚舉,呈現數量多、品牌多的特點,不同設備間獲取信息的手段、方法、自動化程度各不相同,這也間接導致運維部門不得不付出更多人力成本去收集伺服器信息。

4.排障行為複雜

由於系統和應用間錯綜複雜的交互關係,一旦業務出現異常,多環節多並發的排障行為往往需要多個部門聯合行動,稍有偏差則可能擾亂全局導致異常處置不及時。此外,自動排障行為觸發和跟蹤的機制尚未健全。

5.運維文檔滯後

傳統運維依賴於運維經驗的沉澱,「救火事迹和經驗」能在運維文檔、應急文檔中形成完整材料。但如果下一次異常事件的表象稍有不同,就很難與應急手冊契合。這種經驗式運維方式造成運維人員水平參差不齊,問題排查和恢復更多依賴經驗豐富的技術骨幹,年輕運維人員很難在短時間內得到提升。

二、謀求發展轉型

農業銀行數據中心根據內外部的金融科技形勢,選擇開發式運維生態系統,為了提高運維工具的針對性和開發效率,在運維人員中成立獨立的開發團隊,開展了操作運維向開發運維轉型,形成運維工具整個生命周期中運維與開發相互融合的管理模式,並以此制定自動化發展的規劃,做到更好地為金融科技服務。

1.理念轉型

理念轉型是助力金融科技發展的根本保證。數據中心要成功實現運維轉型,首要在理念上摒棄傳統的「人肉」運維模式,杜絕人海戰術、避免被動運維。具體來說分為三個層面:

上層領導者要確立生產運行自動化建設指導性戰略,以3~5年為目標,自上而下推動數據中心自動化建設;

中層管理者要積極適應開發和運維帶來的新變化,長遠來看,一體化、自動化運維會將把一線運維人員從繁瑣操作中解放出來,形成自動化統一的開發式運維格局;

下層執行者要主動跳出自身舒適區,在統一的自動化規划下積極思考自動化運維需求,將日常繁瑣、高風險、人工檢查和操作融入自動化系統中,從監控、流程、操作、資源管理、安全審計、統計分析等多個角度統一思考,學習編程技術,在統一框架下實現自動化需求。

2.組織架構轉型

組織框架轉型是助力金融科技發展的關鍵手段。開發促進運維轉型的第二步是成立一支專職研發隊伍,負責全中心生產運行自動化規劃和集中研發,對外提供開發框架和基礎功能模塊。各專業處室成立自動化開發組,以聯邦制形式對各專業需求進行個性化開發。

聯邦制開發包括合作開發和獨立開發兩類。自動化開發初期,以合作開發為主,隨著各專業處室開發技能的提升,開發模式轉為獨立開發,在整體自動化規劃的基礎上,使用共同開發框架和基礎模塊介面,遵循技術規範,各處室獨立開發實現自動化需求。

3.開發模式轉型

開發模式轉型是助力金融科技發展的重要突破。傳統開發模式迭代周期長,最終產品能滿足使用需求,但從「能用」到「好用」之間存在較大差距。在以開發促進運維轉型上,需要積極探索業界先進軟體開發模式與經驗,引入敏捷項目開發模式,結合精益管理相關經驗,形成符合部門開發現狀的敏捷開發模式。

一是快速迭代開發。以2~4周為一個迭代周期,分解項目複雜度,降低開發風險。小版本快速迭代方法可以快速將需求轉化為實際應用,應對項目初期需求的調整,防止因項目長期進展慢影響團隊開發士氣。

二是全程參與。針對需求、開發、測試脫節的情況,運維需求部門指派專人全程參與開發,制定版本開發計劃,開展高效協作。開發過程中遇到的問題隨時與運維需求方溝通,小版本開發完畢後快速開展測試,將功能測試與業務測試的結果快速在下一版本中優化,在需求、開發和測試三個環節形成正向反饋閉環,需求邊界在一次次交流中得到確認,儘早修復代碼缺陷,確保代碼開發質量和開發效率。

4.構建自動化運維平台

構建自動化運維平台是服務金融科技的最佳承載形式。一個部門提供基礎環境,其他部門在平台上協作開發,形成一個穩固的多邊運維生態,以保障運維的高效、安全和連貫。農業銀行數據中心自主研發了自動化運維平台,借鑒互聯網「連接一切」的技術思維,從生產運行生命周期視野實現了專業層面「互聯互通」,把原本割裂的專業信息整合在一起。

農業銀行自主打造的平安是福平台,通過六大模塊構建五大產品,實現數據中心全局信息的互聯管控(如圖1所示)。

配置管理產品的功能需求涵蓋資源生命周期管理、配置查詢與審計、配置信息採集與分析;

監控整合產品涵蓋統一數據採集與存儲、性能管理、基礎設施監控、統一展示、監控分析與應用;

流程整合產品涵蓋流程與自動化操作聯動、流程與資源配置聯動、流程與監控聯動;

數據分析產品涵蓋分散式數據採集、分散式數據預處理、海量數據存儲、即席數據查詢、數據分析應用擴展、數據建模與分析、大數據應用場景、數據管理流水線;

資源可視化產品的功能需求涵蓋資源架構可視化、監控可視化和操作可視化。

5.藉助新技術實現彎道超車

隨著雲計算、大數據等熱門技術的發展和普及,農業銀行數據中心在確保安全生產的前提下,主動擁抱金融科技的新理念,藉助新技術實現彎道超車。金融產品的正常銷售、銀行業務的穩定運轉離不開數據中心的科技支撐。

一方面,數據中心針對部署的金融產品,以交易發起到交易返回整個路徑的生產運行單位為成本中心,在展示基本的交易量、成功率、響應率等運行性能指標外,結合人力、物力的標準化過程,通過配置權重規則,合理計算運行成本,將成本收益比通過具體的數據進行可視化展現,幫助管理層和決策者綜合判斷金融產品的收效。

另一方面,農業銀行數據中心正在運用大數據技術,以海量的批量節點歷史用時數據作為基礎,提取周期、趨勢分量並生成預測區間,動態計算關鍵路徑並比照原始關鍵路徑,若節點用時超出區間閾值或改變關鍵路徑開銷則發出相應告警。

工 商 銀 行

數據中心大型主機智能化運維

工商銀行的大型主機系統日均承載交易量達到5億筆,系統穩定運行的壓力巨大。IT運行的基本目標是穩定和安全,核心目的是為業務服務,如何改變大型主機傳統的運維模式,結合分散式、大數據、人工智慧等新興技術的應用,提升主機運維的自動化、智能化水平,是大型主機運維人員的著重發力點。

一、運維數據標準化

第一步:對各類性能、監控、運行數據的梳理、整合、入庫,標準化處理

將原本分散的性能類事件、監控報警、運行狀態數據等內容整合,實現數據統一規劃與存儲。然後對相似的指標進行標準化處理,對齊時間片,規範數據單位,統一格式,易於管理與抽取。

第二步:建立大數據平台,為分析挖掘建立基礎

2016年通過搭建主機大數據平台,完成了主機大數據池建設。結合大數據分析思維,著重對各種關聯關係的分析和挖掘,對交易進行實時分析,研究故障規律,完成了主機資源智能監控和主機系統健康模型的研究。通過多角度分析主機監控、性能、業務等方面歷史數據,充分發揮這些數據在安全生產以及支撐業務等方面的價值。

第三步:數據可視化展示

通過建立統一的運維門戶,在PC端將各類監控、報表、信息查詢等操作統一了入口,向運維人員提供可定製化的欄目。同時利用數據可視化技術,將原先的一些報表內容展現為界面友好、可視化程度較高的圖標,用於全方位地了解生產運行態勢。

二、監控體系智能化

1.對關鍵監控對象採用動態閾值監控

主要目標是要對各個系統關鍵指標的合理區間進行預估,利用預測區間可以較好的判定指標當前運行是否處於正常範圍。因傳統ARIMA模型對於預測大量數據以及周期性數據上的局限性,我們對這個模型進行了改造。改造後的模型可以提前24小時預測次日所有時點的指標區間。整體預測有效性達到95%以上,高峰期預測誤差下降至4.3%,每日峰值預測誤差下降至3.98%,取得了不錯的效果。

通過引入大數據和機器學習技術,監控系統有效地提升系統自動化判斷異常的能力。通過選取隨機森林、線性回歸、XGBoost、深度學習ANN等模型,根據指標的歷史數據,自動給出當前系統狀態下各指標的合理值,利用合理值與實時值的差別量化系統異常。目前該模型已經對部分重要的地址空間運行狀態上線生產,並取得了良好的成效。

2.對報警事件的分析壓降

通過實施監控信息與性能指標多維度組合、動態閥值設置、取消冗餘監控、信息摺疊等優化措施,實現報警壓降從月均2371條下降到1361條,降幅43%。夜間報警量從2017年12月的221條下降到月均141條,成效顯著,報警總量得到了控制,減輕了日常運維人員的壓力。受益於模型的引入,對一些原本被漏報的事件也能夠準確報出,報警有效性得到提升。

3.監控和應急有效聯動

再結合實時獲取的系統事件,監控系統能夠及時準確地提示系統隱患,自動提示問題發生的可能原因,進一步關聯至對應的應急預案,為問題處理提供快速有效的應急措施。

四、日常操作自動化

研發了每日健康檢查、問題跟蹤、故障診斷、一鍵式報表生成、知識共享平台等模塊功能,實現了每日數千項性能指標的自動化檢查、基於大數據技術的海量日誌分析、故障輔助診斷、問題的自動化管理和報表的快速定製及一鍵式生成的,有力提升了主機專業線的生產風險控制能力。為主機運維人員設計了高效、便捷、實用的知識共享模塊,將主機運維的經驗和技能固化成模式,並利用前沿技術為主機運維人員提供一個簡單、高效的事件處理和知識共享平台,提升主機運維的自動化水平。

通過變更流程規範化、變更分類梳理,合理安排變更實施步驟和順序,在主機側實現部分變更自動化提交和實施,截至2018年上半年,變更自動化率已達到35%。

在上述基礎性改造之上面向主機一線運維需求,規劃設計統一的主機智能運維平台。採用業界主流開發技術,旨在從數據標準化、系統間聯動和智能化應用三個角度出發,結合主機日常維護和一線生產需求,實現主機監控智能化、應急變更自動化和性能容量可視化,並引入大數據、機器學習等先進技術,實現交易實時分析和日誌挖掘,從而不斷提升主機運維工作的標準化、自動化、智能化和可視化水平。

主機智能運維平台自上線以來,不斷優化、不斷創新,實現了一系列具有主機系統專業特色的亮點功能,包括:自動化分析交易毛刺、生產告警信息的輔助處理及歷史事件自動關聯、一鍵式生成性能報告、極簡式搜索性能指標、知識庫全文搜索、一屏式監控,問題跟蹤、一鍵式PTF、交易預估等。為提升主機生產運維的自動化和智能化水平,我們不斷加強運維團隊的生產風險控制能力,為主機系統的穩定運行提供了強有力保障。

五、合縱連橫,探索主機智能運維未來

實現智能化運維,除了關注技術範疇,也要兼顧業務視角,將先進技術和生產主機系統技術指標以及銀行的業務指標進行融合。將創新思路積累和開發運維經驗固化為有利模式,形成迭代式的開發和優化機制,持續優化已有策略並不斷完善,與此同時,積極與開放平台、網路專業協同聯動,並整合人工智慧、機器學習、AIOps等新興技術,形成新的思路,不斷向「讓銀行大型主機的運維、銀行數據中心整體運維實現智能化」的目標邁進。

1.主機調用服務化

大型主機在高性能、高可用、高穩定性上有明顯的優勢,但在開放性和與其他平台的交互方面歷來是短板。在全面雲化的趨勢下,為將主機資源、主機世界納入全數據中心的靈活納管體系下,我們一方面積極推動主機平台產品的開放性改造,另一方面也通過自主研發:一是單一功能模塊化封裝,將主機的常用功能實現原子化服務化改造,改造成可對外披露的API;二是自主研發麵向主機的流程引擎組件,實現面向場景化的靈活流程的組裝調度,並支持支持跨多個SYSPLEX、高並發等特性,並能其他開放平台進行實時交互、敏捷聯動,不僅提升了主機運維工作的管理集約化、智能化水平,更可實現數據中心層面運維的高效聯動。

2.監控指標精微化

監控指標的精細化和分級化是運維精細化的基礎。需要審視現有的監控指標,對指標進行分類,微觀宏觀指標兩者要齊頭並舉。

首先對大型主機健康指數指標進行優化,利用唯一性的指標,實時發布並展示大型主機系統當前的業務支撐能力與對外服務水平。該指標準確性與實時性的好壞將對運維人員的判斷產生決定性影響,所以首先要對所有原子指標的準確性進行優化,然後利用經驗權重對原子指標進行實時計算,最終獲得具有實際指導意義的主機健康指數。該指數分為主機系統級、子系統級、原子指標級,每一級都是下一等級指標的加權平均,分級指標可以輕鬆地實現鑽取以及尋找異常區域。

3.應急操作智能化

準確判斷故障根因,並第一時間採取應急措施,在最快的時間內恢復生產,是一線生產運維的目標。為此,我們需要從業務視角對系統和外圍進行全盤監控,基於大數據分析對系統進行畫像建模,並在第一時間捕獲異動,自動識別故障類型,完成應急處置,將問題解決在萌芽狀態,防止其擴大化。

2018年年底,將在主機智能運維平台上部署自動化變更系統和智能巡檢系統。前者旨在通過標準化變更流程,可視化展示變更實施的進度和狀態,自動統計自動化變更的佔比、正確率及長期趨勢,在平台側對主機變更進行可視化全流程管理和一鍵式實施,助力提升變更自動化率。後者旨在通過基於專家規則與機器學習相結合的智能巡檢、系統健康評估、報警聚合壓縮等舉措,實現主機運維工作從被動響應到主動服務,故障定位從人工分析到智能分析,應急操作從主機端到平台側一鍵式交互的轉型。這兩個系統的投產應用,必將主機智能運維平台的應用推向新高度。

4.積極布局移動端

除在傳統運維採用ECC集中管控的模式之外,隨著移動互聯網的迅猛發展,我們也積極拓展面向移動端的運維管理渠道。通過藉助移動端監控頁面,讓運維人員能夠7×24小時了解生產運行態勢。運維團隊將傳統PC端監控頁面逐步遷移至移動端。在數據從主機實時下傳後,數據處理加工、模型調用、推送展示的全過程在平台端實現,所有和展示相關的內容實現了主機資源零消耗的目標。

2018年,建成移動端的「掌上運維」門戶,將交易、業務分布、大型主機系統運行指標等內容進行實時展現。上線一個月訪問達3000餘人次,在出現生產問題的時候,可以在任何地方第一時間關注到各系統的指標狀況。將來,我們會加大在移動端的建設力度,展示更全面的監控信息,並將機器學習相關內容融入到各頁面之間,讓智能化運維的成果在移動端得以展現。

(來源:中國金融電腦)


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 金融時代網 的精彩文章:

蘇州銀行:新核心新使命 開啟信息化建設新旅程

TAG:金融時代網 |