數字經濟時代的智能化大數據治理
作者 | 焦烈焱
來源 | EAWorld
當今,數字化轉型正在各行業快速發展,以數據、流量、知識為主的的數字經濟時代到來,數據在其中的重要性不言而喻。
在企業內部,數據團隊正逐漸變成一個專業、獨立的部門,未來數據部門的肩上要扛起包括保證數據質量、管理數據架構、提供平台與工具等在內的各種數據相關的職責,來支持各方對數據的使用、形成企業的數據資產。做為支撐數字化轉型的基礎設施,數據治理已經成為數據團隊履行數據職責的重要手段。
我們正在嘗試通過一些智能化的技術來實現數據治理,建立企業統一的數據工作環境。本文主要介紹了通過智能化的手段來實現大數據治理的一些技巧,以及其中的核心技術。
目錄:
治理數據,從發現數據問題開始
三個智能化大數據治理的案例
大數據治理的十大智能化能力
總結
1
治理數據,從發現數據問題開始
科學探究的過程一般是從發現問題開始的,數據治理也是如此。先發現問題,再尋找解決方法,最後提供相應的技術支撐,這是做數據治理的一般思路。
企業中常見的四類數據問題
在顛覆企業業務的數據經濟時代,數據無疑成為企業擁抱變化的基礎,數據跟實體一樣變成了生產資料的一部分。但是我們仔細觀察之後,會發現企業存在著各種各樣的數據問題:
第一類問題就是數據資產不清晰。現在很多企業都不了解自己的數據,企業中到底有多少數據?數據都是什麼樣的?這些數據到底可以發揮什麼作用?很少有人能準確回答出這些問題。
第二類問題是數據質量不高。現在因為數據質量不高而影響企業業務的例子有很多,在這裡就不多說了。
第三類問題是業務和開發的協作問題。數字經濟時代,業務對數據的需求和以前不同了,以前在數據倉庫的模式下,開發是先把一些工具歸併出來,再做成一個整合提供給業務,現在業務需要進一步明晰數據是什麼,要自己看有哪些數據可以發揮出想要的價值。
還有一類問題是知識和數據難以關聯。比如我們發現拿給業務看的數據和業務概念之間往往不能很好地匹配。舉一個金融行業的例子:業務想要一個頭寸的數據,但是到底在哪個地方,哪一種頭寸說不清楚,像這種數據和知識的關聯是很難建立的。
通過大數據治理提供多種數據服務,從根本上解決數據問題
傳統數據治理更多是在強調通過一些流程和制度把數據質量提高,並不能很好地解決以上種種數據問題。現在做數據治理,更多是為大家提供統一的數據服務的能力,從而讓數據問題得以解決。
這樣的環境應該包括哪些東西?需要能解決一些什麼樣的問題?簡單總結就是四個字:管(Manage)、看(Browse)、找(Discover)、用(Apply)。
管。這部分不用多說,也是之前做數據治理的重點。
把海量的數據管起來,需要建立元數據的模型,比如說我們做客戶畫像的時候,可能根據客戶信息建一些元數據,做服務數據的時候,可能會根據交易介面做一些元數據,做數據倉庫的時候,可能會根據這個數據倉庫建立一些元數據。我們管的時候,需要建立整個企業層面的元數據以及跟合作夥伴打交道的元數據,這樣才能把所有的數據和數據之間的關係統一整合起來,而這些元數據不是手工錄入進去,而是采進去的。後面會講到我們元數據的智能化採集,這是能體現數據治理智能化的概念之一。
看。管理層面的人都比較關心企業數據的總體情況,如何才能讓領導和員工都能了解到企業數據資產的情況?讓企業數據以 360 度的方式呈現在大家面前?
很多人都說過數據治理太技術化了,做完之後領導看不到效果,業務價值難以體現。能否「看」得到,是我們在做數據治理時能否拉到同盟軍,建立統一戰線的一個非常重要的手段,如果到最後連效果都看不到,很難把數據治理推行下去,也很難得到領導的支持。「看」的部分是能展現數據治理效果、決定數據治理成敗的主要部分。
找。如何才能在海量數據中把數據和其中的關係找出來?如何讓業務像 Google 搜索一樣來查找需要的數據,而不是還像之前一樣只能接收經過開發整理好的數據?如何才能找到匯總數據之外的數據,比如指標數據、明細數據?
要想實現「找」,要建立業務元數據跟技術元數據的匹配,後面會講到我們用到的知識圖譜技術,其中的難點是如何通過業務含義來查找數據,如果從技術含義找這些數據其實問題不是很大。恰恰我們做數據分析做使用都是從業務含義上來找,需要找到語義以及語義的上下級的關係,並且做一個延伸的搜索。
用。找到數據之後,如何快速有效地用起來?
很多人可能會問,找都找到了,「用」還不簡單嗎?其實沒有那麼簡單,脫敏怎麼做?大家出現爭執的時候怎麼做?供數部門說我已經給了你 5 個 G 的數據,需求部門說我怎麼沒有發現?這時候就需要一個裁判,來判斷究竟是誰的問題,這 5 個 G 的數據是沒有取走,還是提供的數據有問題,這是用的問題。
以前把數據清洗完進倉庫,到集市裡面去,時間非常長。現在我們通過數據治理這個統一的工作環境來干這件事情。在這個工作環境裡面把管、看、找、用四件事全解決了。而如果僅僅站在傳統數據治理的角度看這個事情,很難把這個事情做好,必須把這個事情放大,提供這樣一個統一的數據工作環境,讓大家用這個數據。這是我們做數據治理十多年來總結出來的一些經驗。
智能化還是純手工?
通過手工的方式,也可以基本滿足提供多種數據服務的要求,但是我們知道手工方式的代價和成本太高了,需要選擇更智能化方式來實現大數據治理的工作。如果不能做到 100% 的自動化,那就儘可能追求最大程度的自動化,只要做到一部分就有非常大的幫助了。
2
三個智能化大數據治理的案例
與傳統數據治理相比,智能化大數據治理需要在四個方面有所突破:
轉變目前數據團隊的目標與組織架構,明確面向數據自服務的數據管理職能;
梳理現有全業務系統的數據架構,形成可逐步演進的企業元數據;
為數據的使用方提供數據生產線,為數據的收集 / 轉換 / 存儲 / 探索 / 可視化等提供方便的工具和研發過程;
建設有別於數據倉庫的數據湖,在此之上形成企業數據資產。
下面用幾個例子跟大家分享一下我們今年在做智能化數據治理上做出的一些成果:
提升數據共享的航空業智能化數據治理
現在有很多數據,該航空公司希望通過數據分析出春運的表現,這些數據一定是有的,但是這些數據在哪裡?這個公司有 100 多個系統,有很多需要的數據分布在好幾個系統裡面,甚至某些數據之間還存在衝突。
這種情況下先要提供「摸家底」的能力,先通過自動化的方式找到現在有哪些數據,企業的主數據,數據主題都有哪些,映射關係是什麼樣,只有自動化採集的方式才把這些元信息儘可能多地採集出來,並把數據從業務系統到倉庫、集市、報表之間的流轉關係打通。
對於我們來說說簡單也簡單,說複雜也複雜,通過源代碼的分析建立關係,而不是完全通過手工的操作建立這樣一個關係,最後形成下圖這樣一個數據體系,在這個數據地圖裡面知道主輔系統是什麼樣子,知道在哪裡能找到需要的數據。自動化把家底摸清楚,這其實是解決了我們第一個階段的問題。
最終,是要做到提供數據服務的能力,這些年的數據治理實踐中我們發現不能把數據治理做成高高在上的,一定要把它做到日常工作中,這樣才能起到治理的作用,要把這個東西作為一個底層提供出來,讓應用開發、數據開發都可以用,這是我們做數據治理的一個目標。
提升風險管理能力的證券行業大數據治理
大家知道這兩年證券行業有一些變化,監管的要求比以前高了,如果大家對資本市場有關注,就會發現證監會對證券公司有很多監管上的數據要求,也就是說提供證券公司監管報送的時候,數據要保證是正確的,在這種情況下就需要建立數據治理以及質量管理的機制,知道怎麼樣通過風險控制的指標做這樣精細化的管理,這需要把現在的一整個 IP 系統建立數據治理的流程:從評估分析開始,到體系規劃,到數據梳理,最後把它落到上文講到的統一的數據工作環境中來。
從監管報送的角度來說,數據標準的建立非常重要,數據標準不完善,給監管報送的報表一定是不對的。
通常數據標準的建立有兩種方法。傳統的方法是人工梳理的方式,其實還有一種方式是先拿到數據模型,在這個模型上做修改,再衍生出數據標準。我認為用第二種方式更好,這種方式能夠根據企業實際情況形成數據標準,這樣出來的數據標準更容易和企業的實際情況建立聯繫。雖然通過第一種方式可以理出很多 Word 文檔,整理出很多數據含義,但是映射在 IT 裡面到底是什麼樣子就搞不清楚了。有很多數據標準跟現在的系統現狀有可能差距是非常之大的。如果把現有的東西理出來再把這個門類整合,再跟信息項做關聯,其實做出來的數據標準跟你現在的系統映射做的非常好。我們更推崇這種自下而上為主,自上而下為輔的數據標準建立方式。通過這種自下而上的方式把從數據倉庫,到數據集市的應用整個關聯建立起來,通過這個數據鏈路關係,數據加工關係,再用這些方式來幫助大家更好的建立數據標準。
提升運行監控能力的電力行業大數據治理
電力行業有它的特點,有一個部門叫做運監,運監部門就是從現有的數據裡面看出來現在運營監管的情況,最關心的還是有哪些數據。實際上是國家電網的 CIM 模型已經提供了一個語義的標準,這個標準和現有的信息數據關聯是什麼,通過各種各樣的手段,是否能夠建立更多的自動關聯的方式?其實往往在界面上,在政策法規裡面一定會提到已經建立的模型。我們是可以通過分析源代碼,分析數據模型,分析數據架構關係,把其中的鏈條做出來,通過這種方式可以自動建立出來一種體系,並把修整的版本管理起來,用服務的方式把這種能力提供出來。
3
大數據治理的十大智能化能力
如何讓大數據治理變得智能化?我覺得可以從十個方面入手。
智能化支撐數據標準構建
剛剛大家也看到了,在證券的案例里,傳統的數據標準梳理是自上而下來做的,而我們是自下而上做的,通過數據治理平台可以自動採集一些技術元數據,再通過這些數據的特徵跟數據的業務元信息建立關聯關係,這個技術相對複雜,需要通過業務屬性、技術屬性的特徵建立數據標準。
智能化規範系統數據模型
我剛剛舉了某大型全國商業銀行的例子,在該銀行,我們把數據模型的設計、維護等日常的工作和數據標準建立了關聯,讓大家在日常的工作的時候就能夠用到數據標準。當然,在這裡面需要一些數據標準的變通流程和模型處理的流程來支撐。2011 年,全行有 17 萬數據標準,現在全行有 8 萬個數據標準,可以看出做了很多的規避,這就是跟日常數據應用開發做關聯的好處。
智能化梳理企業數據資產
在這個自動化梳理企業數據資產的過程中,有很多需要實現的技術點,報表可能用開源做的,ETL 可能是用存儲過程寫的,需要分析不同類型的資料庫,分析不同代碼的結構。
我們曾經給一個物流公司做資產梳理的過程中得到了一個他們自己都覺得很吃驚的結論,梳理形成地圖之後發現 300 張報表在地圖裡沒有跟任何源系統有關係,也就是說這 300 張報表已經沒用了,但是他們還在花成本維護。通過自動梳理經常能發現很多意想不到的情況,這也是我對整個數據架構的整理過程。
智能化實現數據協同變更
我們在做應用的時候上線都很頻繁,如何盡量保證上線不出錯就是我們希望的協同。要想協同,至少做到兩件事:在某個數據發生變更的時候通知該數據的上下游是其中的一個方面,還有一方面是在上線的時候都要和元數據系統做比對,上線之前會把生產系統里的元數據和開發系統元數據做一個比對,比對出二者的不同,然後審批這種差異是否 OK,審批通過之後可以上。如果有問題。可以把設計模型也采出來,看看和設計是不是一致,是就 OK。大家知道變更是很麻煩的事情,如何儘可能讓變更不出錯其實就是一個協同的過程。
智能化形成大數據生產線
這是整個數據處理的自動化,我們發現其實大多數數據處理、數據清洗的過程都是簡單重複性勞動,我們知道機器最擅長做的事情就是重複性工作。舉個例子,加欄位是一種最常見的數據變更,手工的方式一般是先做一個臨時表,把新欄位和數據放到臨時表裡面,再把新表和老表之間做一個關聯。數據生產線裡面,像這種操作可以直接由系統完成,大家需要做的就是在系統裡面做選擇題,選擇具體由哪種方式來實現想要的操作。
智能化企業元數據服務
企業元數據其實有很多,有技術模型、業務模型、服務模型等。把這些元數據採過來的目的應該不只是形成企業地圖,實際上是要通過數據服務的方式對外提供元數據,簡單來說可以通過介面從我這裡拿到想要的東西,把介面嵌到你的工具里,而不是跑到我的系統查,遇到數據質量問題的時候也能直接定位到問題所在,而不等是再進入到元數據系統里才能判定出血緣關係,整個過程不需要去登錄元數據系統。這是智能化數據服務必須要做到的。
智能化業務知識圖譜構建
數據間的流向關係在企業信息系統是真實存在的,很容易獲取到,但數據和知識之間的關聯關係一般是邏輯上的,而這種邏輯關係一般都要跨部門或跨系統才能獲取到,所以在做數據分析的時候需要一種智能化的手段來給這些數據建立關係。
我們基於知識圖譜技術構建企業數據間的關聯關係,首先基於企業元數據信息,通過自然語言處理、模式識別等演算法,以及業務規則過濾,實現實體對象提取;然後以本體的形式表示和存儲;最後利用智能搜索、關聯查詢手段,為最終用戶推薦數據關聯關係。有了知識圖譜的支持,基於元數據的自助數據服務開發就變得很簡單了。
智能化數據業務標籤發現
我們都是實操性的東西,通過下圖這樣一些使用習慣,在聯合外界系統的情況下,用智能化的方式自動化為系統中的數據建立標籤。
智能化數據業務實體發現
拿表格舉個例子,當表格中每一列數據被定義之後,通過智能化的手段自動將每一列數據的定義聚合成更高層的業務實體,在文件中也是類似的做法,這樣就自動識別出系統中存在的業務實體,作為數據轉換為知識的基礎。
智能化數細粒度敏感信控制
上文中我強調企業需要建立一個企業的元數據模型,其中應該注意敏感信息的控制。比如說可能某人的某一筆貸款不準別人看,或者所有貸款中某一個信息項不準別人看,像這種細化到具體某一行和某一列上的信息控制是需要專門花功夫來做的。我們元數據產品裡面就能建立這種敏感信息的審計,我們給某政策性銀行做的時候就和上面的例子很相似,這是一個很高的許可權,需要在元數據里做好。
4
總結
與之前只需要做好數據管控的傳統數據治理不同,在數字經濟時代下,為了快速響應業務需求,支撐業務創新,現在數據治理的目標是要建立一個大數據的工作環境,用智能化的方式建好各種數據服務是關鍵,如果大家有興趣也可以掃描我們的微信公眾號,裡面有很多數據治理相關的文章、課程和經典案例。
作者介紹
焦烈焱,普元信息 CTO,全面負責研發、產品與市場工作,是公司技術發展戰略的重要決策人。焦烈焱專註於企業技術架構領域,對分散式環境的企業計算、 企業信息架構的規劃與實踐有著豐厚經驗,帶領普元技術團隊相繼在雲計算、大數據及移動開發領域取得多項突破,並主持中國工商銀行、中國建設銀行等多家大型企業技術平台的規劃與研發。
期望得到更多優質技術乾貨,歡迎掃描群助手小波波二維碼,與近萬名技術人一起在 EAWorld 社群參與定期微課、視頻分享、探討關於大數據、微服務、DevOps 實踐等技術內容。入群暗號:305
※大部分人沒法一直做技術,但轉管理也需要規避四大陷阱
※數字貨幣可不只是區塊鏈的全部!聰明人已經把它用到了業務中
TAG:InfoQ |