銀行大數據風控平台建設方案及應用
關注一下,更多精彩等著你!
關注一下,更多精彩等著你!
金融行業是經營風險的行業,風險控制能力是金融機構的核心競爭力。通常而言,金融機構一般是通過給客戶的信用狀況評分來計量貸款違約的可能性,並通過客戶的風險水平進行利率定價。而傳統的信用測算主要是利用歷史借貸數據和財務數據對借款人的違約風險進行分析和判斷,這種方法儘管在很長一段時間內被廣泛的金融機構所使用,但此方法的評價標準單一,評估結果不夠全面,同時存在一定的滯後性,更為嚴重的是,這種基於歷史數據的評估方法無法對缺乏歷史借貸數據的借款人進行信用風險評估。近年來,金融機構紛紛尋找新的手段,藉助新的技術,嘗試構建新的信用風險評估模型。
大數據風控技術正是隨著大數據處理技術、計算機科技和互聯網技術的出現和升級而產生的一種基於數據挖掘、機器學習等大數據建模方法的信用評估體系,目前被金融機構廣泛運用到貸前信審、反欺詐、貸後管理和追償清收等環節中。
一、什麼是大數據?
大數據是指「無法在一定時間範圍內用常規工具進行捕捉、管理和處理的巨量數據集合」。與傳統數據集合相比,大數據不僅僅體現在規模大和複雜性,更為重要的是,大數據往往包含了大量的非結構化數據,包括圖片、視頻、語音、地理位置等,具有維度廣、時時更新等優勢。金融業,特別是銀行業,近年來由於業務積累和渠道搭建,聚集了大量數據,成為大數據應用的重要領域。
以銀行為例,目前銀行能夠利用的大數據主要包括以下幾個方面:
表1 目前銀行大數據來源及分類
二、銀行大數據管理方面存在哪些問題?
1.數據使用效率低:數據的加工和使用超強依賴IT人員,不能提供自助式數據服務。
2.外部數據雜亂:外部數據源越來越多,如微博、新聞媒體、淘寶、電商數據等,如何將這些外部數據整理、加工成可供行內正常使用的真實、準確的數據需進一步探索。
3.數據類型複雜:數據資源非結構化數據佔有很大比重,且數據類型越來越複雜,如視頻文件、音頻文件、圖片文件、郵件等,傳統的Oracle,SQL Server等資料庫不能滿足該類數據的存儲、搜索和分析。
4.存在大量的數據孤島:銀行等金融機構存在不同類型的應用系統,數據被分散在各個應用系統的資料庫和文件系統中,導致數據不能有效的共享;跨系統的、綜合性的數據搜索、分析困難等。
顯然,上述數據管理方面存在的問題難以單純靠人工解決,那麼如何有效地整合和利用銀行積累起來的大數據資源,讓大數據資源更高地為銀行的信用評估服務,這就需要搭建綜合型的大數據風控平台。
三、大數據風控平台簡介
大數據風控平台是一款集大數據處理,OLAP分析、在線分析、離線分析、數據挖掘、數據模型、數據可視化展現於一體的綜合性大數據分析平台,它提供了基於hadoop存儲、數據立方體預計算的OLAP可視化分析功能,使用戶通過托拉拽的簡單操作即可在亞秒級的時間內完成多維度、全方位的數據分析,並以多種可視化方式展示分析結果,集成了主流的數據挖掘演算法和工具,幫助用戶快速建立數據挖掘模型。
大數據風控平台的基本特徵主要有三個:
1.大數據風控平台能夠處理的數據種類多,維度更廣,大數據風控平台不僅重視傳統的信貸變數,還可以分析借款主體的社交網路信息等信息,能夠為信貸缺失的群體提供基本金融服務。
2.大數據風控平台不僅僅關注歷史財務數據,還更加關注借款主體的行為數據,能夠在充分考察借款人借款行為背後的線索和線索之間的關聯性基礎上進行數據分析,降低貸款違約率。
3.大數據風控平台對模型可以不斷迭代和動態調整。機器學習技術使得大數據風控平台的風控模型可以將原始數據轉化成指標需要進行不斷的迭代,不同模型的權重值可以根據樣本進行動態調整,反過來也能不斷改進模型的評測效果。
四、大數據平台的數據治理方案
搭建一款集數據採集、存儲、搜索、加工、分析為一體的大數據平台,融合結構化數據、非結構化數據,實現了統一數據架構,對海量異構數據的存儲歸檔,信息組織,搜索訪問,安全控制,分析可視化,以及數據挖掘,數據治理等,如圖1所示。
圖1 銀行大數據平台數據治理方案
1.數據分層: 數據是分層次的,不同的數據其屬性、處理方式、價值都是不同的,如圖2所示:
(1)源數據:源數據是各個業務系統中生成的大量的業務生產數據,應加強備份和歸檔工作,防止數據的不完整和損壞。
(2)歸檔數據:歸檔數據又稱為細節數據,平台需要抓取所有的源數據進行歸檔,形成完整的資料庫。
(3)整合數據:對細節數據進行整合,形成按照主題存放的匯總數據集市。
(4)指標數據:針對客戶、員工、管理者,計算生成內容豐富的指標數據源,為進一步做數據挖掘準備豐富的數據源。
(5)決策支持數據:用於決策分析系統、智能化分析系統數據,如客戶產品推薦、客戶細分、銷售預測、精準營銷等等。
圖2 不同數據層次的處理方案
2.數據整理:對於歷史數據來源於行內數據平台或其他來自於資料庫的數據,行內數據可直接用ETL系統工具直接抽取數據,其他資料庫數據則可用Sqoop工具抽取,放入HBase通道中,從而滿足實時歷史數據的查詢需求,如圖3所示。
(1)文件格式數據:直接使用行內ETL工具直接導入到大數據平台中。
(2)實時變更數據:建立專用通道,支持數據實時裝載到大數據平台中。
圖3 行內數據和行外數據整理
3.抽取數據:對現有各種資料庫的各類數據進行清洗、轉換、並載入到大數據平台。根據代碼標準,整合數據類別,形成數據覆蓋全面、標準化、規範化的數據集市。
4.數據倉庫:大數據平台對結構化數據採用分散式技術的開源數據倉庫,支持各種報表軟體的訪問和第三方軟體集成,同時滿足結構化數據的計算和存儲。
5.加工數據:大數據平台定義對數據的各種加工任務,主要表現在以下幾個方面:(1)數據集成:根據原有的數據生成新的數據;如根據關聯表格設置其他維度生成新的匯總表格等;(2)文件處理:將視音頻文件、圖片、郵件等轉換成識別文字;(3)挖掘數據:對平台數據進行各類數據挖掘處理,如關聯分析,分類,聚類,回歸預測等;(4)計算指標:實時計算各類指標數據,如計算客戶的活躍度,價值,忠誠度等。
6.分析數據:大數據平台以可視化方式呈現數據查詢、數據視圖、報表等。
五、銀行大數據風控平台的建設方案
常見的大數據分析平台架構有Hadoop、Spark、Storm、Samza等,而基於Hadoop構建大數據風控平台具有分散式雲存儲和雲計算能力,提供了核心分散式數據倉庫、分散式列資料庫解決方案,還具有良好的擴展性,常用在銀行大數據風控平台建設中。本文基於Hadoop搭建大數據硬體系統,結合JAVA開發,實現海量數據的分散式存儲和處理。
(一)系統總體硬體框架圖
銀行大數據風控平台是基於PC伺服器部署,無需購買資料庫的軟體及硬體,實現小時級別的安裝部署。甚至實現數據並行傳輸,實時數據更新服務、查詢數據秒出結果等等,系統整體硬體框架如圖4所示。
1.分散式計算和存儲,根據數據量增大快速水平擴展。
2.面向多應用系統,多數據類型和多數據源,實現統一數據架構,融合結構化、半結構化、非結構化的數據,實現數據的安全控制和統一建模。
3.為其他應用系統提供API介面,實現第三方系統數據集成並提供各種數據服務。
4.以數據歸檔為核心,全面實現數據的全生命周期管理和全數據搜索、實時數據分析可視化以及互動式數據發現等。
5.支持傳統SQL結構化數據訪問和傳統BI軟體的集成。
圖4 大數據風控系統硬體框架圖
(二)系統軟體架構
大數據風控平台的軟體設計理念和技術,能夠解決海量數據容納問題、多業務數據源整合問題、多數據格式轉換問題等,如圖5所示。
1.整個系統軟體部分可基於JAVA開發,運行Windows和Linux操作系統上,節點同時運行在物理機、虛擬機、Linux、Windows上。
2.所有後台數據服務程序可直接運行在JVM上,實現靈活、高效的分散式運算。
3.用戶使用管理功能可基於J2EE開發,WEB用JSF2.0實現,可擴展性強,便於二次開發。
4.採用分散式存儲和搜索技術,數據集中平台最根本的要求是處理海量的數據,高效融合結構化、半結構化、非結構化數據的管理。
圖5 大數據風控系統軟體架構
六、銀行大數據平台產品應用介紹
通過大數據平台內置現成的客戶統一畫像,根據獲取實時數據,實現客戶精準畫像,通過遷移學習、機器深度學習理論,對客戶360度畫像,分析客戶行為習慣,甚至實現客戶精準營銷應用,智能推送優質客戶資源,嚴格控制風險。如圖6所示。
圖6 銀行大數據平台產品應用
(一)大數據產品應用之風險控制
銀行建立大數據風控平台可用於信貸客戶的反欺詐分析、信用等級評估、貸後風險監測預警與催收等環節,嚴格進行風險防範;重點關注個人客戶或企業客戶在銀行體系內外的負面信息,銀行體系內的負面信息包括:信用卡逾期、貸款逾期、黑名單信息等,銀行體系外的負面信息包括:P2P/小貸公司等黑名單信息、公檢法的訴訟案件信息、國家行政機關處罰信息(工商、稅務、一行三會、協會等)以及網上負面輿情(虛假宣傳、誤導消費者)等,從這些數據出發,全面評估個人客戶在銀行的風險等級,為銀行的風險防範提供決策支持。如圖7所示:
圖7 大數據平台產品之風險控制
(二)大數據產品應用之客戶畫像及用戶行為分析
通過大數據風控平台將結構化數據、非結構化數據、半結構化數據統一存放在數據模型之中,並將外部數據與內部數據儘可能的匹配,實現對現有客戶更加全面、充分、詳盡分析,如圖8所示。
圖8 客戶全面行為特徵分析和指標運算
為了滿足線上營銷和線下營銷相結合的場景,數據的進入根據營銷方式分為實時數據、批量數據、畫像指標數據、建立複雜網路體系和客戶智能信用分模型。
(1)實時數據:將客戶線上行為日誌數據信息實時推送到大數據平台,存入數據模型之中,實現數據標準化、統一化工作,並且對實時數據進行線上行為實時分析。
(2)批量:每日定時將數據匯總到大數據平台,存入數據模型庫中,實現數據標準化、統一化的工作,並對數據進行加工。
(3)畫像、指標數據運算:根據預設的場景,進行客戶信息全面畫像和各項指標運算,從而獲得客戶的全面特徵,以及產品特徵。
(4)構建複雜關係網路體系,實現線上各業務通道場景互通,主要實現基金理財平台、三方支付平台、電商/O2O平台、遊戲平台、銀行網申平台的互通。
(5)創建客戶智能信用分模型:以全網大數據為基礎,結合大數據風控平台,以諸多業務驅動為導向,創建客戶智能信用分。輸入:身份證號,手機號;輸出:信用評分。
根據客戶的負債信息、穩定性、負面信息、行為偏好、還款能力、還款意願等六個維度,結合客戶旅遊、社交、支付、保險、基金、理財、電商、非銀信貸、O2O、銀行信息等全網各類數據信息,依據不同加權比重,建立客戶智能信用分。
(三)大數據產品應用之精準營銷分析
通過深度學習理論和遷移學習理論對客戶進行精準分析,獲取客戶源,並進行理財產品的精準推薦。
1. 線上實時營銷
使用數學模型演算法,根據客戶或客戶群線上連續行為,自動校正客戶畫像或產品畫像之間的關聯情況分析,從而形成線上產品的推薦服務,產品推薦可按照客戶可能關心的內容放在醒目位置自動排序,從而有效提升客戶體驗。
2. 線上交叉營銷
將不同產品或業務交叉推薦,根據客戶的交易記錄分析,識別小微企業客戶,然後用遠程銀行來實施交叉營銷。
3. 線上個性化推薦
根據客戶的理財偏好、資產規模、年齡、工作等維度,分析其潛在的金融服務需求,進行有針對性的營銷推廣。
4. 線下營銷
除了內部交叉營銷銷售、客戶忠誠度分析、向上銷售等傳統的分析性內容外,還需要利用大數據平台,將行內數據與外部數據整合,建立精準營銷數學模型,尋找更多的營銷機會。
5. 精準營銷模型建立
(1)尋找理財客戶:利用大數據平台篩選客戶資金在5萬及以上的儲蓄存款客戶,不定時的推送理財產品信息;對於行外客戶,藉助於P2P平台或第三方平台推送的白名單客戶,可以為其提供理財服務,將資金留在本行。
(2)尋找貸款客戶:結合行內數據、第三方房產網數據以及移動設備位置信息,通過數據平台尋找可能購房或購車客戶群體,為其提供金融服務。
6.產品創新
通過對特定數據分析和提取、產品核算,對比各類客戶的產品使用率、收益率,結合互聯網輿情信息,對不同客戶群設計差異化的創新產品。
7.產品評價體系
根據產品評價指標建設評價模型,實現對產品的系統評分,獲取每個產品指標數據,可採用登記評分法對數據進行處理,反應每個產品的每項指標在組內產品的排序。
(來源:遂寧銀行)
TAG:金融時代網 |