使用MaxCompute進行網貸業務風控預測分析
摘要:網路借貸指在網上實現借貸,借入者和借出者均可利用這個網路平台,實現借貸的「在線交易」。網路借貸分為b2c和c2c模式。一切認證、記賬、清算和交割等流程均通過網路完成,借貸雙方足不出戶即可實現借貸目的,而且一般額度都不高,無抵押,純屬信用借貸。網路借貸的風險不言而喻,構建一個準確率高的風控系統顯得格外重要,現在我們利用某網路貸款網站提供的幾年來貸款風險數據(經過脫敏處理),使用機器學習的方法構造一個能準確從借款人的資料中判斷其違約的可能性(借錢不還)。
數據信息:
?包括信用違約標籤(因變數,違約或者不違約)
?建模所需的基礎與加工欄位(自變數)
?相關用戶的網路行為原始數據
本著保護借款人隱私的目的,數據欄位已經經過脫敏處理。
Master表(每一行代表一個成功成交借款樣本,每一個樣本包含200多個各類欄位)
Log_Info(借款人的登錄信息)
Userupdate_Info(借款?修改信息)
一、違約評估架構
1.數據源:數據包括某借貸網站提供的借款人資料以及是否按時還款等情況構成的記錄,一共3萬條記錄;
2.數據同步至阿里云:使用DataX工具將數據導入到在ODPS建立的表中;
3.流程計算:阿里雲構建演算法分析流程
4.分析結果:對計算出的違約風險儲存於表中;
5.數據可視化展示:從資料庫中讀取數據進行可視化展示。
二、分析方法
1.本文中的3萬記錄來之於國內某網路借貸平台的經過脫敏處理的真實借貸風險數據。
2.獲得的數據導入阿里雲數加平台,數據表包含有每一筆借款的借款時間、借款人籍貫、借款人學歷、借款人社交信息、借款人是否按期還款等等一些欄位。
3.在數加的演算法平台上建立回歸預測的演算法流程如上圖。
4.採用數加組件的缺失值統計,對每一借款人資料的缺失比例進行統計,對比其在訓練集和測試集上缺失比例的分布情況,剔除那些資料缺失異常的記錄;統計每個數值型欄位的標準差,剔除掉標準差幾乎為零的欄位,這些欄位對結果的區分度幾乎為零;
1)剔除異常值(橫坐標為每一個貸款人,縱坐標為每一個貸款人信息的缺失欄位的個數;左邊為訓練集中,右邊為測試集中)
2)剔除標準差為幾乎零的特徵(以小於0.1作為剔除的閾值)
5.從信息中構造特徵
1)分開統計出貸款違約的借款人和正常還款的借款人在每天的成交數量,從中可以看出兩者的分布不一樣,故看出時間對借款人是否正常還款存在區別性,所以從成交時間中提取出月份日期信息;
2)每天的成交數量與是否履約的分布情況(count_1:貸款違約,count_0正常還款)
3)將借款人的籍貫信息利用城市等級進行分類合併;或者將借款人所在城市信息作為每一個人借款人的特徵放入xgboost中進行訓練學習,得到每一個城市的重要度排名,提取出重要度最高的前40個單獨作為一類城市,其他的城市進行合併為同一類;
4)從提供的登錄信息中提取每個借款人的登錄信息計算出其平均登錄間隔,借款後多少天才會登錄等等一些組合特徵;
5)將類別型特徵使用獨熱向量編碼;
6)最後將數值型的欄位進行標準化,既能加快模型的訓練速度,也能將數據放入一個標準分布內,使每個特徵之間的數值大小差距儘可能小。
6.將處理完畢的數據分別放入logistics regression、隨機森林,xgboost中進行分類學習,並用網格搜索各分類器達到最佳狀態。
7.可視化展示,將流程計算的結果,進行可視化展示。
三、違約評估預測結果展示
我們分別在嘗試在logistics regression、隨機森林、xgboost上進行模型訓練並進行預測
1.在logistics regression上,利用5折交叉驗證,將參數正則化懲罰項『C』設置為0.4,正則化選擇L1正則,在驗證集上9000個樣本上進行預測,AUC的值達到了0.72993。
2.在隨機森林上,利用5折交叉驗證,將決策樹的個數設置為100,決策樹最大深度設置為13,決策樹一個節點所需要用來分裂的最小樣本數設置為160,在驗證集上9000個樣本上進行預測,AUC的值達到了0.720267。
3.在xgboost上,利用5折交叉驗證,將增強樹的數量設置為113顆,決策樹最大樹深設置為3,最小業主節點樣本權重和設置為5,在驗證集上9000個樣本上進行預測,AUC的值達到了0.751830。
※五年內醫療行業AI應用前瞻
※Vega數據可視化工具——教你輕鬆玩轉大數據可視化|附代碼
※機器學習中的技術債務
※沉澱|從網路中間件到搜索,從移動開發到分散式計算平台,阿里高級專家李睿博談自己的折騰路
※安全態勢,交互發現——基於阿里雲輕鬆搭建安全大屏
TAG:雲棲社區 |
※高盛收購Clarity Money,超100萬用戶將接入自營網貸平台Marcus
※情報:宜信領投美國網貸平台Upgrade;BAT出手圍堵「虛擬貨幣」
※監管難一步到位,網貸平台「交作業」deadline要推遲?
※資金隔離、資產穿透 PPmoney網貸CEO八字箴言談網貸
※用口碑說話 PPmoney網貸獲「天眼3.15評選活動」亞軍
※嘉銀研究院閉門會,共話中國Fintech發展及網貸風險評級
※獲投資人認可 PPmoney榮膺「網貸口碑優選榜50強」
※GreenSky上市在即,投資者能否對網貸行業重燃信心?
※傳小米或參與印度網貸公司ZestMoney 2千萬美元融資
※看好印度網貸市場,PaySense 獲1800萬美元B輪融資
※用實力說話!PPmoney網貸榮膺「金融科技創造力獎」
※網貸優質資產受追捧 PPmoney開放日揭示小額資產全貌
※小米掘金印度消費金融市場,投資印度網貸平台ZestMoney
※谷歌和 Uber 投資電動踏板車創業公司 Liam;6 月停業及問題網貸平台超 80 家|早 8 點檔
※喜訊!PPmoney網貸連任中國互聯網金融協會理事單位
※PPmoney網貸全面夯實合規建設工作 積極提升綜合實力
※美國網貸平台Upgrade獲6200萬美元C輪融資 宜信參投
※馬雲擬注資「泰國國家隊」3.2億美元;小米投資印度網貸平台ZestMoney
※金佳金融17money為行業正發聲,網貸行業需要注入更多正能量
※國家互金專委會:用戶可下載APP查詢部分P2P網貸機構數據