AI在金融風控領域的工業應用 | 硬創公開課

新聞 04-20

高風險、高收益是金融行業永恆的標籤。也因如此，金融行業非常重視風控。據多位資深金融人士表示，從事風控後，他們總是處於戰戰兢兢的憂慮中。他們上一次大規模的憂慮發生在十幾年前。世紀之交的美國缺乏對於風控意義的認知，明明借著互聯網的東風卻在半途摔了個七零八落。

新科技的出現必然會對原行業產生一定影響。技術無所謂利弊，問題在於人的使用。在風控得到足夠重視，AI成為最熱門科技的現在，諸多從業人士不由得開始思考AI的應用價值，如何將AI與風控相結合并發揮出其積極作用？

本期雷鋒網公開課邀請到氪信資深數據科學家朱敏來分享他的從業經驗，深度講解如何構建基於AI的金融風控系統。

嘉賓簡介：

朱敏，氪信資深數據科學家，深耕應用統計和數據挖掘領域。復旦大學生物統計學碩士，曾任職PayPal高級分析師，負責核心風險控制數據變數、排序策略、評價指標的設計研發，並在反欺詐策略、行為特徵等方面擁有豐富的研究經驗。曾任職eBay數據分析師，負責AB測試與搜索演算法的評估。多年以來專註金融統計和風險評估演算法研究，在互聯網級別的機器學習演算法和統計理論商業應用領域有著豐富的理論研究和實踐經驗。

AI在金融風控領域的工業應用 | 硬創公開課

以下是本次公開課實錄，雷鋒網做了不改變原意的編輯：

今天給大家分享的主題是AI在金融風控領域的工業應用，我主要負責數據和模型，所以今天的公開課除了分享宏觀想法，在具體實踐方面也會比較偏模型和數據。其實這個主題是非常大的topic，所以會聚焦到金融尤其是消費金融領域，闡述我們氪信是怎樣利用互聯網、機器學習和人工智慧技術和經驗去解決實際問題的。

金融AI時代已到來？

首先我想跟大家分享三個數字——40萬億消費信貸、35%徵信覆蓋以及44ZB數據。

有資料顯示，2019年中國的消費信貸市場會達到40萬億，而在2015年這個數字還只是20萬億，這幾年都保持著很高的增長速度。我們可以看到市場規模很大，並且在不斷變大。

而徵信覆蓋率並沒有保持與市場規模的同步。第二個數字是35%，這是指消費金融領域只有35%的客戶是有徵信記錄的，剩下65%沒有信用記錄，所以並不能用傳統、成熟的風險評估方法去評估這些人的風險。

第三個要分享的數字是44ZB。對於65%沒有傳統徵信數據的這類人，我們可以收集其他相關數據去評估，這相關數據可能是申請資料、互聯網使用記錄、通信記錄等。而由於現在硬體的發展、數據收集的自動化，我們是可以收集到很多數據的，這個數據量也很龐大。大數據一方面是好事，另一方面也是一個難題，例如怎麼運用一些技術手段從大量的數據中提取信息。而我們覺得消費金融是切入AI商業場景一個很好的契機。

大數據時代金融風控之痛

大數據時代金融風控市場規模大，需求旺盛，但要解決的問題很多。

從技術層面上來講，有三個問題。

第一是價值困境，雖然已經意識到了大數據的價值，但不知如何實踐，怎樣從數據中挖掘出有用的信息。
第二是高維困境，對於65%未被傳統徵信覆蓋的人群來說，他們的特徵維度非常高，往往會產生上千維變數，那麼該如何處理高位特徵，如何將其有效融合，形成1+1＞2效果？
第三，敏捷困境。在人工智慧和風險評估不斷發展的同時，我們的敵人的欺詐演變速度也非常快。一旦發現了業務上的一個漏洞，它就會去鑽模型的缺陷，利用缺陷來達到利益最大化。而單一的個體欺詐也正在演變成有組織、有規模的群體欺詐。

從戰略層面來說，以上問題帶來的後果是風控決策低效耗時，員工成本會很高，壞賬率則更高。在金融場景里，一定需要人工智慧、機器學習去幫助解決問題。

構建基於AI的金融風控系統

AI在金融風控領域的工業應用 | 硬創公開課

上圖展示了一個理想的基於AI的金融風控系統。從左往右講，我們一開始會去收集各個層面的數據源，這些數據源里包括交易數據、高價值黑名單，這些都是比較常見的傳統信用數據。此外，我們也會搜集互聯網行為、運營商數據、信貸申請資料等。

不同的數據源融合到一起的時候也會借鑒知識圖譜技術，在知識圖譜之上再去構建高價值金融屬性的特徵。

數據融合後有上千維度特徵，接著我們會做一個基於深度學習的特徵加工工程。再下一步是構建模型，這裡列出了一些非常主流的機器學習、深度學習模型，像XGBoost或者是深度神經網路，這些模型再加上已經加工出的高價值金融特徵，我們覺得這樣就可以解決實際金融風控當中會遇到的問題。

而在解決問題過程中，經驗會被抽象化，所以我們也會把這些經驗轉變成一個產品。上圖列出了幾個風控引擎，包括把剛剛提到的金融特徵做成特徵引擎、模型引擎、規則引擎，這些產品會幫助我們更好地積累數據，也更好地把已經積累的經驗應用到更多場景中去。

接下來的內容也會按照這個模型來講，首先是數據管理，關鍵字就是金融的知識圖譜。第二部分是基於深度學習的特徵工程。最後是集成模型，就是我們怎樣把這些數據特徵構建成一個分類模型來幫助我們判斷。

知識圖譜：重新定義金融數據架構體系

首先看知識圖譜。知識圖譜是谷歌在2012年5月發展出來的可以將搜索結果進行知識系統化，任何一個關鍵詞都能獲得完整的知識體系。本質是一個語義網路，是一個基於圖的數據結構。在知識圖譜當中，實體會被表示成一個節點，節點和節點之間會用關係來連接，所以這個構造方式和傳統關係型數據網路是完全不同的。

在金融場景里，相比於傳統的關係型資料庫，它存在一些優點。

首先，金融知識圖譜可擴展性更強。我們收集到的數據源無論是從結構上還是內容上來說，其實都有很大差別。如何管理這些不同結構和內容的數據源從來就是關係資料庫一個大問題。

但是如果把所有的數據和知識都表示成知識圖譜可以接受的結構，我們就可以把異質異構的數據統一融合在一起。無論是新的數據源變化，還是原有數據源的數據結構發生變動，都可以靈活地調整。這個靈活也是基於知識圖譜的特點，無論是對於節點還是對於關係而言，增加或者更改它的屬性都是非常靈活的。

AI在金融風控領域的工業應用 | 硬創公開課

從上圖中，我們可以看到在金融風控中用到的數據還是很多的，包括歷史積累數據、實時數據、第三方數據。分類方法當然有很多，但無論是怎麼去看數據格式、結構都會完全不一樣。

如果構建到統一的金融圖譜當中去，對於下游的特徵加工和模型其實會有很大幫助。對於資料庫某一個數據結構的依賴就不是那麼強，我們只要優化金融知識圖譜的知識結構，工作中的相關問題都可以得到解決。

基於知識圖譜的社交網路分析

AI在金融風控領域的工業應用 | 硬創公開課

金融知識圖譜的第二個優點從上圖中就可以看出來，知識圖譜比較直接。用戶面對的關係型資料庫主要是表。而知識圖譜可以將這些關係構建成圖，更加可視化。

反欺詐是很重要的一點，在反欺詐中我們經常會做交叉驗證。一個用戶有來自不同數據源的特徵，如果它們描述的是同一件事情，那我可以去對它們做一個驗證。如果這個進程中出現了矛盾，我們會覺得這個人的風險等級偏高。我們設想了一個場景，在這個場景下單獨個體的數據源比較單一，在這種情況下，交叉驗證是根本沒有辦法發現矛盾的。而知識圖譜可以幫助我們。

上圖兩個例子印證了知識圖譜的可視化和表現力。先看左邊，我們要去判斷這幅圖中藍點這個人的風險等級，我們能夠拿到此人相關的信息有手機號、郵箱等。從這個個體的單一信息上面來看，其實很難判斷他的風險等級的高低，但是如果我們把他置於一個網路，比較個體和個體的話，我們會發現一個有意思的地方——他的郵箱和好幾個其他個體的郵箱是相同的，並且這幾個人在我們的判斷中已經是壞人，那麼對於這個申請用戶風險等級也就有了一個判斷。

右邊還有一個判斷用戶風險的例子。如果只看他的手機號或者郵箱，目前比較成熟的方法是去看郵箱是不是亂碼註冊的或者其他。而把他置於網路中後，我們會發現他的手機號和很多用戶的手機號都有聯繫，並且都是單向的聯繫。那這個其實是很明顯的特徵——騷擾電話，類似中介或者是廣告騷擾。基於這一點，也可以形成對於這個人的風險等級判斷。

這兩個例子都很好展示了知識圖譜能夠包含更多的信息量。這個信息量是可視化的，如果有專家人工去看這些案例的話，會從中找到一些特徵來判斷這個人的風險等級高低。而在一些先進演算法的作用下，可以自動地從社交網路中發現一些特徵，自動判斷哪些是好人哪些是壞人。

深度學習：超越人工定義的深度以窮盡風險

接下來討論一下特徵。數據量大，維度很高是消費金融風控必然會遇到的實際問題。此外，還會遇到很多非結構化數據，例如文本、圖像等。這些都不是傳統徵信會遇到的問題，而這在深度學習領域會有一些很成熟的應用。

深度學習的本質是特徵學習的過程。對於人工難以加工的海量非結構化數據，基於深度學習的特徵生成框架自動生成特徵，能夠彌補人工定義特徵的局限性。

DNN文本類數據特徵提取框架

AI在金融風控領域的工業應用 | 硬創公開課

首先說文本類數據特徵提取框架。金融風控過程中其實會遇到很多這樣的非結構化數據，比方說申請資料的文本信息，或者是經過授信和合規要求的通訊文本。對於這些文本的分析，NLP領域其實已經有一些很成熟的技術，比如說CNN。而在金融場景中也能提取一些特徵。如果這些特徵能進入接下來的分類網路中去，它也可以去學習到好人或者壞人的特徵。

實踐的第一步是文本數據預處理，提取分詞或者是關鍵詞，並將每一個詞做向量化的表示，然後這些向量化表示會進入一個卷積神經網路，並從這個卷積神經網路中去提取特徵。下一步，這些特徵會進入一個全連接的神經網路去學習分類，做成分類器。

此外，嵌入學習在其中也展現了很大作用。雖然我們用小規模文本庫去學習詞向量來做特徵也不是不可以，但是我們發現如果使用業界比較成熟的大規模語料庫，能提升特徵提取的性能。

DNN時序類數據特徵提取框架

AI在金融風控領域的工業應用 | 硬創公開課

另一個例子是時序類數據特徵提取框架，一句話來說就是，合并學習不同周期和時序模式的循環神經子網路，有效捕捉時序數據的特徵隱含信息及不同時序模式下的協同影響。

在實際中我們會遇到一些問題，比如並沒有那麼大的工作量去了解每一塊的數據具體是什麼樣子的，分布是什麼樣的，特徵可以怎麼提取。所以時序類的特徵其實可以借鑒深度學習里的長短時記憶技術來做相同的事情，去做時間序列的分析。它主要考慮就在NLP里，用在文本比較多，就是說上下文之間是有關係的，根據這樣的關係來構建一個提取特徵的網路，我們把這樣的思路借鑒到了通訊記錄或者是交易記錄當中。

在實際應用中，時序類特徵可能是通話記錄或者交易記錄，所以它的特徵不只是在一個階段面上去提取，還在時間軸上去提取。金融場景中，我們把通話記錄分成了不同的周期，按照不同的周期構建了三個LSTM子網路，並且會對這三個時序模式LSTM子網路做一個混合，這樣能大大減少時序數據分析和提取特徵的工作量。

融合機器和專家經驗，實現全量價值提取

AI在金融風控領域的工業應用 | 硬創公開課

這裡還要提到一點，雖然剛才一直提深度學習特徵，但是專家的特徵也很重要。我們會融合機器和專家經驗，實現全量價值提取。因為我們相信專家多年積累下來的成熟的風險評估方法也很有效。基於深度學習的特徵智能生成框架，使用不同網路結構擬合不同的數據類型，自動從龐雜、非結構化的數據中生成高質量的深度學習特徵，並且與專家人工特徵結合共同融入模型。融合特徵才會交給下一步模型去學習。

集成模型：最大化AI與現有業務的結合深度

AI在金融風控領域的工業應用 | 硬創公開課

前面已經說了數據和特徵，現在說集成模型。

集成學習模型的優勢表現在兩點：

不同維度/領域的數據具有不同的特點，需要使用不同的建模方法，集成學習框架可以支持不同類型模型演算法作為子模型。集成模型成果已經很多，所以用集成模型會幫助提高模型的性能是毋庸置疑的。
此外，在實際做金融風控的時候，從一個用戶的角度來講，我們能看到很多金融產品，例如分期產品或者消費金融產品，不同產品額度上也會不同，客群不同，獲客渠道也不同（線上獲客、地推獲客）。面對不同的業務方式時，我們最終要抓住的壞人也是完全不同的，所以這要求我們構建不同的模型。那麼這是不是要求我們面對不同業務場景都要從零開始去做數據、特徵、建模呢？
並非如此。單獨領域的子模型可以快速遷移應用到新業務領域，實現快速成型和持續優化。

這在實踐中最好的應用就是冷啟動，對於一個新上的業務，所遇的壞人與以往的業務是完全不一樣的，壞人所採取的欺詐手段也是完全不同，但是因為用了集成模型，有些特徵、數據、模型經驗都是可以借鑒的，這會有很大的幫助。

集成學習模型在大型現金貸場景的實際應用

AI在金融風控領域的工業應用 | 硬創公開課

上圖對之前的內容做了一個匯總。數據有結構化、非結構化之分，並根據不同數據的特點進入不同的特徵提取框架。和關係比較近的數據，用網路關聯特徵的方法去提取；有些數據是文本、圖像，用卷積神經網路的方法去提取；時序類的數據，用LSTM方法去提取特徵；還有專家人工特徵提取框架。

綜合特徵提取框架，綜合評估產生三種風險評分：行為風險、社交風險、語義風險。

社交風險其實主要是從網路關聯特徵體系框架這一塊延伸上來的。
行為風險主要從互聯網的行為、運營商這一塊延伸上來。
語義風險主要從申請資料、通訊文本兩方面來評估。

最後根據這三塊風險做一個集成模型，然後給出違約概率。

集成模型能提高性能，氪信之前將集成模型應用到大型消費金融場景中。他們之前的風控用到的特徵也不多，判斷模型的分類性能的 KS值指標也比較一般。在和我們合作後，運用了剛才提到的技術和框架，模型的性能提升還是非常明顯的，KS值從0.19提升到0.35。從業務來看，他們的壞賬率直接下降了46%。

基於網路的反欺詐應對線上群體欺詐

AI在金融風控領域的工業應用 | 硬創公開課

接下來再說說基於網路的反欺詐。舉個虛假申請的例子。

某個人通過篡改個人資料，提出貸款的申請，這個可以通過交叉驗證來判斷此人的風險等級。

但是在另一個場景，比如有人申請資料時，用的完全是張三的資料，因為張三的風險評級很安全。這種情況下對於金融這風控機構而言，評估是比較困難的。如果沒有人工介入，這個人的風險評估都是基於張三的信息來做的。對於這種虛假的申請，若只根據個體的資料去判斷，難度是相當大的。但是把他放到社交網路中情況會不同。不同的人共享了相同的屬性或者相同的資料，那麼我們就會有風險的疑慮。

還有群體欺詐。這主要是說在時間或者空間上的高頻率焦點，或是高頻率申請。一個簡單的例子，我們發現申請資料的數量大得超出歷史，然後這些申請資料，比方說手機定位的位置都來自於同一個地區，如果能排除線下獲客的可能，這會是很奇怪的一件事情，存在很高的群體欺詐風險。

AI在金融風控領域的工業應用 | 硬創公開課