大數據和機器學習促進包容性金融科技
本文作者
Matt Grasser
波士頓BFA諮詢公司高級諮詢顧問
我們研究了一個非常成功的金融科技創業公司,它使用機器學習來專註於服務銀行未覆蓋人群的信用產品,也有一個具有特定目標和細微差別和約束條件的信貸產品。
什麼是機器學習,為什麼我應該關心?
1959年,機器學習(ML)和人工智慧領域的先驅亞瑟·塞繆爾(Arthur Samuel)在計算機還巨大到充滿整個大樓的時代,將機器學習定義為「一個使計算機能夠在沒有明確編程的情況下學習的研究領域「。
在最近的一個主題演講中,微軟CEO薩蒂亞·納德拉(Satya Nadella)提到在現在這個背景下使用的數據是「新電力」,把我們這個時代稱為蒸汽,電力和數字技術之後的「第四次工業革命」。微軟執行副總裁Scott Guthrie也承認數據「推動每個企業通過利用這些數據洞察力都能夠使其成為行業的破壞者」。
今天,生成數據比以往任何時候都更容易和更便宜,而將這些數據轉化為見解的工具在質量和數量上都呈指數級增長。那麼任何不以某種方式應用機器學習處理數據的組織都將被拋在後面。
這些機器學習的使用者通常以更有吸引力,更有針對性和更有效的產品特性,降低成本和增加收入而獲得回報。簡而言之,機器學習如果得到適當的應用,就有能力為以證據為基礎的裝備提供顯著的競爭優勢。
DESTACAME.CL:數據驅動的金融科技初創企業
Catalyst基金(CF)團隊一直在與一家金融科技創業公司Destacame.cl合作,以開放的雙臂擁抱這個由機器學習驅動的未來,了解機器學習如何改進Destacame.cl的現有方式,根據分數來識別優秀的和較差的的還款人。
位於智利的Provedencia,Destacame.cl致力於幫助沒有銀行賬戶的個人通過將公用事業賬單,汽車信用記錄,人口普查數據,手機充值等替換數據轉為數字化,從而更好地獲得主流金融服務。這些數據不僅為傳統信用評分模型的建立提供了一個大致替代品,而且還用於補充當前的信用評分演算法。 從這個意義上說,公司實際上成為一個「小型綜合信用管理局」允許個人來獲得小額信貸。
當前的信用評分流程的起點從希望獲得更高信用貸款額度的用戶開始。用戶登錄到Destacame.cl的平台,註冊,並上傳他或她的付款歷史。因為該公司幾乎與智利每家公用事業公司都有合作關係,所以信息核對變成了可能。這些數據點與其他數據集相結合,被用來為預測信用分析模型提供專有演算法(反映了統計上最重要的指標)。這些演算法的輸出是Destacame.cl的評分,評價用戶是否可以全額償還貸款給銀行。「該分數表示在過去的12個月里,用戶對還款有多麼負責」,首席執行官Sebastián Ugarte說。
另外,Destacame.cl允許用戶免費訪問他們的信用報告,這樣人們可以檢查他們的財務狀況,了解他們獲得貸款的機會。
得分和信用報告用於確定用戶可以通過Destacame.cl的網站解鎖和訪問哪些財務產品。這個網頁應用程序還為個人提供了有關如何通過連接其他數據源,建立更好的習慣等來構建分數的積極指導,以獲得更好的產品供應。
假設——我們相信什麼
即使有這些優點,在Destacame.cl的進程中還有一些地方還沒有被優化。當我們第一次見面時,公司使用手工製作的統計模型,還沒有將機器學習納入他們的評分系統。
我們Catalyst基金中的假設是,通過引入機器學習演算法代替現有的統計模型,我們可以實現對其業務的以下改進:
通過自動化節省時間:對於Destacame.cl和大多數初創企業而言,帶寬和預算始終是主要考慮因素,自動化建模過程方面的任何進展都可以直接轉化為更多可用的資源,從而專註於產品路線圖。
通過更少的違約提高收入:對於銀行來說,降低拖欠率和違約率意味著在已知細分市場增加凈收入,並有可能嘗試到目前為止沒有進入的細分市場。
通過改進模型提供更好的建議:對於客戶來說,納入機器學習的更好的模型應該轉化為更好的財務建議並獲得更多更適合緊迫需求的產品。
機器學習提高產品質量
我們Catalyst基金上的目標是提高Destacame.cl的能力,從而根據個人的歷史財務行為更準確地預測誰將違約。從統計學上講,做這個改進意味著我們將通過一個ML演算法來實現一下目標:
·提高敏感度(真陽性率),最大限度地正確識別將最終違約的貸款。
·減少第一類誤差(假陽性率),最小化由模型識別的可能違約的優秀申請人的數量。
·減少第二類誤差(假陰性率),將可能違約但被模型確定為優秀申請人的數量減至最少。
過程——我們做了什麼
為了完成這些任務,我們為分析制定了以下框架:
複製Destacame.cl現用的專有統計模型的結果,檢查任何固有的假設並評估可以做出哪些改進。
利用歷史數據訓練新的使用機器學習技術(下面會有詳細介紹)的信用違約模型,然後使用這些模型來量化改進,最後注意可能影響直接目標之外的對商業模型的任何影響。換句話說,使用歷史數據來量化和更好地預測客戶的未來行為。
通過投資回報(ROI)模型,將統計模型中的抽象改進轉換為業務模型中的具體收入增長。這裡的想法是採取預測的客戶行為,並將其轉化為金融機構產品的預期凈收入。
結果——我們學到了什麼
第一步,複製歷史數據證明是成功的。在Catalyst基金中,我們能夠驗證Destacame.cl以前的分析結果,並澄清了創建評分方法的一些假設。
第二步,培訓機器學習模型也證明是非常成功的,這種方法的細節是本文一下部分的主題。
第三部,有關將統計模型轉化投資回報率商業模式的細節將在未來的文章中進一步探討。
選擇和培訓機器學習模型
第1步:邏輯回歸(logit)。我們從訓練和測試邏輯回歸(logit)模型開始,該模型可以說是使用定量輸入變數(例如過去的支付數據)生成分類(例如Destacame.cl信用評分)的最常見的機器學習方法。使用這種方法作為機器學習與現有評分方法功效的試金石,我們產生了以下結果:
靈敏度提高:模型靈敏度提高到67%,而使用之前的Destacame.cl標註的靈敏度為34%。成功。
減少第一類誤差:使用最初的Destacame.cl標註,當前已授信貸款的34%將被誤分類為可能違約的貸款,並且不會通過審查程序。 Logit模型的引入將此錯誤降低到了21%。成功。
減少第二類誤差:在使用初始Destacame.cl的標註進行測試期間,有66%的違約貸款被錯誤地認定為當前有效貸款。在測試期間,logit模型所識別的貸款中只有33%實際上是違約的。成功。 (編者按:2017年2月2日更新了I型和II型誤差)
這是相當令人鼓舞的結果。 logit演算法的成功說明了機器學習對現有評分演算法進行重大改進的能力。在生產中實施這種模式可能會使銀行節省大量的資金,並減少個人貸款接受者違約的風險及其帶來的影響。
第2步:決策樹。在logit模型作為機器學習基線的基礎上,我們決定探索一些基於樹的機器學習技術,即:回歸樹,條件推理樹,進化樹和隨機森林。每個對象都因其相對優勢獲選。
總體而言,我們看到了類似的結果,只有在條件推理樹在靈敏度和第二類誤差方面略有改進,代價是第一類誤差增加:
靈敏度提高:logit模型下為67%,而條件推理樹為69%。
第一類錯誤減少:logit模型下為21%,而條件推理樹為25%。注意這是一個增加。
第二類錯誤減少:logit模型下為33%,而條件推理樹為31%。
簡而言之,這意味著這些樹比logit模型更好,因此也比預測拖欠率的初始模型更優秀,但是會比logit模型放棄一些優質的貸款。
第3步:解釋結果。對於一個規避風險的金融機構來說,樹模型提供的這些折衷可能是一件好事。對於風險承受能力較高的機構來說,Logit模型可能是更好的選擇。對於還有一些銀行來說,也許logit和樹模型(即「合奏」模式)的組合是最好的。這個決定的細節最好使用正式的投資回報率分析,這將在之後的文章中介紹。
有一點很清楚,無論logit模型和條件推理樹之間的最終模型選擇如何:機器學習產生的效果比已經成功的現有模型要好得多,對每個參與者都是如此。
從我們的研究中得到的啟示
藉助機器學習,強大的力量意味著巨大的責任。機器學習是一個強大的工具,使我們能夠提取超出其他方法的智能,例如手動生成的分類。然而,機器學習不是萬能靈丹妙藥,在最終選擇模型之前需要仔細考慮。
對於這種分析,具體而言,我們看到一個情況,提高我們的敏感性意味著增加第一類型誤差。一些機構會樂意接受這個代價,而另一些機構會樂意接受logit模型對現有的評分方法進行改進。選擇最好的模式的唯一方法是了解其使用的上下文,並建立一個財務模型,使該決策的標準明確。
簡而言之,機器學習是偉大的,但要真正發揮它的有效性,還需要良好的技術人員和對如何在商業和客戶環境中建模的良好理解。
這是一個不斷發展的領域。自從五十年代出現以來,機器學習已經並將繼續取得長足的進步。在數字時代,數據的數量和質量都有所提高,而且隨著其繼續通過機器學習即服務(MLaaS)平台等進行推廣,我們將看到應用程序和建模技術的可用性和多樣性方面的改進可以用來解決像這樣的問題。
跟隨數據。通過適當關注我們生成的所有數據,並通過培訓機器學習模型來識別重要的模式,我們正在有效地創建反饋機制,允許在任何可以想像的範圍內進行漸進式改進。也許與我們合作的數據集以及對面向新興市場中低收入客戶的機器學習演算法的改進,對於已建立的市場中的主流金融科技和重數據和以客戶為中心的行業的逆向創新具有影響。
偷了這個框架!(但是請記住魔鬼是在細節中)。這是一個非常成功的金融科技創業公司,它使用機器學習來專註於服務銀行未覆蓋人群的信用產品,也有一個具有特定目標和細微差別和約束條件的信貸產品。然而,上面討論的一般框架(複製,培訓,然後翻譯)不一定限於這個特定的應用。假設合適的數據是可用的,一個好的技術專家擁有這個應用,並且正確的將上下文考慮進來,這個方法可能被應用到希望改進數據的初創公司的各種空間。
Catalyst 基金是一個由蓋茨基金會和摩根大通銀行共同成立的專註於提高金融包容性的科技金融初創公司的種子基金。基金由波士頓BFA諮詢公司管理。
※亞馬遜揭開SageMaker AI服務的面紗,分享能夠大規模地訓練機器學習模式
※IBM全新機器學習庫SnapML:訓練提速46倍,40億樣本僅需91.5秒
TAG:機器學習 |