機器學習之金融應用三問:Why?What?How?
來源:N-iX
編譯:Bot
編者按:N-iX是一家位於烏克蘭和波蘭的軟體開發外包服務提供商,專為政府部門、金融機構和各類企業提供數據驅動的各類服務,其中包括近年來日益火熱的Fintech——智慧金融。作為一家擁有800多名技術專家、合作企業遍布全球的公司,他們對金融領域的機器學習又有什麼見解呢?相信這篇文章能給各位讀者一個答案。
對於很多人來說,金融領域的機器學習可能充滿魔力,即便它背後並沒有什麼魔法(好吧,也許有一點點)。但我們應該清楚,機器學習項目的成功不是源於這項技術本身,而是更多地取決於過程中所構建的高效基礎架構、合適的數據集和正確演算法的使用。
現如今,機器學習正在金融領域大展宏圖,那麼渴望從新技術中獲得突破的金融機構該關心些什麼呢?這篇文章會向讀者揭示,機器學習和AI究竟能實現什麼解決方案,以及公司該如何應用這項技術。
定義
首先,我們可以把金融領域使用的狹義機器學習(ML)定義為數據科學的一個子集,它通過使用統計模型總結洞見,並進行預測。下圖解釋了金融領域的AI、數據科學和機器學習之間的關係。為了簡單起見,本文會專註於介紹機器學習。
機器學習解決方案的神奇之處在於,它們能從經驗中學習,而無需明確編程。簡而言之,你選擇一個模型,餵給它大量數據,之後它就會自動調整參數以提高預測準確率。
而數據科學家的核心工作就是將現有數據集用於訓練機器學習模型,然後把訓練好的模型應用於現實生活。
此圖只反映金融領域情形,真正意義上的機器學習和數據科學不存在屬於/不屬於關係
這些模型是作為後台進程運行的,並根據其訓練方式自動提供結果。數據科學家可以根據需要經常重新訓練模型,保證它們的時效性和總體性能。比如Mercanto就每天都會部署重新訓練。
通常情況下,你提供的數據越多,模型輸出結果就越準確。這一點正中金融領域下懷,因為龐大的數據集在金融服務行業中非常普遍,無論是交易、客戶,還是儲蓄、匯款等PB數據,這些都很適合用於機器學習。
隨著技術的發展和最佳演算法的開源,我們很難想像如果沒有機器學習,金融服務的未來會是什麼樣。從另一個角度看,這也意味著現在大多數金融服務公司還沒有準備好來提取這一技術的真正價值,其中的原因主要有以下幾個:
企業往往對機器學習及其產品抱有不切實際的期望。
人工智慧和機器學習的研發、開發成本很高。
DS/ML工程師短缺是一個主要問題,下圖展示了近幾年機器學習技術需求的暴增。
在更新數據基礎架構方面,老牌金融企業不夠靈活。
我們會在後文慢慢討論如何克服這些問題,但是首先,我們先來看看為什麼金融服務公司不能忽視機器學習。
為什麼金融領域需要機器學習?
儘管面臨挑戰,但許多金融公司還是已經開始在業務中利用起這項技術。下面是金融公司高管親睞機器學習的原因:
自動化業務流程,降低運營成本。
提高了生產力,改善了用戶體驗,從而增加營收。
有利於保障、加強安全性、保密性。
有了各種各樣的開源機器學習演算法和工具,公司就能更好地把它們用於財務數據分析,此外,成熟的金融服務公司往往擁有大量資金,他們也負擔得起在最先進的計算硬體上的花費。再加上金融領域存在大量定量歷史數據,機器學習可以在這片沃土上大展拳腳。
至於落後者,隨著社會發展,現實會證明漠視AI和ML可能是個代價高昂的選擇。
機器學習在金融領域的應用
讓我們來看看金融領域一些有前景的機器學習應用。
流程自動化(Process Automation)
流程自動化是機器學習在金融領域最常見的應用之一。它可以代替手動操作,由計算機自動執行重複性任務,提高企業生產率。
從這個角度看,機器學習機器學習使公司能夠優化成本,改善客戶體驗並擴展服務。以下是PA的常見部署場景:
聊天機器人
呼叫中心自動化
文書工作自動化
員工培訓遊戲化等
如果這些概念太抽象,下面是一些公司的具體使用案例:
摩根大通——該公司推出了一個合約智能(COiN)平台,可以利用自然語言處理技術處理法律文件並從中提取重要數據。如果是人工審查,處理12,000份年度商業信貸協議需要消耗約360,000個工時,但機器學習在短短几個小時內就完成了這個工作量。
BNY Mello——該公司把流程自動化集成到他們的銀行生態系統中,這項創新每年可為他們節省30萬美元,並且大大提升運營效率。
Wells Fargo——該公司用Facebook Messenger平台上的AI聊天機器人和用戶通信,讓它們解決用戶密碼、賬戶方面的問題。
Privatbank——這是一家烏克蘭銀行,它在移動端和網路平台上都部署了聊天機器人客服,可以有效回答客戶的各類問題,還減少了人工客服的數量。
安全
隨著教育、用戶和第三方支付平台數量的不斷增加,財務所面臨的安全威脅也正與日俱增。在這種情況下,機器學習堪稱檢測欺詐行為的利器。
銀行可以用機器學習實時監控每個賬戶的數千個交易參數。演算法可以通過檢查持卡人的行為動作,確定他是不是用戶本人。在金融服務中,各機構使用的模型通常都具有高精度的特徵。
如果系統識別出了可疑賬戶行為,它可以請求用戶提供額外的證明以驗證交易。如果系統認為這是欺詐行為的概率高達95%,它可以完全終止交易。作為計算機,它的評估用時只需短短几秒,這有助於把犯罪苗頭及時扼殺,而不是在事發後才發出警報。
財務監控是機器學習在金融領域的另一個安全用例。數據科學家可以訓練一個可以檢測大量小額支付記錄的機器學習模型,用來標記可疑的洗錢行為。
此外,演算法也可以顯著增強網路安全性。由於機器學習在實時分析大量參數上的能力是首屈一指的,數據科學家有望利用它的這個優勢發現、隔離網路威脅。這也是網路安全公司開始對這項技術產生興趣的一大原因。
Adyen、Payoneer、Paypal、Stripe和Skrill,這些金融科技公司已經在機器學習網路安全上投入了巨資。
承保和信用評分
機器學習演算法完全適合被用於金融和保險中常見的承保任務。
數據科學家在數千個客戶檔案中訓練模型,每個檔案都包含有關客戶信用評分高低的數百個數據條目。這之後,完成訓練的模型就可以在現實環境中執行相同的承保和信用評分任務。這種評分系統可以幫助人類員工更快、更準確地工作。
銀行和保險公司都擁有大量歷史消費者數據,因此他們可以用這些數據,或者用大型電信或公用事業公司生成的數據集來為客戶評分。
例如,墨西哥最大銀行BBVA Bancomer正與另一個信用評分平台Destacame合作,為拉丁美洲客戶開發信貸准入機制。Destacame可以通過開放API訪問公用事業公司的賬單支付信息,利用這些歷史支付行為數據,他們可以為客戶生成信用評分並將結果發送給銀行。
股票交易
在股票交易中,機器學習有助於做出更好的交易決策。數學模型可以通過實時監控新聞和交易結果,檢測可能迫使股價上漲或下跌的事件,然後根據預測自動售出、持有或購入股票。
要知道,演算法可以同時分析數千個數據源,這是人類交易員無法做到的。雖然機器學習模型不具備人類的「冒險」精神,始終在追逐小利,但鑒於大量的交易操作,這種小優勢到最後通常會轉化為巨額利潤。
機器人顧問
機器人顧問,也稱智能投顧,現在在金融領域已經是司空見慣的了。目前,這類機器學習應用的用途主要有兩個:
投資組合管理。這是一種在線財富管理服務,它使用演算法和統計數據來分配、管理和優化客戶的資產。當用戶輸入自己的當前資產和預期目標後,比如到50歲時擁有100萬美元,智能投顧會根據用戶的風險偏好和期望目標把資產按比例分配到各投資產品中。
金融產品推薦。許多在線保險服務會用智能投顧向特定用戶推薦個性化保險計劃。由於費用較低,個性化定製更準確,客戶也一般也更傾向於選擇機器人顧問,而不是個人理財顧問。
如何利用機器學習?
儘管人工智慧和機器學習擁有極大優勢,但事實上,即便是擁有雄厚財力的公司,他們也無法從這項技術中提煉出真正的價值。金融服務公司正迫切希望能抓住它帶來的獨特機會,但他們對這個技術的運作原理和應用方式還只停留在一個模糊的概念上。
當部署機器學習模式時,他們會覺得缺少業務KPI,沒法衡量改變;如果制定了KPI,他們就會對模型產生各種不切實際的期望,並導致預算耗盡。對於企業來說,擁有適合的軟體基礎設施是不過的(儘管這是個良好開端),他們需要一個清晰願景、紮實的技術人才資源,以及開發有價值的機器學習項目的決心。
一旦你充分了解這項技術將如何幫助公司實現業務目標,之後才是構思、驗證。這是數據科學家的任務:調研想法的可行性,幫助制定可行的KPI,並做出切合實際的估算。
請注意,如果企業要使用機器學習技術,請務必收集所有需要的數據。
放棄機器學習,轉向大數據工程
通常情況下,如果一家金融公司突然覺得自己有必要開發機器學習服務,那麼這有很大的概率是他們只是需要數據工程建設。高級數據科學家Max Nechepurenko曾分享自己的經驗:
在開發[數據科學]解決方案時,我建議使用奧卡姆剃刀法則,越簡單越好。大多數以機器學習為目標的公司實際上只需要數據工程,只要統計數據、分析數據,再把結果可視化,他們的問題就迎刃而解了。
最基礎的數據分析工作足以讓銀行擺脫其運營中的各種瓶頸和低效率,比如消除重複性任務、提高人力資源調配效率、移動客戶端缺陷篩查等。
更重要的是,任何數據科學項目的一個最重要的組成部分是構建協調的平台生態系統,讓它能從數百個來源(如CEM、Excel等)中收集孤立數據。在應用演算法前,首先,你要有數據,其次,你要對數據進行適當的預處理,這通常占項目總用時的80%。
使用第三方機器學習解決方案
即便公司決定在項目中部署機器學習,你也沒有必要真的去自己開發新的演算法和模型。
大多數機器學習工具都已經被製作出來了,谷歌、微軟、亞馬遜和IBM等科技巨頭也將機器學習軟體作為一種服務出售。只要經過訓練,這些即用型解決方案可以解決公司所需的各種業務。如果公司自己開發,你能確保最終成果會比這些巨頭的好用?
一個很好的例子是谷歌最近發布的AutoML,這類工具允許完全不懂機器學習的人根據任務目標定製機器學習模型,企業只要提供相關數據就可以了。雖然研究界內部對此爭論不斷,但對於工業應用來說,實用、方便、有效就行。
此外,現有機器學習演算法並不適合所有問題,所以權衡取捨非常重要。
創新與整合
從頭開始開發機器學習解決方案是風險最大、成本最高且耗時最久的選擇之一。但對於某些特殊商業應用,自己開發是唯一的方法。
需要注意的是,如果是研究和開發針對特定利基市場的機器學習模型,你必須對該市場進行深入調查。如果沒有為解決這些特定問題而開發的現成解決方案,那麼第三方機器學習軟體很可能會產生不準確的結果。
為了降低難度,你會不可避免地要用到谷歌等公司的開源機器學習資源。那麼企業該怎麼成功推進機器學習研發項目呢?以下是我們總結的7個特徵:
一個明確的目標。在收集數據前,你首先要對AI、ML實現的結果有大致了解。
機器學習解決方案的強大架構設計。您需要經驗豐富的軟體架構師來執行此任務。
適當的大數據工程生態系統 (基於Apache Hadoop或Spark)是必不可少的。它可以從金融服務公司的眾多孤立數據源中收集、集成、存儲和處理大量數據,對於這個任務,大數據架構師和大數據工程師可以全權負責。
在新創建的生態系統上運行ETL過程。大數據架構師或機器學習工程師可以執行此任務。
最後的數據準備。完成數據預處理後,數據科學家還要進一步優化數據分析,使其適用於特定的業務案例。
使用適當的演算法,基於這些演算法創建模型,微調模型以及使用新數據重新訓練模型。
洞察力。除了智能領域專家,你還需要一個好的前端來構建易於使用的UI儀錶板。
全文小結
老牌金融機構已經開始把機器學慣用於流程自動化和系統網路安全性。
在收集數據前,要理性設定預期;在項目開始前,制定可行的KPI。
大多數金融服務公司只是需要數據工程,而不是數據科學和機器學習。
訓練數據越多、越乾淨,機器學習解決方案產生的結果就缺準確。
你可以根據需要隨時重新訓練模型,無需停用、棄用。
世上不存在用於各種業務的通用機器學習解決方案。
如果要開發具有機器學習功能的財務軟體,成本很高。
像谷歌這樣的科技巨頭創造了大量機器學習解決方案,如果你的想法和它們撞車了,最好不要指望自己開發的能比他們的更好。
原文地址:www.n-ix.com/machine-learning-in-finance-why-what-how/
※機器學習實踐-DGA檢測
※數據產品必備技術知識:機器學習及常見演算法,看這一篇就夠了
TAG:機器學習 |