智融集團CTO齊鵬詳析:AI如何處理金融領域的弱特徵數據?丨CCF-GAIR 2017
雷鋒網消息,7月7日~9日,雷鋒網承辦的第二屆 CCF-GAIR 全球人工智慧與機器人峰會在深圳舉行。在第二天的金融科技專場中,智融集團CTO齊鵬帶來了主題為《AI+金融的實踐與想像》的演講。齊鵬曾任職百度網頁搜索部技術經理、高德事業部副總,如今是智融集團CTO。
以下是雷鋒網整理的其演講全文:
二問「人工智慧是什麼?」人工智慧是什麼?每個人都有自己的理解。今天的金融專場有金融專家,也有人工智慧專家,所以我們從最簡單的例子講起,比如如何識別一隻貓?傳統上,要識別一隻貓,需要人定義規則,繼而機器去實現。在這個過程中,我們可能需要貓的輪廓、紋理、顏色等特徵,從這些特徵中找到規則,以實現自動化圖像識別。但貓的耳朵可能會藏起來,可能會背對著你,在這種情況下,就識別不了了。
人工智慧出現後,我們有了新的技術手段。人工智慧處理問題的過程,相當於我們對一個問題進行數學描述,繼而機器幫我們找到對應顯著特徵,找到能夠證明一張圖片上是否有一隻貓的顯著依據。
人工智慧改變了人和計算機的交互方式,首先,我們要明確解決的問題是什麼、問題的複雜度,找到複雜問題的描述,針對這個數學描述,基於大數據,明確描述的函數。其中,有一些理論方法通過反覆迭代和具體調參,可以明確用什麼樣的函數來描述這些問題。所謂函數,在人工智慧中對應的不同模型,可能是深度學習模型,其實就是一個神經網路。神經網路中的不同連接方式決定了對複雜問題的解決程度。比如我用了線性模型,其次決定能解決什麼複雜程度的問題,之後決定用什麼樣的數學函數描述這個的問題。
人工智慧到底是什麼呢?
首先要知道這個問題是什麼?而這個問題在客觀世界是通過數據表達的。數據分為2部分,一是特徵,一是樣本。這兩部分數據決定了我們對現實世界認識的上限,但這個上限永遠沒有辦法突破。所謂人工智慧,就是找到一個函數來描述這個問題,描述的過程即是擬合,基於樣本數據進行預測,那麼,如何保證預測有效呢?明確問題是同類型問題,而隨著樣本擴大,局部世界的抽樣會越來越逼近現實世界,數據預測也會越來越有效。
其次,考慮場景是什麼?在中國,金融是少數人的金融,有一些現代的方法可以預測金融風險,要首先是確認數據夠全、夠多、數據覆蓋準確度高。但中國大多數企業並沒有這樣的數據,隨著移動互聯網出現,越來越多的人才把自己的數字信號、數字痕迹呈現在網上。所以,我們可以做的事情就是基於人的一些描述信息,評價其對個人的金融風險有何佐證。這意味著,我們與傳統金融機構處理的數據量不一樣,數據產生的價值也不一樣。傳統金融的數據是基於邏輯篩選的數據,那些擁有弱特徵數據的人群是傳統金融所不能服務的,而我們能從弱特徵的數據中找到依據。
總而言之,我們做的事情就是:從某個人在移動互聯網上的數據信號中,找出能佐證這個人金融風險的不同依據,從而對這個人做相應的風險定價,決定這個人群是不是值得被服務的。這一過程需要做很多事情,包括選擇哪些學習對象作為數據依據、基於什麼目標判斷結果是否符合預期。一個說的是樣本,一個說的是特徵。對於樣本來說,這些數據決定了當下對這個問題的理解程度。而通過機器學習方法能無限逼近問題理解的上限。
機器學習又涵蓋不同的技術選型,包括深度學習、線性學習方法、非線性學習方法;監督性學習、非監督性學習和半監督學習,這些演算法能幫我們對一個人進行不同維度的風險定價和規劃。但真正能夠通過規則去定義的,仍是冰山一角,而廣泛的數據能夠帶給我們更多有價值的信息。
金融領域如何找「貓」?人工智慧發展很快,影響了我們生活的方方面面,搜索、新聞推薦、購物等各種生活場景下都有用到。這些技術深深影響了我們的生活,就像開車一樣,我們不需要造車,但如何開車需要了解,那麼在金融領域,人工智慧能幫助我們解決什麼問題呢?
人工智慧的核心是:第一如何識別並找到學習依據;第二如何支撐所有的依據,這需要具備強大的計算能力;第三,數據告訴我問題的上限在哪裡,我如何逼近上限,並且可以預測未來的情況。
所以,我們主要做了三方面的工作。
柯南特徵工程第一,把原始數據加工成機器可以理解的數據過程。好比我有一個發動機,但發動機的類型不一樣,其啟動場景不一樣,同時,不同場景下對發動機的續航能力要求不一樣,能源消耗要求不一樣,啟動速度要求不一樣,意味著在不同的場景下需要找到能夠解決不同問題的有效辦法。
第二,從另一個角度看,特徵工程是不斷挖掘數據價值的過程。在這個過程中,要考慮不同的方法。如何對原始數據進行覆蓋、清洗、彌補;如何找到異常值;如何在模型應用的時候保證應變數的調優以及如何做智能降位確保模型的量化能力。
經過24個月的迭代,我們的產品已經能夠挖掘出1200多個基礎維度特徵,這可作為判斷依據,幫助我們儘可能刻畫一個人的生活數字信號。具備了特徵工程和學習對象後,相當於我們有了學習書本,學習書本背後帶給我們的就是相應的知識。
最後我們要解決的問題是:基於樣本的模型有多可靠。這一定程度上取決於輸入豐富程度。如果學習輸入豐富,那我們需要做的事情就是如何變成一位好學生,充分感知到背後數據的信息和價值。
D-AI機器學習模型
首先,我們需要判斷數據的覆蓋、數據的準確性、數據的維度和數據背後和問題之間的相關性。如果是線性相關的,就要符合線性相關的要求,我們需要對特徵做相應的加工和處理。如果發現數據相關性並不是線性的,就需要考慮如何用非線性的數據函數描述問題。所有的數據函數,我們都可以稱之為一個模型。說起模型,不同的問題需要有不同的解決方法和對策,所以,對於不同的數據源、不同的數據質量、不同的數據類型,在不一樣的情況下,我們需要選擇什麼模型刻畫問題。
選定模型後,逼近上限的過程中一定有調參,即模型迭代。
下一步,需要通過大量數據幫助計算機更聰明。人可以通過少量數據進行推理,計算機不可能做少量數據推理,但大量數據推理是完全可以勝任的。 機器學習方法背後的支撐是大數據處理能力。所謂大數據處理,包括以什麼樣的方式從外部、從內部接收,之後做數據的持久化。
最後,如何做計算支持、服務支持。
我們構建了Anubis大數據架構,每一決策都可以在8秒鐘完成,每一次基準庫重建也可以非常快速的完成。
當下,人工智慧公司之間、人工智慧和傳統公司之間競爭的是什麼呢?我認為,歸根結底比的是誰計劃得更快。誰計劃得更快,誰就會變得更聰明。
我需要把業務做得更優秀,產生更多優質數據,優質數據反哺到業務來,從而讓業務做得更好,這就形成了正向的馬太效應。只有這樣,才能保證公司發展有足夠的動力、保持足夠快的速度,在行業裡面立於一個不敗之地。
正好比較巧,我們的人工智慧風控引擎叫做「I.C.E.」,分別是三個字母,I表示Identify,C表示Calculte,E表示Evaluate。即如何盡量快收集到所有的數據樣本和表現;如何快速找到或者有效找到這個問題的數學函數表達;對未來有比較好的預測能力。
AI在金融領域應用
當AI應用到金融領域時,相比於傳統規則,優勢是什麼?
第一,避免了一些道德因素影響,避免了主觀執行能力不穩定的因素,避免了對員工嚴格的技術要求,這一塊明顯機器做得更好。
我們是一個大數據公司,通過人工智慧,我們能對傳統機構所不能服務的人群進行風險定價,能收集到更多有效信息,從而擁有更多數據,加之我們的技術能力,讓我們在迅速形成正向的馬太效應,使得業務能夠快速向前發展。
最後,人工智慧幫助我們解決什麼問題?它提供給我們一種能力:對於大量人不能理解的數據,機器幫我們做定量;當人找不到一個有效函數描述問題時,機器可以找到這樣的函數。所以大數據湧現的今天,人工智慧可謂應運而生。
人工智慧在不同領域、不同的場景下,產生的作用是不一樣的。人工智慧是否可以解決金融領域裡面所有的問題?隨著人工智慧的加入,金融領域會產生很大的改變,至於說能不能解決所有的問題,需要金融領域專家和人工智慧的科學家一起去探索。
※海致斬獲「金融科技領域最佳投資價值獎」「金融科技最佳創新企業」兩項殊榮
※還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017
※暴風TV劉耀平:AI+互聯網電視 助手時代即將到來|CCF-GAIR 2017
TAG:雷鋒網 |
※CEATEC JAPAN 2018|展出多款軟硬體產品,內容領域涉及VR/AR、互聯網……
※GTC 2019:NVIDIA依託GPU將人工智慧帶入多個領域
※浩鯨科技徐曉軍:AI實現的5大基礎條件在交通領域全部具備 | CCF-GAIR 2019
※專業攝影領域新利器 富士XF200/F2 R LM OIS WR遠攝定焦頭評測
※AORUS品牌進軍電源領域,技嘉推出AORUS P850W和P750W
※深耕AI領域 PowerVision臻迪參展CES 2019
※美嘉智能帶你進入Single-Pass噴墨印花技術新領域 引爆2018 ITMA ASIA+CITME 紡機展
※精選NLP、CV領域論文TOP10
※汽車黑科技雲集,2018 CES Asia不再是IT領域的主場
※ARM、X86、RISC-V晶元架構領域,中國芯都不再落後?
※AI 如何賦能內容領域?這四家公司提供了最佳案例 | CCF-GAIR 2019
※Siamese:CVPR 2019 接收論文作者為你解讀視頻跟蹤領域 | CVPR 2019
※深睿醫療5篇論文被MICCAI2019收錄,展示在醫療AI領域的卓越創新能力
※2018 IVRPA大會:獨家解讀中國VR領域
※3.12 VR掃描:Starsky完成1650萬美元A輪融資;Bose進軍AR領域,將推出音頻AR眼鏡
※AI領域年度最強賽事啟動,百舸爭流直通:英偉達GTC CHINA 2018
※2018谷歌學術影響因子發布:NIPS首次躍進Top 100,CVPR排名泛AI領域第一
※2019 CES Asia創新獎出爐 人工智慧領域搜狗佔兩席
※專註LED晶元領域,華引芯完成1500萬Pre-A輪融資
※從「智博會」看5G、IIoT、AI等5大領域的進展