WSDM2018前方：氪信科技引領人工智慧金融創新新戰場

最新 02-13

數據挖掘和機器學習應用頂級會議之一的 WSDM 2018（ACMInternational Conference on Web Search and Data Mining）於美國時間 2 月 6 日在洛杉磯開幕。

會議概況

WSDM 可以讀作「wisdom」，會議的關注點為搜索、數據檢索、數據挖掘、演算法設計、演算法分析、經濟影響方面的實際且嚴謹的研究，以及對準確率和運行速度的深入實驗探究。今年已經是 WSDM 的第十一屆會議。

本屆會議共收到論文投稿 514 篇，接受論文 84 篇，接受率約 16%。同時，今年氪信有兩篇論文被大會接收。

本屆 WSDM主題報告包括者美國國家工程院院士、微軟全球執行副總裁、ACM/IEEE Fellow 沈向洋，圖靈獎獲得者、UCLA 教授、貝葉斯之父 Judea Pearl，谷歌傑出科學家Andrei Broder, LinkedIn首席數據科學家Igor Peris美國伊利諾伊大學香檳分校計算機系教授、ACM/IEEE Fellow 韓家煒，USC教授Shanghua Teng等等。

先來看前方會議現場情況

圖為此次WSDM支持方陣容，氪信作為唯一的一家人工智慧金融科技初創企業，同微軟、谷歌、華為、雅虎、領英、華為、百度、京東等巨頭企業一同

氪信CEO朱明傑博士與大會主席USC Liu Yan教授，USC Shenghua Teng教授，Local Chair Snapchat科學家Roger Luo，Sponsorship chair京東演算法總監Dawei Yin在會場合影

CreditX團隊與Snap科學家Roger Luo，德州A&M大學助理胡俠教授, LinkedIn科學家Shipeng Yu

主辦方們合照

2月9號朱明傑博士發表「The next battlefield」主題演講

非常感謝邀請，來到WSDM給keynote talk，我花了不少時間想標題，本來我想說下一波的工作機會在哪兒，但是那會顯得我們專門是來招聘人才的，其實我們主要還是來和國際一流的數據科學家同行們交流學術上的進展。我們知道WSDM代表了web search 和datamining，當初WSDM的成立就是因為當初互聯網數據的爆炸，資料庫領域的大牛們和搜索的先鋒們決定在這個快速增長的數據集上挖掘有價值的信息，所以才有了今天的WSDM和這麼廣泛的AI技術在互聯網上的應用。今天我想講講下一波的戰場。

首先介紹一下氪信，其實我們這幫人原來在互聯網公司做數據挖掘，後來我們去中國的金融領域做挖掘。今天我就來分享我們的經驗和教訓。

為什麼我們要去金融領域，給大家看一張圖，這裡面有阿里巴巴的螞蟻金服，騰訊金融，京東百度金融，看他們的估值，沒有幾家互聯網公司比的上。我問大家一個問題，為什麼在我們沒有見到這樣大的谷歌金融，微軟金融，FB金融。而在中國，互聯網公司紛紛跨界到了金融領域，並且做的還很不錯。

互聯網行業的AI應用已經非常成熟，有點過於擁擠了。就像我們當初看新興的互聯網的機會一樣，我們看到其他的領域紛紛的開始信息化，產生大量的數據，然而他們的AI應用還很原始，所以我們去這裡尋找下一個戰場。

我們做金融，原因很明顯，錢很多，數據變的越來越多，而信息是金融的核心，我們又擅長從數據中處理信息。

所以談談金融，傳統金融行業是非常人工的，互聯網公司是非常智能的。

所以絕大多數的金融機構覺得他們的生意受到了挑戰。

在中國，我們正在經歷第三波金融科技升級浪潮，比如移動支付無處不在，金融服務的成本變得更低。金融機構只能去擁抱科技去更容易的獲客，更有效的運營，應對更危險的風險。

所以金融的行為越來越多的在線化，移動化，數據越來越多，這一切都很像我們在互聯網行業見到的。所以，是時候讓我們發揮作用了。

在中國做金融，信用和風險，是巨大的挑戰，因為缺少高價值的金融數據，大量低價值的數據，更高明的欺詐者，快速變化的特徵。解決這些問題，我們做了很多工作，稍後我們的同事會present兩篇論文，分享我們的具體工作。

看一下這個系統，是不是很像互聯網的在線服務背後的系統，只是應用變成了金融的借貸，投資顧問等等。

我提幾個關鍵應用。

知識圖譜非常重要，互聯網上數據挖掘的核心是要建立知識圖譜，我們花了大量的時間去建立金融領域的知識圖譜，把過去大量沒有用上的數據和金融的表現聯繫起來。

以前風險因素，信用評估多是靠風險專家的人工經驗，然而這已經遠遠不足解決我們的問題，我們使用了大量的機器學習和深度學習去產生人工不能加工的特徵。

另外一個有趣的應用是用集成模型取代之前的公式。

這一切都是自動快速迭代的系統，變得更像我們在互聯網之前建立的系統。

相應的結果是，我們與中國最領先的金融機構合作，極大的降低了他們的風險。

一起才剛剛開始，這將是我們未來的主戰場，謝謝大家。

CreditX兩位科學家在WSDM現場做論文報告

【首席科學家MinWei報告】「基於圖計算的用戶行為語言處理反欺詐框架」

【數據科學家姜松濤】「基於X-Encoder的客服問答特徵提取框架」

【MJ為MIS2 Workshop最佳論文頒獎照片】

最後附兩篇論文摘要

1）論文題目：基於用戶移動行為使用網路作為特徵提取框架的線上借貸欺詐預測( Behavior Language Processing with Graph based Feature Generationfor Fraud Detection in Online Lending)

摘要：在過去幾年中,線上借貸在中國呈爆髮式的增長, 但是金融機構缺卻深受欺詐團伙的攻擊從而損失巨大. 歸其原因主要是傳統金融機構面臨對新興的在線借貸人群有巨大的風控挑戰,包括強金融數據缺失, 而易於獲取的行為數據有大數據3V的難點,在線欺詐目標性強,欺詐模式變化迅速等,這使得老一套的反欺詐方法對於線上金融人群特有的欺詐模式非常之無效. 作為國內大數據金融風控領先的提供商, 氪信設計了一套高效的,準確的,可拓展的基於移動行為語言處理的反欺詐框架(BLP)。基於BLP的反欺詐解決方案由用戶線上行為採集, 基於知識圖譜的數據集成,特徵抽取, 基於集成模型的預測模型等模塊組成.網路特徵提取框架作為BLP的特徵模塊的核心組成部分, 使用雙模網路的網路模型用於關聯風險和團伙欺詐風險相關的特徵提取. 雙模網路的構建主要通過網路的同質性指標從各類基於行為的關聯關係中選擇對於欺詐既有聯通性(傳播)又有同質性(聚類)的關係, 然後融合圖論的節點度數,網路聚類係數,四角形,傳播演算法等和專家經驗提煉完整的關聯風險特徵. 基於網路的反欺詐BLP框架在國內領先的金融機構大量的歷史樣本上驗證,網路特徵顯著提升了欺詐模型的預測能力以及模型的穩定性, 模型指標KS提升了27%。

2）論文題目：基於X-Encoder的催收風險模型互動式特徵提取框架(Q&A FeatureExtracting Framework for Online-Lending Collection Risk Modeling withX-Encoder)

摘要：自從2016年以來，中國的線上貸款呈爆髮式增長，行業前列的金融公司已經能達到百萬日申請、十萬級放款的規模，日放款量超過一億人民幣。然而，隨著貸款市場的擴大，行業內機構所面臨的信用風險也逐漸增加。伴隨著大量貸前欺詐風險壓力，行業內的金融機構所面臨的催收壓力也劇烈增加。

為了能夠更好地量化金融機構所面臨的貸後風險，氪信基於催收服務的語音文本進行了深度挖掘，通過在語音文本上進行大量深層次的互動式自然語言處理和深度學習模型嘗試，提出了一種新的解決互動式文本的特徵提取處理框架。這種基於無監督深度學習的特徵提取框架（X-Encoder）能夠有效地辨別出一系列逾期人的屬性，如還款意願的高低等。

通過在大量數據上的實驗，氪信發現X-Encoder框架所提取的特徵能夠大幅度增加催收服務語音文本的有效性以及相關催收風險模型的預測能力；與其他特徵提取方法所提取的特徵相比，能夠提升催收風險模型50%的模型KS指標。

想獲取論文全部內容的夥伴，可以在微信後台留言哦。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 CreditX氪信 的精彩文章:

TAG:CreditX氪信 |