大數據金融,這個「跨界整合」會帶來什麼
大數據及其衍生技術在最近幾年時間裡成為了一門被市場和大眾熱烈追捧的「新概念」和「新課題」。各種關於大數據的研討及其應用層出不窮:「大數據風控」、「大數據扶貧」、「大數據城鎮」等種種新辭彙在各類媒體平台上不斷刷洗著讀者的眼球,同時也激發了人們對大數據所代表的某種「無所不能」的巨大憧憬。
對於金融行業和金融研究領域,「大數據金融」彷彿成為了一門新興學科,業界期望這樣的「跨界整合」,會給金融行業和金融學術研究開創新紀元。
大數據不是「門外的陌生人」
其實,對於金融研究領域的從業者而言,大數據技術早就融入進了絕大部分研究者的日常工作當中。
如果只停留在對大數據字面意義的理解來分類,所有的金融實證研究例如應用型金融資產定價、市場微觀結構等,早在三四十年前就引入了對海量數據的統計分析技術。最著名的案例包括尤金·法瑪和肯尼斯·弗倫奇教授在上世紀九十年代初期,一系列關於市場風險溢價因子的研究論文,後來對於資產組合管理理論以及具有里程碑意義的三因子理論模型的提出,都是基於對美國和當時全球主要發達國家的證券市場過去幾十年的交易數據深度統計研究的結果上獲得的。更不要說當代關於市場微觀結構的理論文獻,每一項成果的背後無不凝聚著對高達十幾甚至上百千兆位元組海量高頻行情和交易數據深度挖掘而歸納出的智慧結晶。所以傳統的大數據應用對於金融理論研究領域來講,其實並不屬於門外的陌生人。
但是如果我們只著重拓展傳統意義的大數據在金融上的應有,就會制約和束縛金融研究的創新和發展。大多數人對於大數據的理解停留在了它是「海量數據」這麼一種直觀感性的認識基礎上。如果從事金融研究的專家學者,把思維桎梏在了這一狹隘的眼界上,那麼他所做的研究則會在創新的道路上越走越窄。例如現在的某些金融研究論文或者金融理論模型的改進,動輒就要採用上百千兆位元組的數據,對於一個溢價因子重要性的佐證,要調動全世界全市場的數據來統計。資源和精力的損耗不說,研究成果的重要性以及貢獻度和他所付出努力也不成正比。
大數據的概念,並不能僅僅局限在突出數據的「多且海量」這一個方面的特徵,其實它也需要囊括對數據「新且多元」的這麼一層深刻理解。針對金融行業以及金融研究領域的大數據應用上,更應該強調它「新且多元」的一面。
過往我們所熟悉的金融研究文獻,它需要搜集採納的數據一般就是金融資產的市場交易數據。但是現在越來越多的創新型金融研究理論和模型的研發,已經跳出了對傳統交易數據的唯一路徑依賴,而採用了多樣化的數據來源和格式,例如衛星影像數據、互聯網搜索數據、人臉識別數據、圖像聲紋數據、媒體文本數據和社交通訊數據等。
「新且多元」的大數據,已經越來越明顯地改變了金融行業的從業生態和重塑了金融研究的實踐思維。
「新且多元」的大數據
金融場景結合「新且多元」的大數據實踐應用,最具有幽默感的案例之一,就是本世紀初幾名美國有線電視新聞網(CNN)財經記者,對時任美聯儲主席格林斯潘的公文包厚度和聯儲加息相關性研究的分析報道。他們發現了一個規律,但凡格林斯潘的公文包是鼓的,很厚,聯儲當日或者當季的加息決定可能性就很大,從而會影響一系列市場金融產品的價格和大盤走勢。這一指標,後來也被學界定義為「格林斯潘公文包」指標。它突破了當時研究美國股票市場溢價因子和利率市場期限結構對傳統數據源的依賴思維,而且研究成果也具備相當的說服力和顯著性。
再例如美國諾特丹大學著名華人學者笪治、高芃傑以及約瑟夫三位教授,在2010年發表在國際頂級金融研究學術期刊上的文章,就將金融資產定價理論研究結合了谷歌互聯網搜索熱度指數,並且成功驗證了二者之間有效關係的顯著性。笪治教授將社會大眾對於在美國證券交易所上市的股票(羅素3000指成分股)在谷歌上的搜索頻率做成了「熱搜指數」(SVI),通過統計回歸,發現「熱搜指數」不僅僅對預測股票在短期內高額回報有相當大的顯著性,對於股票長期的價值回歸也具備統計有效的預判性,他們的究結果同時也適用於新上市的次新股。
與此類似,我和同事發表在2018年金融研究評論(The Review of Financial Studies) 的文章,將新聞報道的歷史文本數據做成了「輿情指標」,並且通過研究發現了市場化運作的財經媒體所報道的「輿情指標」,對於中國上市公司的股票回報率和高管層替換等重大事件都具有顯著且有效的相關性。
「新且多元」的大數據,目前不僅僅成為了金融研究理論突破的重要資源,對於不同場景中的金融實踐,也開始慢慢承擔起了商業戰略決策不可或缺的論證依據。
美國華爾街日報在2014年的一篇報道中介紹了一家高科技數據分析公司,該公司專門向金融市場和機構提供各種各樣的另類數據和分析報告,並幫助用戶通過這些報告在金融市場實踐操作中獲取了不菲的投資回報。他們提供的數據和應用場景,包括通過商業衛星對地球測繪掃描的圖像,獲得零售業巨頭沃爾瑪實體店門口停車場佔用率數據,並且將該數據時間序列化後比對過往沃爾瑪公司的盈利情況,從而能主動預測下一季度沃爾瑪公司的財務公告。同時他們建議投資者根據結論提前交易布局,獲得盈利。再者,同樣是利用衛星的地球測繪光譜成像數據,獲得美國農業產區各類農產品生長要素(水源,氣候,災害等)的變化數據,根據數據來判斷農產品現貨市場的真實供需關係,幫助貿易商和期貨投資者交易決策做出科學判斷。
大數據對金融監管和風險防範的應用,也不斷地刷新著人們思想創新意識的邊界高度。
大數據徵信技術就是當前在金融監管領域屬於前瞻性的課題。傳統的徵信模型往往依賴的數據源比較單一,除了個人在不同商業銀行過往的貸款信用記錄,就是一些水、電、煤氣、網路或者手機的欠費記錄。這些數據不能完整地表現出企業或者個人的信用曲線,依據這些數據所做的徵信結論,往往偏向事後風險管理,對事前、事中的風控指導意義並不是很大。
但是如果可以引進能從不同角度反應企業或者個人的「新且多元」的大數據,則能給整個徵信工作帶來全新的改變。例如,很多徵信模型開始引入社交軟體的通訊數據,模型將根據用戶平時社交聊天的關鍵詞,來判斷一個人對於誠信問題的態度,同時結合各種媒體過往的文本信息,去系統性追溯被徵信人過去是否在不同城市和地點有過信用污點的報道和司法糾紛(中國目前對個人出境旅遊是否產生有損國格的行為以及乘坐高鐵是否有影響行車安全的記錄,都是以文本信息的形式存在),最後人臉數據和識別技術可以幫助金融機構科學地判斷擬授信人和被徵信人是否一致等。這樣大數據徵信,不僅可以幫助金融監管機構動態地掌握被徵信人實時信用狀況,同時也把徵信工作從事後風險管理,推向了事前、事中的風險預防,從而大幅度降低整體社會的金融風險。
可預見的問題和挑戰
我們有理由相信,將各類「新且多元」的大數據應用結合金融理論研究和實踐的不同場景,他們會摩擦出各式各樣的創意火花和成果。但是在大數據技術和金融相結合的發展道路上,也存在一些可預見的問題和挑戰。
從大數據金融應用實踐的角度看,目前社會爭論比集中的地方是關於大數據安全、個人信息保護、技術壟斷和濫用等幾個問題。這幾個問題本質根源,總結起來,是可以歸納為當前大數據行業高速變革的社會需求和針對大數據的立法司法工作進度不匹配的發展之間的矛盾。目前全世界的法律都沒有明確界定數據源的產權歸屬問題(數據歸誰),製造數據的社會實體(自然人或者法人)和實現數據交換的平台,以及通過數據交換過程中新衍生的數據,三者之間的法律定位和隸屬關係遠達不到有法可依的程度。對大數據壟斷和濫用行為界定缺乏足夠的法源法理依據,這部分的法律空白將會導致大數據寡頭壟斷以及競爭不充分等一系列後續發展問題。但是反過來說,要是針對大數據行業發展的立法過於超前,也將會遏制該行業未來的創新能力。所以這方面的挑戰確實是擺在政府面前需要謹慎處理的難題。
另一方面的問題和挑戰是關於大數據技術結合未來金融理論研究發展的路徑選擇。這方面的問題,例如大數據的「數據格式」和處理該數據的統計模型存在一定的不匹配,以及對於數據應用的原理缺乏嚴謹科學的理論認證。就像我們前面所說的,大數據目前能展現的格式多種多樣,有傳統的數字格式,也有圖像格式、音頻格式、文字格式等等。但是目前的金融統計模型只能處理傳統的以數字格式出現的數據。研究界對於非數字格式出現的數據,缺乏一種科學的處理方案,最常用的手段就是把非數字格式的數據簡單的數字化,例如對互聯網和媒體的關鍵詞數據進行頻率化處理,來表達一種「多或者少」以及「有或者無」的統計。在這處理過程中,會出現數據的扭曲和失真問題,加上作者對數據的解讀會具有一定任意性和誤導,從而讓整個研究的成果或多或少帶有一定的偏向性。當然出現這問題的關鍵在於目前主流的金融統計模型,還不具備處理表現格式多樣化的大數據能力。直白地說,現在沒有一個統計回歸模型能直接處理圖像、音頻和文字數據的功能,這方面基礎研究的不足,已經制約了大數據在金融領域裡面的實踐應用。
今後我們要做的是對各類大數據「能不能用」、「為什麼能用」、「如何應用」等問題作出系統性的解答,這樣才能明確大數據和金融應用與理論探索的道路。
TAG:金融經濟 |