大數據時代,參數怎麼降維?
小編在《數學模型教你如何成為星際爭霸高手·上篇》[1]中提到過,參數估計(在數學上又稱為反問題)往往比數學建模本身更為複雜。小編近日在研究阿爾茲海默症(Alzheimer s Disease,老年痴呆症的一種,已有上百年歷史)的形成機制時對此深有體會。經多方總結,總算大體弄清楚了該病症的形成機理,得出如下圖表[2]:
大家只需知道在這個複雜的網路中,每個小圖都對應至少一個參數。看完後如果讀者的表情是這樣的:
小編表示理解,因為小編如果晚上睡不著,看看上面這個圖表則倦意頓生!不一定非得「枕著你的名字才能入眠」,看著老年痴呆症的圖表也可入眠。
點擊播放 GIF/69K
其實以上圖表已經經過了小編的高度簡化,實際情景中還有許多未知或者有爭議的致病機理尚待考證。所以用人名來命名一種疾病,實在是非常明智的,否則阿爾茲海默症應該譯作——細胞質神經元纖維纏結-細胞外液β澱粉樣蛋白老年斑致神經元萎縮疾病,以區別於其他老年痴呆症(帕金森綜合症,ALS等)。每一種常見的疾病背後,都牽連著異常複雜的過程。
正好比當今中小學作業太多,需要減負;面對如此龐大(高維)的參數空間,自然也要想辦法減少參數個數,這也是大數據時代普遍需要解決的問題。那麼參數該如何降維呢?正所謂八仙過海各顯神通,不同背景的科學家有不同的做法。
下圖是參數估計問題的基本設定,
接下來的討論都將基於這個設定。熟悉了以上設定,我們就可以出發了!
一、數理統計學家的做法——模型選擇
數理統計學家對於模型參數的有關問題了如指掌,關於參數問題的方法和思想五花八門。例如在參數估計(Parameter Estimation)問題中,線性回歸、非線性回歸、極大似然估計是幾種最常用的方法[3]。
不過在估計參數之前,首先要確定模型中到底需要多少參數。就像籃球比賽,參賽雙方都有主力隊員和替補隊員,如果所有隊員同時上場,勢必造成場面混亂;如果雙方只上一名隊員,觀賞性則遠遠不夠。這就是模型選擇(Model Selection)要解決的核心問題——到底派多少隊員上場,才能既保證觀賞性(模型的有效性),又不至於造成混亂(複雜性)呢?
模型參數,並非越多越好
在模型選擇中,我們需要判斷兩種不同的參數選擇方案和孰優孰劣。其核心思想便是尋找某種「度量」來衡量兩種參數的表現,而經常使用的度量為優化R方檢驗(Adjusted R square)、AIC和BIC等。有興趣的讀者可以自行查詢具體計算方法,這裡只對這幾種度量的特點進行比較:
可見這幾種度量各有側重,也各有好處。在實際應用中,這幾種度量通常會同時派上用場,以對不同模型進行綜合分析。
二、數據科學家提供思路——主成分分析
模型選擇有個非常大的局限性,就是我們沒有辦法預先確定哪些參數相對有用,哪些無用,只有毫無規律地瞎猜。看樣子這種方案不太行得通。
有沒有辦法能預先就判定出相對「有用」的參數呢?我們可以借鑒數據的降維方法,這可是數據科學家(本文的數據科學家更關注數據的處理和分析,數理統計學家更關注參數的處理和分析,兩種思維是有差別的)的專長。其中最為出名的方法叫做主成分分析(Principle component analysis)。
什麼叫高維數據呢?給定一個數據x,我們可以把這個數據看作一個向量,這個向量的每個分量都表示這個向量的某一個屬性。例如「天氣」,它由很多子屬性構成——溫度、濕度、降水量、能見度、風力、陽光強度、舒適度等等,於是這樣一個簡單的天氣數據向量就包含了以上七個分量,是一個七維數據!就算是不了解數據分析的讀者也可以看出,這個天氣數據的七個分量之間存在著曖昧不清的關係,比如「濕度」必然和「降水量」有關,「舒適度」和前面幾個分量都有關。那麼能不能把「濕度」和「降水量」結合成一個新的分量?能不能把「舒適度」用其他分量表示?這就是數據的降維,也是主成分分析的基本思想,形成的新分量就是所謂的主成分。
如何把這種簡單的思想翻譯為精確的數學語言呢?簡要地說,數學上用矩陣X(n×k,n是數據個數,k是數據維數,相當於把所有數據排列為一個矩陣)來表示高維數據的集合,稱為設計矩陣(Design Matrix)。如果想提取數據的m個主成分,那麼就通過計算矩陣X X(X 表示X的轉置,注意X"X是一個對稱矩陣)的最大m個特徵值對應的特徵向量。而這m個特徵向量則完全決定了前m個主成分的取法。
矩陣對角化。A若對稱,那麼P可以是正交陣,對角化相當於矩陣"旋轉"
到此為止,數學家們已經心滿意足了:「主成分嘛,不就是找對稱矩陣的特徵向量,用矩陣旋轉的方法就可以搞定了!」但是數據科學家和計算科學家們還遠不滿足——實際計算中,矩陣對角化非常耗時耗力,例如要把一個k×k對稱矩陣對角化,用QR分解的計算複雜度為O(k^3)[4](讀者可自己驗證),在只需要很少幾個主成分的情況下,這是沒有必要的。於是通常的做法是先找出最大的特徵值,得到相應的主成分,再按需要依次提取出更多的主成分。省時又省力,何樂而不為哉?計算複雜度是非常實際並且重要的概念,也是很多擅長理論的專家沒有考慮過的因素,這也在一定程度上形成了理論界和應用界之間的鴻溝。
三、參數好壞的衡量——Fisher信息矩陣
回到對參數降維的問題。參數降維和數據降維之間是差異的——模型中的參數往往是滿足限制條件的,而且和數據不一樣,這些限制條件並不能直接用矩陣表示出來。這時候,熟悉數理統計的讀者可能會聯想到一個概念——極大似然估計中的Fisher信息矩陣(Fisher information matrix),因為Fisher信息矩陣告訴了我們每個參數的估計方差。我們可以扔掉方差較大的參數(因為方差大,說明這個參數對模型影響小),至少得縮減它們在模型中的戲份。
我們來回顧一下極大似然估計的定義:
θ_MLE上面有一頂「帽子」,表示這是一個估計,一個隨機變數,而非真實值。既然是隨機變數,那麼必然就有的誤差,這種誤差該如何衡量呢?當θ和x都是一維參數時,CR不等式(又名CR上界)告訴你答案:
也就是說估計誤差由Fisher信息量所決定。其證明思想並不複雜,主要是利用柯西不等式和概率密度函數的性質。有興趣的讀者可以參考(這是小編四年前參加某數學競賽面試時自創的方法,至今記憶猶新。時光荏苒,青蔥歲月,現親筆寫下來,以作紀念):
很久不寫字,丑了許多(雖然原來也不好看)
當數據x維數增大時,θ(可以是高維參數)的極大似然估計滿足中心極限定理(漸進正態),其協方差矩陣為Fisher信息矩陣的逆。
值得一提的是,「信息量」其實是借鑒了統計物理中的「熵」的概念[5]。有統計物理背景的讀者會覺得Fisher信息量很眼熟。事實上,如果x是一個可觀察值(量子力學中用Hermite運算元表示,也就是在Hilbert中空間自共軛的運算元),θ是x的共軛變數(Conjugate variable,如溫度和熵、壓強和體積、化學勢能和粒子數都是共軛變數對),那麼x的不確定度(量子力學中的不確定度就是x的方差)正好由關於θ的Fisher信息矩陣給出[6]!小編還發現,如果把文獻[6]的「共軛變數」推廣到一般的量子哈密頓系統中去(例如動量-位置共軛和時間-能量共軛),那麼海森堡測不準原理和CR不等式其實是等價的(唯一的區別在於由於物質波的假設,量子力學需要在複平面考慮問題。這個話題超過了本文範圍,在以後的文章中繼續介紹)!偉大的思想總是不謀而合,這個觀點既有助於理解Fisher信息量,又能加強對量子世界的認識——這個世界是由一系列的不確定事件編織而成。
四、 黎曼幾何登場
現在我們有了降維的思想——主成分分析,有了衡量參數好壞的方法——Fisher信息量,那麼接下來該如何操作呢?一種大膽的想法是,把這些參數看作是高維空間中的低維曲面(更準確的說法是流形,但為了簡單起見,本文依然使用「曲面」的概念),然後通過某種方式讓Fisher信息量來決定這個曲面的具體形狀,以決定這個參數空間的限定條件,從而達到參數降維的目的。這個想法正是一個新興學科——信息幾何學(Information geometry)的基本思想。而Fisher信息量充當的角色,正是黎曼度量(Riemann metric)。
三維空間中的二維曲面
小編在初學微分幾何的曲面論時,遇到了不小的麻煩。當時不知道黎曼度量到底是何方神聖,所有在曲面上的分析都是利用所謂「第一基本形式」和「第二基本形式」的概念來完成的。例如曲面上兩點間的測地線(geodesic),是指曲面上連接兩點的最短曲線。這個概念雖然簡單,但當老師從容不迫地推導了一黑板測地線方程
圖片來自網路
小編是崩潰的,尤其是那幾個「christoffel符號」(最後一行的Γ項,既有上指標又有兩個項指標)。儘管曲面論的出發點是很符合直觀的,但推導過程非常複雜,往往使初學者把注意力集中在每一項的具體數學形式是什麼,而不是對每個符號的直觀理解,而過於複雜的公式很容易讓人產生畏懼心理。這是分析思想的特點之一——出發點符合直觀,但過程可能很繁雜。
但當小編學過黎曼幾何後,所有的問題彷彿都迎刃而解了。黎曼幾何的出發點看似很抽象——它直接把曲面本身看做一個度量空間,而黎曼度量則被定義為一個正定矩陣(或者正定二次型,例如歐式空間的黎曼度量是單位矩陣)。有了黎曼度量,所有的概念都漸漸地透明起來,例如那些全身上下掛滿指標的「christoffel符號」,在黎曼幾何中又被稱為Levi-Civita聯絡,是由於曲面的彎曲特性,把曲面上對向量場的微分計算轉化到歐式空間時(因為我們熟悉的微積分都是定義在在歐式空間上的,需要做此轉化),需要添加的修正項。
從這個觀點出發(見上圖),我們就不難理解為什麼測地線方程會出現Levi-Civita聯絡了。測地線,說穿了就是對曲面上連接兩點的所有曲線的總長(這個總長和黎曼度量有關)求最小值,只需要對研究向量場的變化即可。對向量場求微分以後,Levi-Civita聯絡隨之出現,造就了簡約而不簡單的測地線方程。儘管出發點頗為抽象,曲面論中很多看似複雜的定義在黎曼幾何中得到了更為清晰的詮釋,因而黎曼幾何更符合代數思想——抽象,但是思路清晰且具備高度概括性。
抽象歸抽象,參數估計這個看似不那麼抽象的工作還是要繼續的。既然我們有了測地線的概念,那麼是不是可以從參數曲面上任意一點(初始值)出發,沿著測地線方向行走,達到降維或者優化的目的呢?這正是信息幾何學的要害所在!從K維參數曲面上的一點出發,沿著測地線行走到曲面的邊界處(注意邊界規定了參數的取值範圍,通常是人為給定的),我們就走到了K-1維的曲面上,從而參數空間變成了K-1維!如果在這個K-1維曲面上繼續沿著測地線行走到它的邊界,那麼我們就走到了K-2維曲面上。以此類推,就達到了參數降維的目的!具體演算法如下圖所示[7]:
演算法的可視化,偏應用的讀者只需記住這張圖即可,不必拘泥於具體理論推導
從直觀上看來,信息幾何學中的降維思想和主成分分析頗為相似——都是通過對某個正定矩陣作變換來達到一步步降維的目的,每一次迭代後參數或數據都會發生「旋轉」。不同之處在於,1. 參數曲面上的黎曼度量會隨著曲面發生連續變化,所以參數需要沿著測地線「旋轉」;2. 每次發生「旋轉」後,參數的維數會減小一維,而數據的旋轉得到的只是一維主成分。同是降維,兩者的降維方向是不同的。
不過也許「旋轉」這個概念能幫助讀者從另一個角度理解Levi-Civita聯絡的意義。
今後我們還可以逐漸看到,黎曼幾何的概念直接推動了整個20世紀物理和數學多個分支的蓬勃發展,並且把一些看似毫無關係的思想串聯了起來。例如群表示論、李代數、微分方程、同調論、拓撲度理論等數學工具得以被直接運用於黎曼流形(更一般地,複流形)及其對應的纖維從上,構成了規範場論(坐標變換的推廣,通常用群作用表示)、量子場論(為統一量子力學和廣義相對論而設)和標準模型(把除了引力以外的力和各種基本粒子統一起來)等物理理論的雛形[7-11],這是代數思想的又一個偉大意義。當然,這是題外話。
五、總結
通過對幾種不同的思想比較,我們可以切身體會到對數據降維和對參數降維的巨大差異,總結如下:
因此參數分析和數據分析是兩個完全不同的概念,運用的方法也大相徑庭,這也是為什麼小編要在第二節中把數據科學家和數理統計學家區分開來。值得一提的是,雖然流形學習(Manifold learning)也是數據降維的主要處理手段之一,但是和信息幾何學全然不同,因為主流的流形學習技術中並沒有黎曼度量的概念,更不需要考慮數據應該朝哪個方向降維(參數則沿著測地線降維)的問題。不過顯然,了解信息幾何學的基本思想,有助於加強對流形學習的認識。
作為數理統計、統計物理和黎曼幾何三種不同智慧的結晶,信息幾何學是解決參數降維問題的一個極為強大的工具。它至少有四個優點:
這麼一個強有力的工具,為何知道的人並不多呢?原因也很簡單。其一,這是一個很年輕的學科,很多理論尚處於發展期;其二,起點太高,至少需要同時掌握數理統計和黎曼幾何兩種思想(統計力學的觀點也很重要,解釋了為什麼Fisher信息矩陣可以看做黎曼度量),在工業界應用受限;其三,不同人對信息幾何的理解不同,例如文獻[12],更多的是把數理統計和機器學習中的概念用幾何語言重新表述一遍,並沒有實際應用案例。本文的觀點則是基於文獻[6]和[13]。
偉大的思想之所以能夠不謀而合,是因為它們內在的普適性和抽象性,也就是小編一直所推崇的代數思想。估計很少有人能夠想到,黎曼幾何的概念不僅能對現代物理學產生顛覆性的轉變,而且還能在參數估計這種應用界難題上發揮作用。英雄並不孤單,那麼有沒有其他像黎曼幾何這樣的「英雄」存在呢?答案是肯定的,不過每個「英雄」都有自己親自譜寫的史詩級篇章,以後小編將會一一道來。最後以一首詩來總結本文,以加深讀者的記憶。
參數降維行
千金易散,知己難求;模型易得,參數難測。
參數既估,繁若迷糊。欲求清凈,亟訪名師。
岳王廟口,西湖斜畔,統計泰斗,參禪指手。
模型茫茫,篩而選之。安以定度?稱量先拓。
姑蘇城郊,紅塵聲囂。數據學者,殊無隔閡。
銀漢雖廣,太白引航;數據雖多,緣其脈搏。
數據固龐,主幹分明;參數稍貧,層次難尋。
信息矩陣,相助解困。主次參差,呼之漸晰。
參數常匿,降維何易。黎曼幾何,釋疑頌歌。
信息度量,測地線網,參數曲面,萬物具全。
統計出謀,數據劃策,幾何導領,天下安定。
參考文獻:
[2] W. Hao et. al,Mathematical model on Alzheimer』s disease.
[3] S. Chatterjee et. al,Regression analysis by example, 5th edition.
[4] J.W. Demmel et. al,Performance and Accuracy of LAPACK s Symmetric Tridiagonal Eigensolvers.
[6] G.E. CrooksMeasuring thermodynamic length.
[7] 馬天,流形拓撲學:理論與概念的實質。
[8] 馬天,從數學觀點看物理世界——幾何分析,引力場與相對論.
[9] 馬天,從數學觀點看物理世界——基本粒子與統一場理論。
[10] F. Lachello,Lie algebras and applications.
[11] L.P. Horwitz,Relativistic quantum mechanics.
[12] S. Amari,Information Geometry and Its Applications.
[13] M.K. Transtrum et. al,Sloppiness and emergent theories in physics, biology, and beyond.
來源:科普最前線
編輯:zcl
※記住這些關鍵時刻能救命!(下)
※流星出現時為何會同時聽到聲音?
※在地球上鑿出貫穿地球的隧道並跳進去,人會怎樣下落呢?
※住在冰屋裡真的不冷?
※引力波的前世今生
TAG:中科院物理所 |
※大數據時代,傳統數據倉庫技術是否已經過時?
※大數據時代,數據的應用及邊界在哪?
※大數據時代來了,可你真的知道什麼是大數據嗎?
※大數據時代的來臨,數據的問題又該如何處理?大數據背後的問題
※擁抱大數據時代
※大數據時代,貴州的短板是什麼,怎麼補?
※大數據時代催生「另類數據」熱,數據分析行業緊隨其後
※大數據時代下的沉淪
※談談大數據時代下的數據倉庫
※大數據時代如何保護數據安全與數據隱私?
※大數據時代,你的隱私在哪裡?
※大數據時代的幾點思考
※大數據時代下的數據安全
※大數據時代下,政府數據具備更多可能性
※大數據時代,銀行人還有出路嗎?
※大數據時代,要想做好產品和運營,數據分析你不可不會!
※大數據應用案例趣談-大數據時代如何保護我們的隱私?
※大數據時代已經到來
※大數據時代:日本在做什麼
※民眾數據變現時代來臨,你願意出賣數據賺錢嗎?