高維回歸方法:Ridge,Lasso,Elastic Net用了嗎
來源:WiseRClub
在信息爆炸的時代,人們收集數據、存儲數據的能力越來越強大,呈現爆炸式增長的不止是數據的觀測量,還有數據的維度。如今,高維數據越來越普遍,對高維數據挖掘的研究有著非常重要的意義。最常見的一種高維數據類型就是文本數據,文本向量的維數一般都可以高達上萬維,一般的數據挖掘、數據檢索的方法由於計算量過大或代價高昂而不具有可行性。
對此,本期乾貨將向大家介紹3種針對高維數據的回歸方法,然後從一篇論文入手,簡單介紹其在文本數據中的應用。
嶺回歸(Ridge Regression)
最小二乘估計量中,如果矩陣
為奇異陣,我們便無法得到對β的可靠估計,在這種情況下,X的微小變化會引起的巨大變化。Hoerl Kennard 在1970年提出在矩陣
的對角元上加一個很小的常數λ的方法來解決 OLS 估計的穩定性:
其目標函數可以寫為:
嶺回歸是一種專門用於共線性或較強共線性數據分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸係數更為符合實際更可靠的回歸方法,對病態數據的擬合要強於最小二乘法。
如果某個係數值過大,那麼最優化目標函數就會被懲罰,我們更願意獲得更小的或者是使其趨近於0。λ控制著嶺回歸中的懲罰力度,λ越大懲罰的力度越大,估計的係數將會對共線性更加穩健。當λ很大時,該懲罰項的影響控制整個目標函數,因此估計出來的係數趨近於0。當λ很小趨近於0的時候,係數估計表現出極大的不穩定性。我們選取10×10的 Hilbert matrix 模擬如下:
LASSO
LASSO 是 Robert Tibshirani 在1996年提出的一種壓縮估計方法,全稱Least Absolute Shrinkage and Selection Operator,它和嶺回歸很像,只是懲罰項有所變化。
其懲罰項可以寫為:
可以看到,懲罰項由平方換成了絕對值。雖然絕對值是凸函數,函數在0點有唯一的最小值,但其在此點不可導。當某項的懲罰係數足夠大時,那麼它將無法進入模型(變數選擇),只有那些回歸係數非0的變數才會被選入模型。
和嶺回歸不同的是,LASSO 沒有顯式表達式,可以通過 LARS(Least Angle Regression)演算法進行估計:
1. 設定初始值=0
2. 找到和響應變數 Y 相關性最大的預測變數
3. 在其與 Y 的相關性符號的方向上增大係數的值
4. 計算殘差
5. 存在其他響應變數和殘差的相關性大於等於和殘差的相關性時停止
6. 增大
直到存在其他響應變數和殘差的相關性大於等於,和殘差的相關性
7. 重複以上步驟直到沒有更多的變數被選入模型
彈性網(Elastic Net)
當出現相關性很高的預測變數時,LASSO 經常會只選擇出一個變數,使結果過於稀疏。並且在p>>n時,LASSO 最多只能選擇n個變數。彈性網是 Lasso 和嶺回歸技術的混合體。它使用 L1 來訓練並且 L2 優先作為正則化矩陣。其懲罰項相應地調整為:
由於懲罰項中增加了二次項,使得LASSO估計中的變數選擇個數的限制被放開,並且可以解決存在相關性很高的預測變數時LASSO只選擇出一個變數的問題。彈性網與LASSO的效果對比如下圖:
應用案例
高維數據的回歸方法在實際中大有用武之地,下面介紹的這篇名為的論文就是一個很好的例子。
文章主要是通過文本挖掘的方法,利用Logistic LASSO, DID, Topic Analysis等模型,發現在EJMR網路論壇上,討論一旦涉及到女性,其內容就會從專業探討轉變為私人話題。這是一篇頗具挑釁意味的論文,它探討了一個活躍用戶上萬的匿名經濟學家網站上的性別歧視現象。該篇文章在美國經濟學界引起轟動,不僅被提名為2017年最有份量的經濟學研究報告之一,還讓美國經濟學會還因此採取了政策干預。
EJMR是一家主要用戶大部分為經濟學博士的網路論壇,其主要目的在於每年的招聘季中分享各個大學的相關信息等,並且該論壇一年中都非常活躍而且用戶的帖子均採用匿名的方式。
作者爬取了EJMR論壇中自2014到2016年超過131913條帖子,共計1143416條的用戶回復。採用Schwartz et al. 2011的開源字典篩選出頻次最高的10000 個詞並建立詞文檔矩陣。並根據詞語劃分出4個 Level用於甄別是否存在性別歧視的分類準則,劃分等級越高表明其鑒別性別的能力越強,限制更加嚴格。
Level 4: he she
Level 3: level 4 + first name or last name
Level 2: level 3 + level 4 + men women male female
Level 1: level 3 + level 4 + level 2 + boy girl boyfriend girlfriend brother sister guy bro
整體分布如下:
作者手動將10000個詞分為15類,其中Academic 和 Personal這兩類詞語是文章研究的重點。 第一類包含「macro」, 「tenure」等與學術相關的辭彙,第二類所包含 「married」, 「relationship」, 「sexual」等與個人生活相關的辭彙。建立如下的回歸方程:
其中
表示某個主題在帖子i中的出現頻數,回歸結果如下:
作者在文中還定義了一個新的變數——主題差異,其公式如下 :
即該帖子中涉及學術的詞頻減去涉及個人的詞頻除以總詞頻。這個變數代表了一個職位學術導向相對於個人導向的傾向,越大越傾向學術,越小越傾向個人。回歸結果如下:
作者設計了一個傾向得分模型來預測一個職位與一萬個最常用單詞的出現次數相關的性別,該模型有兩個目的:第一,解決包含Level 1詞語的重複帖子的情況;第二,找出對性別預測能力最強的單詞。
在這裡該模型的自變數為是否是女性,因變數是關於詞頻的詞語矩陣。變數達10000左右,故採用LASSO的方法進行變數選擇。作者取了 75% 的數據作為訓練集,並使用5折交叉驗證選擇出了最優的調節參數。 剩下的數據用做訓練集。將模型運用到 26,002 個重複項, 其中9,044個歸類為Female = 1 其他的為Female = 0。6088個詞在變數選擇中係數被壓縮為0,即這些詞並未起到甄別性別的作用。
同時可以計算出每個重要詞語的邊際效果。最終的回歸結果如下:
由於爬取的帖子數據是面板數據,作者還探討了每個貼和上一貼的關係,即想要檢驗出帖子討論主題的一個變化趨勢,結果表明當涉及到女性話題時會有比較明顯的趨勢偏向於與學術無關的討論中。作者構建了如下的回歸方程:
其中-1表示前一貼,最終的回歸結果如下:
文章的最後考察了性別對受關注程度是否有影響。作者選取了兩個對照組:(1) 380名RePEc上排名前5%的經濟學家,(2) U.S. News Ranking排名前20的經濟學項目中204位助理教授。運用雙重差分模型識別後,發現女性經濟學家往往比男性經濟學家受到更多的關注,而排名相對較低的經濟學家中男女之間受關注度的差距也在擴大。雙重差分模型如下:
對於380名高層次的經濟學家,將其按照RePEc排名進行分組,每組包含10名女性和10名男性。
分析結果顯示,排名越高的經濟學家受關注度也越高,而女性略高於男性,而在排名越低的情況下,男女之間受關注度的差距也在變大。
掃描上述二維碼加入私募工場,與三萬+私募機構並肩前行。
私募工場最新更新信息:《CTA操盤手計劃》、《指數增強投顧優選》。各業務詳細說明函請看後文。
※量化CTA普適性策略設計理念及實盤效果
※當概率遭遇現實生活:邏輯遠比直覺靠譜
TAG:simuworks |