學界 | 牛津大學提出神經網路新訓練法:用低秩結構增強網路壓縮和對抗穩健性
選自
arXiv
作者:
Amartya Sanyal、Varun Kanade、Philip H.S. Torr
機器之心編譯
參與:劉天賜、劉曉坤
和目前普遍的稀疏性誘導、結構化限制相似,神經網路的低秩結構也具有壓縮的性質,並在對抗攻擊中具備穩健性。在本文中,來自牛津大學計算科學部和阿蘭圖靈機構的研究者開發了一種新方法,通過在訓練過程中引入修正,增強神經網路表徵的低秩屬性。
引言
深度(卷積)神經網路已經取得了許多重大成果,「表徵學習」就是其中非常迷人的一個方面:深度網路能夠從原始數據中生成可以用於多個任務的表徵。有趣的是,從奠基性論文 Krizhevsky et al. (2012) 開始,人們發現,即使是在完全的監督學習體系下訓練出的神經網路也具有這一性質。在其他和分類、檢索、聚類(通常和原始的分類問題無關)等相關領域,人們利用這些學得的表徵(即遷移學習)已經取得了巨大的成功(Kiros et al., 2014; Lin and Parikh, 2015)。
從本質上講,可以認為倒數第二層(或接近輸出層的某一層)神經元的激活就是原始數據的一個習得表徵(learned representation)(也就是希望從這張圖像中希望得到的內容)。而最後一層神經元通常只是一個多類別 logistic 回歸模型。在本文中,作者主要研究了 ResNet-18 和 ResNet-50(He et al., 2016),同時也部分包括 VGG 網路(Simonyan and Zisserman, 2014)上的研究結果。儘管近年來許多人廣泛研究了神經網路架構的方方面面,但幾乎沒有關於如何理解這些表徵本質的相關工作。
本文研究了這些習得表徵,主要探索了其(有效)維度問題。一個 ResNet-18/50 網路基本都是由 4 個 ResNet 塊(block)組成(其中每個塊又包含了多個卷積層和跳過連接)。我們探索的是第 3、第 4 個 ResNet 塊末端激活的維度。在 ResNet-18 中,第 3 個 ResNet 塊後的激活維度為 16384,第 4 個 ResNet 塊後的激活維度則為 512。在 ResNet-50 中,作者只研究了最後一個 ResNet 塊後的激活維度:為 2048。在實驗中,每一個數據點 x 都映射為向量 a ∈ R^m,用 d 表示上述層(layer)中的激活數量;而向量 a 則是 x 的一個習得表徵。實證研究(Oyallon, 2017)表明:給定類別,這些習得表徵(近似)處於一個低秩(仿射)空間中。(Oyallon 2017 年的研究中,使用了另一個不同的卷積神經網路來處理圖像分類問題)。
作者對訓練過程進行了修正,以保證激活可以(近似)處於一個低秩空間中;準確的說,他們在損失函數中加入了一項,以促使特定層的激活能夠處於低秩仿射空間。使用修正後訓練過程得到的結果準確率基本沒有下降(在一些場景下甚至有少量提升),同時增強了習得特徵的低秩屬性。修正在模型中「加入」了一個虛擬的(virtual)低秩層,可以保證習得特徵基本處於低秩空間中。在優化修正後的目標函數時,使用的是交替最小化方法,該想法類似於迭代硬閾值(Blumensath and Davies, 2009)或奇異值投影(Jain et al., 2010)中所使用的方法。
考慮到樸素奇異值閾值方法會使得訓練過程無法滿足任何實際場景下的需要,作者採用了基於 Nystr¨om 方法(Williams and Seeger, 2001; Halko et al., 2011)的列採樣方法,訓練速度得到了顯著的提升,但也使得沒有得到最優的低秩映射。可以認為,修正後的訓練過程能夠防止神經網路出現過度參數化(over-parametrization),不過使用了和目前普遍的稀疏性誘導方法(如 Anwar et al. (2017); Wen et al. (2016))以及結構化限制方法(Moczulski et al. (2015); Liu et al. (2015))都不同的手段。
最後,作者也探索了學習低秩表徵的優點。其中一個明顯的優點是在其它的應用場景中,低秩表徵能夠壓縮嵌入:事實上,由於這些習得表徵(近似)處於一個低維(仿射)空間中,它們本身就滿足一種壓縮框架。另外,我們研究了這種方式訓練出的神經網路在對抗性攻擊(Szegedy et al., 2013)下的穩健性。結果顯示,相比於標準架構,這些神經網路基本上對由 GSM 方法(Gradient Sign Method)及其變體(Kurakin et al., 2016)生成的對抗性攻擊有更好的穩健性。實證評估進一步表明,在使用習得表徵(或其低秩投影)來訓練 SVM 分類器時,利用修正方法訓練得到的神經網路在使用習得表徵低秩投影時,可以給出更準確的預測結果。
3 LR-Layered 網路
4.1 模型性能沒有下降
表 1:不同的 ResNet 模型在 CIFAR-10 上的測試準確率
表 2:ResNet 模型在 CIFAR-100 上的測試準確率:包含原始結果和遷移到 Fine Label 後的結果
4.2 方差率捕獲
圖 1:倒數第二層上的方差率(Variance Ratio)
圖 2:第 4 個 ResNet 塊前的層上的方差率
4.4 低維嵌入的有效性
表 3:低維嵌入準確率:利用 CIFAR-100 的超類訓練 ResNet-50,在最後一個全連接層前的激活上生成低維嵌入
表 4:低維嵌入準確率:利用 CIFAR-10 訓練的 ResNet-18,利用最後一個 ResNet 塊的嵌入生成低維嵌入
5 對抗攻擊
圖 5:上圖展示了對抗性的誤分類和擾動量級間的關係。(擾動量級使用歸一化 L2 差異度量。其中 1-LR 和 2-LR 分別表示 ResNet18-1-LR 和 ResNet18-2-LR。LR-V 和 N-LR-V 分別對應低秩 VGG19 模型和標準 VGG19 模型)
圖 6:CIFAR-100 超類標籤的 PCA 圖。左圖展示了 ResNet-50 上訓練的 LR 模型的嵌入結果,右圖展示了標準的 ResNet-50 模型結果,兩個模型使用了類似的訓練方法。圖中不同顏色表示不同類別。
論文:Low Rank Structure of Learned Representations(習得表徵的低秩結構)
論文地址:https://arxiv.org/pdf/1804.07090.pdf
神經網路——尤其是深度卷積神經網路——有一個很重要的特徵:它們能夠從數據中學習出非常有用的表徵,而最後一層神經元則只是在這些習得特徵上訓練的線性模型。雖然神經網路在其它諸如分類、檢索、聚類等目標中得到了廣泛使用(即遷移學習),但並沒有足夠的關於這些表徵結構,或是否可以在訓練過程中引入某些結構的相關研究結果。
本文選擇了一些在圖像分類問題中表現很好的神經網路,並研究了其習得表徵的維度。我們選取了 ResNet-18、ResNet-50 以及 VGG-19,並使用 CIFAR10/CIFAR100 數據集來訓練模型;我們發現,這些模型的習得表徵表現出了明顯的低秩結構。在訓練過程中,我們引入了一定的修正,以促進神經網路不同階段激活的低秩表徵。實證結果表明,低秩結構具有壓縮的性質,在對抗樣本問題中,也具有更高的穩健性。
本文為機器之心編譯,
轉載請聯繫本公眾號獲得授權
。?------------------------------------------------
加入機器之心(全職記者/實習生):hr@jiqizhixin.com
投稿或尋求報道:editor@jiqizhixin.com
廣告&商務合作:bd@jiqizhixin.com
※ATEC 螞蟻人工智慧大賽
※語義分割網路DeepLab-v3的架構設計思想和TensorFlow實現
TAG:機器之心 |