當前位置:
首頁 > 新聞 > 北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

雷鋒網AI科技評論按:標準化技術目前已被廣泛應用於各種深度神經網路的訓練,如著名的批量標準化技術 (Batch Normalization, BN) 基本上是訓練深度卷積網路的標準配置。裝配有 BN 模塊的神經網路模型通常比原始模型更容易訓練,且通常表現出更好的泛化能力。

近期,在雷鋒網 GAIR 大講堂上,來自北京航空航天大學的博士生黃雷同學將闡述標準化技術應用於訓練深度神經網路中的主要動機以及介紹一些主流的標準化技術,除此之外報告人也將講解其沿著這個方向發表在 AAAI 2018 的論文《Orthogonal Weight Normalization: Solution to Optimization over Multiple Dependent Stiefel Manifolds in Deep Neural Networks》。視頻回放地址:http://www.mooc.ai/open/course/478。

黃雷,北京航空航天大學計算機學院博士,曾於 2015 年 10 月至 2016 年 10 月在密歇根大學安娜堡分校 Vision & Learning 實驗室做關於深度學習模型優化方面的研究。主要的研究領域為深度神經網路中標準化技術,半監督學習,非參主動學習及相關方法在計算機視覺和多媒體領域中的應用。目前已發表學術論文十餘篇,包括 CVPR,ICCV 和 AAAI 等。

分享主題:標準化技術在訓練深度神經網路中的應用

分享提綱

1. 標準化技術應用於深度神經網路訓練的主要動機及相關方法介紹。

a) 標準化技術加速神經網路訓練的主要動機

b) 主要的標準化方法介紹

2. 正交權重標準化技術:在通用的前向神經網路中學習正交過濾器組。

a) 在深度神經網路中學習正交過濾器組的主要動機

b) 基於重參數化方法求解多個依賴的Stiefel流形優化問題

c) 實驗結果介紹

分享內容

本次分享主要包括兩個方面:一是標準化技術的介紹,二是我發表在AAAI上的論文—Orthogonal weight normalization(OWN)。

首先介紹一下為什麼要對輸入數據進行標準化操作,對輸入數據進行標準化操作在傳統機器學習或數據挖掘中是很常見的,一是因為標準化操作通常能夠提高模型的訓練效果,這對非參模型非常重要比如KNN、Kernel SVM,二是因為標準化可以提高優化的效率,使得模型收斂相對較快,這對參數化模型比較重要。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

現在再講一下為什麼在深度神經網路中,對隱藏層的激活值進行標準化非常重要,我們以多層感知器為例進行講解。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

剛才講完了在深度神經網路中對激活值進行標準化的主要動機,接下來介紹一些標準化技術。第一個方法就是非常著名的Batch Normalization,我們講一下它的主要動機。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

接下來我們來說一下Batch Normalization具體如何做標準化,其實對於BN來說涉及到好幾個方面的選擇。第一個方面是標準化操作是基於整個訓練數據集還是基於mini-batch數據?第二個方面是把標準化操作中的量當做是待估計的參數還是當做數據的函數?第三是要不要進行完全的白化操作?我接下來分別解釋一下Batch Normalization是怎樣選擇的,以及為什麼這樣選擇。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

基於之前的想法,Batch Normalization的具體的實現如下所述。我想特別說明一下為什麼把Batch Normalization放在線性單元的後面而不是放在線性單元的前面,這其實有違於其對數據進行白化操作的動機。當然把BN放在線性單元的前面和後面各有優缺點。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

接下來介紹一下Batch Normalization兩個比較好的屬性。一是加速訓練,二是有泛化能力。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

下面我大致整理了一下Batch Normalization相關的工作,分為四個方面。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

我主要介紹small batch size problem、Extending standardization to whitening 、Normalize activation Implicitly這三個方面的工作。首先是small batch size problem,我按時間順序把相關工作列出來並簡單地比較一下。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

總結一下這個方向的工作抽象來說就是設計一個基於輸入數據的變換且要保證該變換是可微的,這樣就能夠保證每批量數據有穩定的分布,從而能夠穩定訓練。然而,從優化的觀點來看,我認為還是Batch Normalization做的最好。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

接下來我們講一下Extending standardization to whitening這個方向的工作。一個操作是把白化變換中的相關量當做是待估計的參數,另外一個是把白化操作的相關量看做是輸入數據的函數。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

第三個方向是Normalize activation Implicitly。通過對參數、權重矩陣進行相關處理來進行標準化。這裡面的最早的一個工作是Norm Propagation。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

接下來我講一下我發表在AAAI2018上的論文—正交權重標準化技術。之所以引入正交過濾器是因為它有兩個很好的屬性,一是能量保留的屬性,二是冗餘度低。這兩個屬性對於穩定神經網路各層的激活值的分布以及規整化神經網路來說有很大的好處。這個方向之前也有一些相關工作,但是只限定於在RNN的隱藏層到隱藏層的變換中使用。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

但我們期望在前向神經網路中學習更一般的矩形正交矩陣。之前也存在使用約束懲罰的方法。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

因為我們期望學習正交矩陣,那麼我們可以把該問題當做限制優化問題。我把問題定義為Optimization over Multiple Dependent Stiefel Manifolds (OMDSM) 。之所以這麼定義有兩個原因,一是包含多個嵌入的子流,二是每個權重矩陣的損失函數的誤差曲面相互依賴。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

定義完問題之後我們嘗試使用Riemannian方法來求解這個問題,但實驗結果並不理想。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

受啟發於重參數方法以及正交變換是可微的這個結論,我們的方法是設計一個代理參數矩陣,對其進行正交變換得到正交化的權重矩陣,且優化是基於代理參數矩陣。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

為了保證穩定性,期望使得變換後的矩陣正交權重矩陣和代理參數矩陣差異最小。對上圖問題進行求解可以得到下圖結果。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

有了前向變換以及一些相關的結論,我們也可以進行backward propagation使得梯度流通過該正交變換。把這兩個過程封裝成module,我把它稱為Orthogonal Linear Module (OLM) 。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

最後我也對其進行了相關拓展,如考慮如何在卷積上進行拓展等。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

然後我再簡單介紹一下我做的相關實驗。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

實驗結果表明使用我們的的OLM替換原有層後訓練的效果提升比較顯著。我的這篇論文說明了兩件事,一是在前向神經網路裡面可以確切的學習到正交過濾器,二是這種學習到的正交過濾器可以提升深度神經網路的效果。我覺得將這種方法使用到GAN訓練等其他方面也可能得到好的效果。

北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結

以上就是雷鋒網對本次分享的全部整理。大家如果感興趣可以觀看視頻回放:http://www.mooc.ai/open/course/478。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

Google用AI 幫美軍方分析無人機航拍視頻,員工對「助紂為虐」怒了
自動駕駛是一場永不停歇的升級迭代馬拉松,但快和穩須並重

TAG:雷鋒網 |