當前位置:
首頁 > 新聞 > 馬里蘭大學論文:訓練深度神經網路中的一致性難題

馬里蘭大學論文:訓練深度神經網路中的一致性難題

選自arXiv

作者:葉承曦(Chengxi Ye) 、楊葉舟 (Yezhou Yang)、Cornelia Fermüller、Yiannis Aloimonos

機器之心編輯部

近日,馬里蘭大學和亞利桑那州立大學的研究者葉承羲、楊葉舟、Cornelia Fermüller、Yiannis Aloimonos 發表了一篇論文《On the Importance of Consistency in Training Deep Neural Networks》,在此文章中作者們對神經網路多年以來存在的訓練一致性難題進行了探討研究。文章發現神經網路的訓練難題可被解釋為:在多層網路訓練過程中,層與層之間產生的一系列「不一致性」問題。

馬里蘭大學論文:訓練深度神經網路中的一致性難題

在此論文中,作者們將不一致性問題分為三大類:

1. 多層網路每層訓練速度不一致(training speed inconsistency)

目前訓練神經網路的隨機梯度下降迭代法,全局採用相同的步長,無法保證每層訓練速度都是最優的。文章展示了即使對於簡單的多層網路,目前所有一階訓練法均無法獲得良好訓練結果。為此文章分析了每層網路的學習誤差,展示了如何採用現實可行的二階梯度下降法(SGD2)對深層神經網路進行逐層訓練。在計算開銷與一階梯度下降法持平的情況下,訓練效果顯著提升,並且在惡劣初始化 (如 N(0,10000)) 的情況下均能完成訓練。

2. 輸入輸出尺度不一致 (scale inconsistency)

在不加限制的情況下,多層神經網路在計算過程中會產生輸入與誤差尺度不一致問題。過去,學術界針對一階梯度下降法提出了較為複雜的 Batch Normalization 演算法。文章展示在使用二階梯度下降法進行訓練時,歸一化過程可以簡化為 RMS Normalization。相對而言 Batch Normalization 中的一組額外的尺度調整參數在加速一階演算法訓練速度的同時會造成網路不穩定。如何構建穩定的神經網路的是當前神經網路領域的一大難題。目前的絕大多數神經網路模型會將某些細小的擾動擴大,對最終結果造成災難性的影響。

3.層間誤差傳遞不一致(inconsistency in residual propagation)

誤差傳遞不一致是指在誤差從深層往淺層傳的過程中,其能量在各層的分布不一致,其中一個特例是著名的梯度消失問題。文章利用運算元理論和線性代數基本定理,對梯度消失問題進行了解釋。分析得出常用的 ReLU 函數在梯度反向傳播過程中會導致梯度消失問題,於是提出使用函數絕對值構造 ModU 非線性映射。文章末尾利用 RMS Normalization 和 ModU 映射,構造出了穩定型的神經網路,並對深度網路的學習機理進行了探討。

論文:On the Importance of Consistency in Training Deep Neural Networks

馬里蘭大學論文:訓練深度神經網路中的一致性難題

  • 地址:https://arxiv.org/abs/1708.00631

  • 涉及的代碼源代碼可在基於 Matlab 的深度學習平台 LightNet 上找到: https://github.com/yechengxi/LightNet

摘要:我們解釋了訓練深層神經網路的主要難點源自於三個一致性問題。該論文介紹了我們在分析與解決這些問題上的努力。第一個問題是在不同層中訓練速度不一致性。我們提出用一個直觀易於實現,計算開銷小的二階方法來解決此問題。第二個問題是每層輸入與誤差之間尺度不一致問題。我們解釋了二階信息在去除這一障礙時能夠提供便利。第三個問題,也是最具挑戰性的問題是在誤差傳遞中的不一致性。基於線性代數的基本定理,我們給出了著名的梯度消失問題的數學刻畫,並由此給出未來設計神經網路及優化時的一個重要設計原則。在文章末尾,我們構造出一個全新的收縮神經網路(contractive neural network)。

馬里蘭大學論文:訓練深度神經網路中的一致性難題

圖一:使用一階梯度下降方法和二階梯度下降方法的直觀展示。

馬里蘭大學論文:訓練深度神經網路中的一致性難題

表 1:各種神經網路在 MNIST [16] 和 CIFAR-10 [14] 數據集上的訓練結果。

馬里蘭大學論文:訓練深度神經網路中的一致性難題

表 2:使用不同尺度初始化的最低測試誤差。初始化利用標準差為 10^(-4) 到 10^(4) 的正態分布,試驗是在 MNIST 數據集使用章節 3.3 中的十層神經網路進行。

馬里蘭大學論文:訓練深度神經網路中的一致性難題

圖 2:在不同數據集和神經網路上的訓練曲線。(a)在 MNIST 數據集上訓練帶有兩個隱藏層的 MLP 網路的第一輪訓練損失。(b)在 CIFAR-10 數據集上訓練帶有 5 個卷積層網路的測試誤差。(c)在 MNIST 數據集上訓練帶有十個隱藏層的 MLP 網路的測試誤差。在(b,c)中誤差率的增加是由過擬合而引起的。(d)在 MNIST 數據集上訓練帶有十個隱藏層的 MLP 網路的測試誤差。該神經網路的權重初始化服從 N(0,10^-4) 到 N(0,10^4) 的分布,且使用二階信息進行訓練。

馬里蘭大學論文:訓練深度神經網路中的一致性難題

圖 3:ReLU 和 ModU 激活函數在訓練深度神經網路中的應用。(a)不同深度的神經網路使用 ReLU 和 ModU 激活函數的不同測試損失。(b)10 層 MLP 使用 ModU 激活函數在不同程度的權重衰減正則化下的測試誤差率,每一層有 128 個隱藏結點。(c)交替疊加的線性層和歸一化層的範數上界。

馬里蘭大學論文:訓練深度神經網路中的一致性難題

圖 4:使用 ReLU 和 ModU 激活函數的 20 層 narrow MLP 網路在訓練過程中的梯度能量分布(Gradient energy distribution)。平均能量是每一層的能量均值,ReLU 函數在更快的降低誤差的同時也有更嚴重的信息損失,而 ModU 擁有相反的性質。如果神經網路訓練地足夠長,誤差將減少地更多,注意曲線在中部比較平坦。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

三角獸首席科學家王寶勛:熱度之下的對話生成
阿里KDD2017:大規模圖計算對展示廣告的行為預測
吳恩達Deeplearning.ai課程學習全體驗:深度學習
滴滴KDD2017論文:基於組合優化的計程車分單模型
勃起的「丁丁」,能給機器人設計帶來靈感嗎?

TAG:機器之心 |

您可能感興趣

牛津大學神經網路新訓練法:低秩結構增強網路壓縮和對抗穩健性
學界 | 牛津大學提出神經網路新訓練法:用低秩結構增強網路壓縮和對抗穩健性
牛津大學提出神經網路新訓練法:用低秩結構增強網路壓縮和對抗穩健性
二十三:神經網路訓練中的批量歸一化
北航博士生黃雷:標準化技術在訓練深度神經網路中的應用|分享總結
康奈爾大學提出使用隨機加權平均訓練神經網路,提高網路泛化性能
深度學習工程模板:簡化載入數據、構建網路、訓練模型和預測樣本的流程
學界 | Uber AI論文:利用反向傳播訓練可塑神經網路,生物啟發的元學習範式
深度學習中訓練參數的調節技巧
Uber AI論文:利用反向傳播訓練可塑神經網路,生物啟發的元學習範式
Uber AI論文:反向傳播訓練可塑神經網路,生物啟發元學習範式
循環神經網路不需要訓練?復現「世界模型」的新發現
教程|如何快速訓練免費的文本生成神經網路
簡述深度學習預訓練和正則化
教程 | 如何快速訓練免費的文本生成神經網路
徒手訓練的七項巔峰挑戰|網友神評論
備戰揚馬:科學訓練是關鍵
和安東尼御用訓練師特訓,還苦學英語,小丁這是要在美國發展?
學術論文寫作訓練—從寫「反饋論文」學起
思維學習與訓練的代價和風險