深度學習演算法全景圖：從理論證明其正確性

新聞 06-04

選自arXiv

機器之心編譯

參與：蔣思源、黃小天

深度學習演算法全景圖：從理論證明其正確性

論文地址：https://arxiv.org/abs/1705.07038

深度學習演算法全景圖：從理論證明其正確性

本論文通過理論分析深度神經網路群體風險（population risk）的收斂行為和它的駐點（stationary point）與屬性來研究深度學習的經驗風險（empirical risk）全景圖。對於 L 層的線性神經網路，我們證明其經驗風險一致收斂到訓練樣本大小為 n、比率（rate）為

深度學習演算法全景圖：從理論證明其正確性

的群體風險，其中 d 是總權重維度、r 是每一層權重的量級範圍。然後，我們基於這一結果推導出經驗風險的穩定性和泛化邊界。此外，我們確立了經驗風險梯度與群體風險梯度的收斂一致性。我們同樣證明了經驗風險和群體風險之間的非退化（non-degenerate）駐點和收斂的對應關係，這就描述了深度神經網路演算法的全景圖。此外，我們同樣分析了用 Sigmoid 函數作為激活函數的深度非線性神經網路的特性。我們證明了深度非線性神經網路經驗風險梯度的收斂行為和線性一樣，並同時分析了其非退化駐點的性質。

據我們所知，該研究是第一次理論上描述深度學習演算法全景圖（landscape）的工作。此外，我們的研究結果為訓練良好的深度學習演算法提供了樣本複雜度（sample complexity）。我們同樣提供了神經網路深度 L、層級寬度、網路規模 d 和參數量級如何決定神經網路格局的理論理解。

簡介

深度學習演算法已經在很多領域取得了令人矚目的成果，比如計算機視覺 [1, 2, 3]、自然語言處理 [4, 5] 和語音識別 [6, 7] 等等。然而，由於其高度非凸性和內在複雜性，我們對這些深度學習演算法屬性的理論理解依然落後於其實際成就。事實上，深度學習演算法經常通過最小化經驗性風險來學習其模型參數。因此我們致力於分析深度學習演算法的經驗風險全景圖以更好地理解其實際表現。

正式地，我們考慮由 L 層網路 (L ≥ 2) 組成的深度神經網路模型，並通過最小化常用的平方損失函數（來自未知分布 D 的樣本

深度學習演算法全景圖：從理論證明其正確性

）進行訓練。理想情況是深度學習演算法可通過最小化群體風險找到其最優參數 w?。

深度學習演算法全景圖：從理論證明其正確性

其中 w 是模型參數，

深度學習演算法全景圖：從理論證明其正確性

該方程為樣本 x 服從分布 D 的平方損失函數。這裡 v (l) 是第 l 層的輸出，y 是樣本 x 的目標輸出。實際上，由於樣本分布 D 經常未知，並且只有有限的訓練樣本 x(i)，以及來自 D 的

深度學習演算法全景圖：從理論證明其正確性

，所以常常通過最小化經驗風險以訓練網路模型。

深度學習演算法全景圖：從理論證明其正確性

在這項工作中，通過將經驗風險收斂到群體風險 J(w) 及其駐點和屬性的分析，我們同時為多層線性和非線性神經網路描述了深度學習演算法經驗風險的全景圖。

文獻綜述

到目前為止，只有少數理論可以解釋深度學習，並且它們可大致被分為三類。

第一類旨在分析深度學習的訓練誤差。
第二類的工作 [13, 14, 9, 15] 致力於分析深度學習之中高度非凸性損失函數的損失曲面，如駐點的分布。
第三類是一些最近的工作，其試圖把問題分解為更小的部分來試圖降低分析難度。

然而，還沒有分析深度學習演算法經驗風險全部格局的工作。

4. 深度線性神經網路的研究結果

我們首先證明了深度線性神經網路經驗風險到群體風險的一致收斂性（uniform convergence）。基於該項證明，我們推導出了穩定性和泛化邊界（generalization bounds）。隨後，我們提出了經驗梯度（empirical gradient）和群體梯度之間的一致性收斂保證，然後還分析了經驗風險非退化駐點的性質。

在本論文的分析中，我們假定輸入數據 x 服從τ^2 -sub-Gaussian 分布，同時如假設 1（Assumption 1）所述存在受限量級。

假設 1. 輸入數據

深度學習演算法全景圖：從理論證明其正確性

，其均值為 0 且服從 τ^2 -sub-Gaussian 分布。因此 x 就滿足

深度學習演算法全景圖：從理論證明其正確性

此外，x 的 L2 範數滿足（x 的量級受限）：

深度學習演算法全景圖：從理論證明其正確性

其中 rx 為正項通用常數。

4.1 一致性收斂、經驗風險的穩定性和泛化性

定理 1 確定了深度線性神經網路經驗風險的一致收斂性結果。

定理 1：假定假設 1 中的輸入數據 x 在深度神經網路中的激活函數是線性的。那麼存在兩個通用常數 cf ′ 和 cf，且滿足：

深度學習演算法全景圖：從理論證明其正確性

那麼，就存在：

深度學習演算法全景圖：從理論證明其正確性

該不等式的置信度至少為 1 ? ε。其中 l 為神經網路層級數量、n 為樣本規模、dl 為最後一層的維度大小。

4.2 梯度的一致性收斂

在這一部分中，我們分析了深度線性神經網路的經驗風險和群體風險的梯度收斂性。梯度收斂的結果對描繪神經網路演算法的全景圖十分有效。我們的結果展現在下面。

定理 2 ：假定假設 1 中的輸入數據 x 在深度神經網路中的激活函數是線性的。經驗風險梯度在 L2 範數（歐幾里德範數）中收斂到群體風險梯度。特別地，若

深度學習演算法全景圖：從理論證明其正確性

其中 cg" 為通用常數，那麼存在通用常數 cg 滿足：

深度學習演算法全景圖：從理論證明其正確性

該不等式的置信度至少為 1 ? ε，其中

深度學習演算法全景圖：從理論證明其正確性

4.3 駐點的一致性收斂

這裡我們分析了在優化深度學習演算法經驗風險時的駐點屬性。為了簡化起見，我們使用了幾何性孤立（geometrically isolated）的非退化駐點，因此該駐點局部中是唯一的。

5 深度非線性神經網路的結果

在以上章節，我們分析了深度線性神經網路模型的經驗風險優化全景圖。在本節中，我們接著分析深度非線形神經網路，它採用了 sigmoid 激活函數並在實踐之中更受歡迎。值得注意的是，我們的分析技巧也適用於其他三階微分函數，比如帶有不同收斂率的 tanh 函數。這裡我們假設輸入數據是高斯變數（i.i.d. Gaussian variables）。

5.1 一致性收斂、經驗風險的穩定性和泛化

本章節中，我們首先給出經驗風險的一致收斂分析，接著分析其穩定性（Stability）和泛化。

定理 4. 假定輸入樣本 x 服從假設 2，並且深度神經網路的激活函數是 sigmoid 函數，那麼如果

深度學習演算法全景圖：從理論證明其正確性