深度學習演算法全景圖:從理論證明其正確性
選自arXiv
機器之心編譯
參與:蔣思源、黃小天
論文地址:https://arxiv.org/abs/1705.07038
本論文通過理論分析深度神經網路群體風險(population risk)的收斂行為和它的駐點(stationary point)與屬性來研究深度學習的經驗風險(empirical risk)全景圖。對於 L 層的線性神經網路,我們證明其經驗風險一致收斂到訓練樣本大小為 n、比率(rate)為
的群體風險,其中 d 是總權重維度、r 是每一層權重的量級範圍。然後,我們基於這一結果推導出經驗風險的穩定性和泛化邊界。此外,我們確立了經驗風險梯度與群體風險梯度的收斂一致性。我們同樣證明了經驗風險和群體風險之間的非退化(non-degenerate)駐點和收斂的對應關係,這就描述了深度神經網路演算法的全景圖。此外,我們同樣分析了用 Sigmoid 函數作為激活函數的深度非線性神經網路的特性。我們證明了深度非線性神經網路經驗風險梯度的收斂行為和線性一樣,並同時分析了其非退化駐點的性質。
據我們所知,該研究是第一次理論上描述深度學習演算法全景圖(landscape)的工作。此外,我們的研究結果為訓練良好的深度學習演算法提供了樣本複雜度(sample complexity)。我們同樣提供了神經網路深度 L、層級寬度、網路規模 d 和參數量級如何決定神經網路格局的理論理解。
簡介
深度學習演算法已經在很多領域取得了令人矚目的成果,比如計算機視覺 [1, 2, 3]、自然語言處理 [4, 5] 和語音識別 [6, 7] 等等。然而,由於其高度非凸性和內在複雜性,我們對這些深度學習演算法屬性的理論理解依然落後於其實際成就。事實上,深度學習演算法經常通過最小化經驗性風險來學習其模型參數。因此我們致力於分析深度學習演算法的經驗風險全景圖以更好地理解其實際表現。
正式地,我們考慮由 L 層網路 (L ≥ 2) 組成的深度神經網路模型,並通過最小化常用的平方損失函數(來自未知分布 D 的樣本
)進行訓練。理想情況是深度學習演算法可通過最小化群體風險找到其最優參數 w?。
其中 w 是模型參數,
該方程為樣本 x 服從分布 D 的平方損失函數。這裡 v (l) 是第 l 層的輸出,y 是樣本 x 的目標輸出。實際上,由於樣本分布 D 經常未知,並且只有有限的訓練樣本 x(i),以及來自 D 的
,所以常常通過最小化經驗風險以訓練網路模型。
在這項工作中,通過將經驗風險收斂到群體風險 J(w) 及其駐點和屬性的分析,我們同時為多層線性和非線性神經網路描述了深度學習演算法經驗風險的全景圖。
文獻綜述
到目前為止,只有少數理論可以解釋深度學習,並且它們可大致被分為三類。
第一類旨在分析深度學習的訓練誤差。
第二類的工作 [13, 14, 9, 15] 致力於分析深度學習之中高度非凸性損失函數的損失曲面,如駐點的分布。
第三類是一些最近的工作,其試圖把問題分解為更小的部分來試圖降低分析難度。
然而,還沒有分析深度學習演算法經驗風險全部格局的工作。
4. 深度線性神經網路的研究結果
我們首先證明了深度線性神經網路經驗風險到群體風險的一致收斂性(uniform convergence)。基於該項證明,我們推導出了穩定性和泛化邊界(generalization bounds)。隨後,我們提出了經驗梯度(empirical gradient)和群體梯度之間的一致性收斂保證,然後還分析了經驗風險非退化駐點的性質。
在本論文的分析中,我們假定輸入數據 x 服從τ^2 -sub-Gaussian 分布,同時如假設 1(Assumption 1)所述存在受限量級。
假設 1. 輸入數據
,其均值為 0 且服從 τ^2 -sub-Gaussian 分布。因此 x 就滿足
此外,x 的 L2 範數滿足(x 的量級受限):
其中 rx 為正項通用常數。
4.1 一致性收斂、經驗風險的穩定性和泛化性
定理 1 確定了深度線性神經網路經驗風險的一致收斂性結果。
定理 1: 假定假設 1 中的輸入數據 x 在深度神經網路中的激活函數是線性的。那麼存在兩個通用常數 cf ′ 和 cf,且滿足:
那麼,就存在:
該不等式的置信度至少為 1 ? ε。其中 l 為神經網路層級數量、n 為樣本規模、dl 為最後一層的維度大小。
4.2 梯度的一致性收斂
在這一部分中,我們分析了深度線性神經網路的經驗風險和群體風險的梯度收斂性。梯度收斂的結果對描繪神經網路演算法的全景圖十分有效。我們的結果展現在下面。
定理 2 :假定假設 1 中的輸入數據 x 在深度神經網路中的激活函數是線性的。經驗風險梯度在 L2 範數(歐幾里德範數)中收斂到群體風險梯度。特別地,若
其中 cg" 為通用常數,那麼存在通用常數 cg 滿足:
該不等式的置信度至少為 1 ? ε,其中
4.3 駐點的一致性收斂
這裡我們分析了在優化深度學習演算法經驗風險時的駐點屬性。為了簡化起見,我們使用了幾何性孤立(geometrically isolated)的非退化駐點,因此該駐點局部中是唯一的。
5 深度非線性神經網路的結果
在以上章節,我們分析了深度線性神經網路模型的經驗風險優化全景圖。在本節中,我們接著分析深度非線形神經網路,它採用了 sigmoid 激活函數並在實踐之中更受歡迎。值得注意的是,我們的分析技巧也適用於其他三階微分函數,比如 帶有不同收斂率的 tanh 函數。這裡我們假設輸入數據是高斯變數(i.i.d. Gaussian variables)。
5.1 一致性收斂、經驗風險的穩定性和泛化
本章節中,我們首先給出經驗風險的一致收斂分析,接著分析其穩定性(Stability)和泛化。
定理 4. 假定輸入樣本 x 服從假設 2,並且深度神經網路的激活函數是 sigmoid 函數,那麼如果
那麼存在通用的常數 cy,滿足:
該不等式的置信度至少為 1?ε,其中
5.2 梯度和駐點的一致性收斂
在這一部分中,我們分析了深度非線性神經網路經驗風險的梯度收斂性質。
定理 5 假定輸入樣本 x 服從假設 2,並且深度神經網路中的激活函數為 sigmoid 函數。那麼經驗風險的梯度以 L2 範數(歐幾里德範數)的方式一致收斂到群體風險的梯度。特別地,如果
其中 cy" 為常數,那麼有:
該不等式的置信度至少為 1 ? ε,其中 cy、 cd 和 cr 是在定理 4 中的相同參數。
6 證明概覽
在該章節中,我們將簡單介紹證明的過程,不過由於空間限制,定理 1 到 6、推論 1 到 2、還有技術引理在補充材料中展示。
7 結論
在這項工作中,我們提供了深度線性/非線性神經網路經驗風險優化全景圖的理論分析,包括一致性收斂、穩定性和經驗風險本身的泛化及其梯度和駐點的屬性。我們證明了經驗風險到群體風險的收斂率為
。這些結果同樣揭示了神經網路深度(層級數)l、網路大小及寬度對收斂率至關重要。我們也證明了權重參數的量級在收斂速度上也扮演著重要角色。事實上,我們建議使用小量級權重數。所有的結果與實踐中廣泛使用的網路架構相匹配。
※企業應該怎樣選擇數據科學&機器學習平台?
※專家雲集CSIG圖像圖形學科前沿講習班,共同探索「深度學習+視覺大數據」
※ACL 2017 傑出論文公布,國內四篇論文入選
※初學者必讀:IBM長文解讀人工智慧、機器學習和認知計算
※谷歌雲李佳:谷歌如何開發和應用人工智慧
TAG:機器之心 |
※終端圖像處理實踐:AR全景動態貼紙方案簡介
※厚重質樸——孟全景書法欣賞
※Cell:單細胞測序繪製骨髓基質細胞全景圖譜,助力急性白血病診斷治療
※謝東海:球面全景影像相對定向與精度驗證
※極簡設計致勝 非凡視聽體驗 THX全景聲體驗中心
※如何拍攝真實全面的VR全景圖?
※玩真人實拍遊戲是什麼體驗?《記憶重構》打造極致的VR全景效果
※全面屏手機「終章」 OPPO透視全景屏真香體驗
※教你如何完美掌控全景拍攝
※VR 全景交互媒介特性與內容設計方法
※全景需要拍攝硬體與全景製作軟體
※超強DXR技術演示視頻 展現極致光線追蹤與全景光照!
※《荒野行動》新地圖全景概念圖曝光,這算是最美的地方了吧
※真實與謊言:一文看懂AI晶元全景
※OPPO官微展示屏下攝像頭技術 真正實現全景屏指日可待
※解決全面屏難題的最終技術!OPPO「透視全景屏」正式亮相
※細菌小史:全景解讀細菌的故事
※VR全景展現青海世佑文化追求卓越的精神
※數字叢林十年求真:新媒體研究全景圖
※為什麼你需要一份物聯網全景動態圖譜?