「神經網路為什麼過擬合?」理解深度學習需要重新思考「記憶」
新智元報道
深度神經網路在容量(capacity)足夠的情況下,能夠對任意複雜函數進行表徵,因此也被稱為通用的函數逼近器(universal approximators)。不僅如此,最近的工作表明,深度神經網路的表達能力(expressiveness)隨著深度呈指數增長。
然而,這些工作都只是對現象進行了研究,沒有分析其本質及原因。
這次,Bengio 等人被 ICML 2017 接收的論文《近看深度網路的記憶》(A Closer Look at Memorization in Deep Networks)對上述問題做了初步的探討。
這項工作也是 Bengio 等人在 ICLR 2017 上提出「理解深度學習需要重新思考泛化」這一論點之後,再次對「理解深度學習」做出的努力。
這一次,作者從「記憶」的角度出發,他們將「記憶」的定義為深度神經網路在雜訊上訓練所表現出的行為,並進行了一系列實驗,將深度網路在雜訊數據與在實際數據上的學習動態(learning dynamics)做了對比。
作者在論文中寫道,他們在 ICLR 2017《理解深度學習需要重新思考泛化》這項工作的基礎上,總結得出:
1)深度神經網路在實際數據上的優化行為與在雜訊數據上的優化行為存在定性差異。換句話說,深度神經網路不僅僅是記住了真實的數據。
2)深度神經網路在記憶之前,首先學習簡單的模式。換句話說,深度神經網路的優化是與內容有關的(content-aware),利用了多個訓練樣本共享的模式。
3)不同的正則化技術,能在不影響神經網路泛化能力的情況下,以不同的程度阻礙深度神經網路的記憶。
論文:近看深度神經網路的記憶
摘要
我們仔細考察了記憶在深度學習中的作用,考慮了記憶與容量(capacity)、泛化性能和對抗魯棒性(adversarial robustness)的關係。雖然深度神經網路能夠記住雜訊數據,但我們的結果表明,網路傾向於首先學習簡單的模式。在實驗中,我們揭示了深度神經網路(DNN)在雜訊與實際數據上梯度優化中的定性差異。我們還表明,對於得到適當調整的顯示正則化函數(例如 dropout),可以在不影響實際數據泛化性能的情況下,降低(degrade)DNN 在雜訊數據集上的訓練性能。我們的分析表明,在使用基於梯度的方法訓練時,神經網路的有效容量(與數據集無關)這一概念無法解釋深度網路的泛化性能,因為訓練數據本身在確定記憶程度方面起著重要的作用。
論文地址:https://arxiv.org/pdf/1706.05394.pdf
※「重磅」李飛飛高徒Karpathy加入特斯拉,主管人工智慧部門
※Facebook對話AI發展出人類無法理解語言,肇因兩個智能體參數跑偏
※「開源」谷歌「一個模型解決所有DL難題」背後的Tensor2Tensor
※「Bengio 投資人」垂直AI 初創公司才能構築壁壘,2B模式回報更高
※「重磅報告」120圖勾勒全球AI產業完整圖譜:BAT華為研發費用PK
TAG:新智元 |
※乾貨 | 深度學習應用中需要思考的問題
※宇宙中有神嗎?為什麼找不到經絡?這些都需要用理論物理學來研究!
※學好政治科學,你需要重複,再重複
※深度學習為什麼需要工業化標準
※為什麼數據科學家需要掌握「遷移學習」?一文詳解
※頸動脈斑塊嚴重到什麼程度需要手術治療?快來圍觀
※初學者需要了解的8種神經網路結構!
※春節相親!需要哪些經濟學思維?
※想追女孩需要重新構建自身系統
※軟技能和硬技能哪個重要?科技行業需要重新思考這個問題
※我們為什麼需要審美重構
※學顏楷《多寶塔感應碑》需要注意什麼?
※為什麼你需要大重量訓練?
※抑鬱症治療需要注意什麼?
※我們更需要一場心理啟蒙——思想篇
※新房裝修前需要考慮什麼?
※耐磨地坪清理養護需要注意哪些問題呢?
※寫文章需要什麼樣的合作者?
※北京新手學化妝需要準備什麼?
※新媒體運營需要學什麼,如何學習