當前位置:
首頁 > 新聞 > 通過高效信息傳播來提升深度神經網路的學習效率

通過高效信息傳播來提升深度神經網路的學習效率

雷鋒網按:本文為 AI 研習社編譯的技術博客,原標題為 Improving learning through efficient imformation propagation in Deep Neural Networks  , 作者為 Mirco Milletarì 。

翻譯 | 李鋒   整理 |  餘杭

目前,前饋神經網路 (FFN) 已經得到了廣泛的應用,尤其是在圖像和語音識別上功能突出。儘管取得了這些經驗上的成功,但對底層設計理論的理解仍然有限。在 FFN 中找到準確的層數和單元數需要反覆試驗,而不是一個非常明確的科學問題。同樣的道理也適用於設計新穎的架構或對現有的架構進行優化。理解 FFN 的工作原理以及何時使用 FFN 是一個明確的任務,近期這項任務得到了科學界的廣泛關注。

在這篇論文(目前同行評審)中,我們考慮了這個問題的特定方面,即信息如何通過網路來進行處理和傳播以及信息如何與「激活函數」的選擇聯繫在一起。在文章中,我將嘗試使讀者明白,像 sigmoid, tanh 等等激活函數不能用於 FNN 的隱層中,因為他們會導致嚴重的不一致性,最終減緩或阻止學習,最著名的是在回溯過程中梯度消失的問題。利用概率模型,我們證明了激活需要滿足 a(x)=x sigmoid(beta x) 的形式,正如 Ramachandran 等人此前提出的,通過強化學習訓練大規模的搜索演算法。這種看似無害的差異在神經網路如何處理和傳播信息隱藏了更深的含義,即是在上述提及的論文中被忽視的。

好在 a(x) 不受著名的梯度消失的問題的影響,因為後者通過簡單的向前操作存在著一系列的錯誤。Hayou 等人在最近的一篇論文中也得出了同樣的結論,文中從隨機神經網路的角度研究了這個問題。

我將在文中講述相關數學的一個類比和簡單的維度論證。

信息通過隨機門傳送

思考一下概述的過程:我們想要將信息從一端傳送到另一端。我們不能直接看到門,但我們知道消息在給定內容的情況下傳輸 (s=1) 或不傳輸 (s=0)。例如,門可以執行信息的第一次篩選來查看是否是垃圾郵件。由於我們不知道決策過程的細節,我們只能得到 s= 的概率。

一個類似神經元的門。 下標為 n 的輸入信號 X 進入系統,與偏置量線性組合為 h。s 是突觸結點的狀態:它負責轉換信號 s=1 還是 s=0。由於狀態依賴於輸入的特定表示形式,所以應該將其視為一個隨機變數。

最終,我們對接收信息感興趣,閱讀信息內容並且將部分內容轉發給別人。門轉送信息的概率由 sigmoid 的激活值決定(如果我們用 s={-1,1} 編碼,那就是 tanh),然而這不是信息本身而是信息是否是垃圾郵件的信任問題。如果我們只是想要知道是否是垃圾郵件,這是可行的,但我們想要準確知道信息的內容,這還遠遠不夠。想像下你的門衛告訴你:「順便告訴你,今天你收到了十封信件,其中 4 封是垃圾信件,我已經扔了。但剩餘的 6 封可能是重要的……」這段話的用處有多大呢?

現在考慮一個更複雜的垃圾郵件過濾系統。我們認為這是必要的,因為垃圾郵件非常微妙,一個單獨的門不能勝任分類垃圾郵件的工作。我們以有序的方式安排這些埠,那麼一個埠的輸出就是另外一個埠的輸入。假設每個埠都設置了 sigmoid 函數:唯一能通過網路傳輸的是每個埠對信息是否是垃圾郵件的信任,而不是信息本身。的確,有一類演算法類似於我剛才描述的信念傳播 (BP)。如果每一層只有一個門,那麼很明顯,這個方法不會奏效:接收門不能判定出原始信息是否被正確地分類成垃圾信息有兩個原因:第一,門不能讀取原始信息,第二,它的未來決策只是基於一個意見。一種解決方式是收集更多的意見,即在同一層增加更多的門:現在我們可以通過監聽多種意見來猜測出正確的解決方案。另一種解決方式是通過一定概率來將消息傳送給下一層。很明顯,這種方式要更有效得多,因為每個門都可以考慮到來自前一層的意見和消息本身,從而直接判定消息是否是垃圾郵件。

你可能會因此以下幾個方面爭論:在監督學習框架中,我們在訓練階段給出答案。即使我們只給出一個置信水平,我們仍然可以通過迭代的方式來達到目的。這裡有兩個注意事項:第一,這可能是一個緩慢的過程,第二,這種方法存在一個基本的數學問題。我很快將會給出解釋,但我首先要說的是,當使用 ReLu 時不存在上述問題;事實上這個函數傳遞的不是概率而是消息本身!ReLu 的問題是,只有門完全確定信息不是垃圾郵件時才會傳送;這意味著我們可能會拒絕接收一個實際上很重要的消息,因為我們對最初的決定過於自信。

那麼如何使線性整流函數(ReLu)更靈活呢?這裡我將使用一個快捷方式(可以在論文中找到正式的推導),將 ReLu 改寫為:

其中,最後一個函數是單位階躍函數,僅當 x> 0 時取值不為零。在物理學中,該函數與 S 型函數(稱為費米-狄拉克分布)有關

其中 β 是與系統雜訊相關的因素,而在物理學中它與溫度成反比(溫度就像雜訊一樣!)。這種激活類似於通過系統傳播的信息流。它不僅傳輸正確的數量,而且還額外提供了我們需要的靈活性。如果你想知道如何驗證這些斷言,請查看下面的技術細節。

確保維度正確

最後來看另一個支持上面討論的信息流圖的簡單論證。你可能記得物理課上有很多數量都附帶了一個物理「維度」。在下文中,我將像物理學家常做的一樣使用術語「維度」,用以指稱用來衡量一定數量的單位。事實上,說我喝了一個水並沒有多大意義;通常我們需要增加「升」或「杯」等單位。前者是標準度量,而後者總是可以涉及前者,例如,一杯水約為 240 毫升(或更多,這取決於杯子的大小!)。

我們輸入進神經網路的不同特徵也具有維度,例如,公寓的大小(平方米),價格(美元/歐元等),像素的亮度(坎德拉)等等……在數字世界中,我們可以使用標準信息單位:比特。確保計算結果維度正確通常是首先要檢查的。這一基本步驟似乎經常被忽視。考慮我們感興趣的情況,一個帶有S形激活函數的前饋神經網路;這在下面以簡化的形式展現。 想像一下,所有輸入X都是以比特為單位測量的,那麼第一層中的每個單元接收具有比特維度的輸入。

「嬰兒網路」,以顯示維度不匹配。

這些量的線性組合仍然具有比特維數。我們現在將 h 輸入 S 型「非線性」函數,這實際上是一個概率(見上圖),因此必須是無維度的。因此,我們需要引入維數 [1/比特] 的常數,使得 a=sigmoid(β h)是無維度的。這個常數在機器學習應用中經常被設置,大家幾乎忘記了它的存在!如果你懂一點統計力學,你會發現β是溫度的倒數(以玻爾茲曼常數為單位),但這裡它只是一個雜訊的度量(參考之前的討論)。

我們現在進入第二層;如果遵循深度學習的標準過程,我們將 S 型激活函數輸入進新單位,即 m1 是 a1 和 a2 的線性組合。如果你到目前為止沒有走神,現在應該會發現這個問題:新的輸入(a)是無量綱的!採用線性組合,你仍然可以獲得無量綱數量(m1)。現在出現了真正的問題:S 型函數仍然需要無量綱,這意味著比例常數 β 也需要無量綱!因此,在一層中,我們以位為單位測量信息和噪音,並且之後的層中所有內容都是無量綱的!這種維度不一致是出現問題的信號!在論文中我們說明了這個簡單的錯誤導致了梯度消失的問題!不言而喻,ReLu 和 ESP 都不會遇到這個問題,因此不會有梯度消失!然而,ReLu 遇到了我們之前討論的問題,另見下面的技術說明以獲得更好的解釋。

我希望你明白的是,如果我們想要通過深度神經網路獲得快速可靠的結果,還有許多簡單的細節需要修改。像這裡描述的小錯誤會導致網路複雜度增加,最終導致性能變差。建立神經網路要遵循明確的設計原則而不是試錯,就可以降低複雜度,並能幫助我們更好理解系統是如何以及何時工作的。

技術說明:我在這裡補充一些細節,你可以忽略這一部分!

要證明上述理論,需要研究海森矩陣的特徵值分布,即損失函數的二階導數矩陣;你可以將它視為損失流形局部曲率的度量。這讓我們深入了解學習的過程。海森矩陣特徵值顯示了不動點是極小值(全為正值)極大值(全為負值)還是馬鞍形(有正有負)。最後一個選項對應於零特徵值,因此為零行列式。如果- Z -表示所有層中的權重( W ),偏差( b ),和噪音(  β  )集。海森矩陣:

其中拉丁字母指標在層上運行,而希臘字母指標在張量 z 的不同分組上運行。進一步定義一個不動點的(均一化)指數,定義為 海森矩陣的負特徵值的數量(分數)。

其中 I()是指標函數, λ 是第 j 個特徵值。這意味著最小值具有索引值 0 ,而最大值具有索引值 1。我們還引入第二個索引以跟蹤零特徵值的分數。我們可以將零特徵值描繪成來自小曲率區域(頂峰)或彎曲; 本質上是通過檢查高階導數確定的,但這超出了本文的範圍。索引簡單地定義為:

在此分析之後,我們發現 ReLu 總是在學習過程中被排除在梯度下降之外的方向。此外,當尋找成本函數的靜止點時,ReLu(雙曲正切函數和  S 型函數)通常不能找到那些與 ESP 相反的經驗誤差最小化的點;經驗誤差只是標記數據集中的值與我們的預測之間的差異。

號外號外~

一個專註於

AI技術發展和AI工程師成長的求知求職社區

誕生啦!

歡迎大家訪問以下鏈接或者掃碼體驗

https://club.leiphone.com/page/home

雷鋒網雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

全球計算機科學家排名更新,在 CCF-GAIR 可以見到 top10 中國學者中的 6 位
南加州大學 phd 王薇月:深度學習在點雲分割中的應用

TAG:雷鋒網 |