當前位置:
首頁 > 新聞 > 谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)

機器之心報道

參與:吳攀



谷歌研究者最近在 arXiv 上發布了一篇論文,介紹了一種新的網路:貝葉斯循環神經網路(Bayesian Recurrent Neural Networks),在該論文中,谷歌還介紹並開源了兩個實驗實現。機器之心對該研究進行了簡要介紹,論文原文請點擊文末「閱讀原文」查閱。

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)

在本研究中,我們探索了一種用於循環神經網路的直接的變分貝葉斯方案(variational Bayes scheme)。首先,我們表明對截斷的通過時間的反向傳播(truncated backpropagation through time)進行一點簡單的改進就能在訓練過程只需消耗一點點額外的計算成本的情況下得到良好的質量不確定性估計和優異的正則化。其次,我們說明了一種全新的後驗近似(posterior approximation)可以如何進一步提升貝葉斯 RNN 的表現。我們在近似的後驗中整合了局部梯度信息,以圍繞當前批的統計情況(current batch statistics)對其進行銳化。該技術並不限於循環神經網路,而且可被更廣泛地應用於訓練貝葉斯神經網路。我們還通過實驗表明貝葉斯 RNN 在一個語言建模基準和一個圖像描述任務上優於傳統的 RNN,同時也說明了這些每種方法在其它多種用於訓練它們的方案上對我們的模型實現了提升。我們還為語言模型的不確定度研究引入了一個新的基準,以便未來我們可以輕鬆地比較各種方法。


1 引言

本研究有以下貢獻:

  • 我們表明通過反向傳播的貝葉斯(BBB:Bayes by Backprop)可以被有效地應用於 RNN

  • 我們開發了一種全新的技術,其可以減少 BBB 的方差,而且其可被廣泛地應用於其它最大似然框架

  • 我們在兩個被廣泛研究過的基準上實現了表現提升,並極大地超越了已有的正則化技術,比如 dropout

  • 我們引入了一個新的用於研究語言模型的不確定性的基準


2 通過反向傳播的貝葉斯

演算法 1 給出了用於最小化的通過反向傳播的貝葉斯的蒙特卡洛過程(Bayes by Backprop Monte Carlo procedure),其涉及到後驗 q(θ) 的平均值和標準偏差。

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)



3 通過時間的反向傳播

一個 RNN 可以使用通過時間的反向傳播(backpropagation through time)來在一個長度為 T 的序列上進行訓練,其中該 RNN 被展開 T 次而成為一個前向網路。也就是說,通過使用輸入 x1,x2,...,xT 和初始狀態 s0 來構建該前向網路:

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)

其中 sT 是該 RNN 的最終狀態。我們應該指的是進行 T 步如 (3) 所示的 RNN 核展開,通過

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)

其中,x1:T 是輸入向量的序列,而 s1:T 是對應狀態的序列。注意該演算法的截斷版本(truncated version)可以被看作是將 s0 作為之前批的最後狀態 sT。



4 使用通過時間的反向傳播的截斷貝葉斯(Truncated Bayes by Backprop Through Time)

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)

圖 1:BBB 應用於一個 RNN 的圖示

圖 1 給出將 BBB 應用於 RNN 的示意,其中該 RNN 的權重矩陣是根據分布(通過 BBB 學到的)而繪出的。但是,這種直接的應用有兩個問題:什麼時候對該 RNN 的參數採樣,怎麼衡量 (2) 的 KL 正則化器的貢獻。

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)

下面的演算法 2 中,我們簡要地說明了 BBB 對 RNN 的適應。

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)



5 後驗銳化(Posterior Sharpening)

演算法 3 給出了實際中學習執行的方式

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)

不同於一般的 BBB (其中 KL 項在推理過程中可以忽略,參見補充材料),在後驗銳化下進行推理,我們有兩種選擇。第一種涉及到使用 q(?) 並忽略任何 KL 項,類似於一般的 BBB。第二種涉及到使用 q(θ|(x, y)),這需要用 KL [q(θ|?,(x, y)) || p(θ|?)] 項得出一個困惑度(perplexity)上界(下界用對數概率產生,參見補充材料)。下一節提供了這兩種方法的比較。



6 相關工作(略)

7 實驗

我們給出了我們的方法在一個語言建模基準和一個圖像描述生成任務上的結果。



7.1. 語言建模(Language Modelling)

開源地址:https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/ptb_word_lm.py

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)

表 1:在 Penn Treebank 語言建模任務上的詞級困惑度(越低越好)



7.2. 圖像描述生成(Image Caption Generation)

開源地址:https://github.com/tensorflow/models/tree/master/im2txt

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)

圖 3:在 MSCOCO 開發集上的圖像描述結果

谷歌論文提出貝葉斯循環神經網路:優於傳統RNN(附開源項目)

表 2:在 MSCOCO 開發集上的圖像描述結果

討論、致謝、參考文獻和補充材料(略)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

斯坦福大學Brainstorm神經形態晶元:未來計算的新方向
CMU邢波組對抗網路新研究:實現準確預測隱式篇章關係
百度NLP|智能寫作機器人:不搶人類飯碗,我們只想人機協作
機器之心深度研學社每周乾貨:2017年第14周

TAG:機器之心 |

您可能感興趣

循環神經網路RNN(二)深度學習之父的神經網路第八課(中文字幕
英特爾SDN/NFV技術 奏響「雲就緒」網路樂章
循環神經網路RNN(一)深度學習之父的神經網路第七課(中文字幕
詩歌網路平台與傳統出版精神丨金石開
賽特斯柔性網路產品總監李晏:SDN/NFV視角下的邊緣網路和邊緣計算
日本技術宅利用深度神經網路與 VR 體驗《沙耶之歌》的世界
簡單入門循環神經網路RNN:時間序列數據的首選神經網路
《四女神ONLINE:網路次元海王星》自定義內容截圖
WINNER姜勝允、黃勝妍合作網路劇《千年戀愛中》
文本直送科技新聞:懶科技:遠離網路詐騙集團之網路釣魚
重磅|谷歌發布TPU研究論文,專註神經網路專用處理器
eLIFE:"升級版」光遺傳學技術照亮神經網路的研究道路
萬字「全文」詳解谷歌神經網路機器翻譯NMT
【山歌藝術】網路情緣
提升DNN參數準確度:MILA提出貝葉斯超網路
百度NLP|神經網路語義匹配技術
「讓神經網路能夠「通感」」MIT 和谷歌研究連接文字、聲音和視頻
大熱劇《矽谷》啟發谷歌:用神經網路壓縮文件
網路直播第二講文字版:珍珠的誕生及分類