谷歌論文提出貝葉斯循環神經網路：優於傳統RNN（附開源項目）

新聞 04-12

機器之心報道

參與：吳攀

谷歌研究者最近在 arXiv 上發布了一篇論文，介紹了一種新的網路：貝葉斯循環神經網路（Bayesian Recurrent Neural Networks），在該論文中，谷歌還介紹並開源了兩個實驗實現。機器之心對該研究進行了簡要介紹，論文原文請點擊文末「閱讀原文」查閱。

谷歌論文提出貝葉斯循環神經網路：優於傳統RNN（附開源項目）

在本研究中，我們探索了一種用於循環神經網路的直接的變分貝葉斯方案（variational Bayes scheme）。首先，我們表明對截斷的通過時間的反向傳播（truncated backpropagation through time）進行一點簡單的改進就能在訓練過程只需消耗一點點額外的計算成本的情況下得到良好的質量不確定性估計和優異的正則化。其次，我們說明了一種全新的後驗近似（posterior approximation）可以如何進一步提升貝葉斯 RNN 的表現。我們在近似的後驗中整合了局部梯度信息，以圍繞當前批的統計情況（current batch statistics）對其進行銳化。該技術並不限於循環神經網路，而且可被更廣泛地應用於訓練貝葉斯神經網路。我們還通過實驗表明貝葉斯 RNN 在一個語言建模基準和一個圖像描述任務上優於傳統的 RNN，同時也說明了這些每種方法在其它多種用於訓練它們的方案上對我們的模型實現了提升。我們還為語言模型的不確定度研究引入了一個新的基準，以便未來我們可以輕鬆地比較各種方法。

1 引言

本研究有以下貢獻：

我們表明通過反向傳播的貝葉斯（BBB：Bayes by Backprop）可以被有效地應用於 RNN
我們開發了一種全新的技術，其可以減少 BBB 的方差，而且其可被廣泛地應用於其它最大似然框架
我們在兩個被廣泛研究過的基準上實現了表現提升，並極大地超越了已有的正則化技術，比如 dropout
我們引入了一個新的用於研究語言模型的不確定性的基準

2 通過反向傳播的貝葉斯

演算法 1 給出了用於最小化的通過反向傳播的貝葉斯的蒙特卡洛過程（Bayes by Backprop Monte Carlo procedure），其涉及到後驗 q(θ) 的平均值和標準偏差。

谷歌論文提出貝葉斯循環神經網路：優於傳統RNN（附開源項目）

3 通過時間的反向傳播

一個 RNN 可以使用通過時間的反向傳播（backpropagation through time）來在一個長度為 T 的序列上進行訓練，其中該 RNN 被展開 T 次而成為一個前向網路。也就是說，通過使用輸入 x1,x2,...,xT 和初始狀態 s0 來構建該前向網路：

谷歌論文提出貝葉斯循環神經網路：優於傳統RNN（附開源項目）

其中 sT 是該 RNN 的最終狀態。我們應該指的是進行 T 步如 (3) 所示的 RNN 核展開，通過

谷歌論文提出貝葉斯循環神經網路：優於傳統RNN（附開源項目）

其中，x1:T 是輸入向量的序列，而 s1:T 是對應狀態的序列。注意該演算法的截斷版本（truncated version）可以被看作是將 s0 作為之前批的最後狀態 sT。

4 使用通過時間的反向傳播的截斷貝葉斯（Truncated Bayes by Backprop Through Time）

谷歌論文提出貝葉斯循環神經網路：優於傳統RNN（附開源項目）

圖 1：BBB 應用於一個 RNN 的圖示

圖 1 給出將 BBB 應用於 RNN 的示意，其中該 RNN 的權重矩陣是根據分布（通過 BBB 學到的）而繪出的。但是，這種直接的應用有兩個問題：什麼時候對該 RNN 的參數採樣，怎麼衡量 (2) 的 KL 正則化器的貢獻。

谷歌論文提出貝葉斯循環神經網路：優於傳統RNN（附開源項目）

下面的演算法 2 中，我們簡要地說明了 BBB 對 RNN 的適應。

谷歌論文提出貝葉斯循環神經網路：優於傳統RNN（附開源項目）

5 後驗銳化（Posterior Sharpening）

演算法 3 給出了實際中學習執行的方式

谷歌論文提出貝葉斯循環神經網路：優於傳統RNN（附開源項目）

不同於一般的 BBB （其中 KL 項在推理過程中可以忽略，參見補充材料），在後驗銳化下進行推理，我們有兩種選擇。第一種涉及到使用 q(?) 並忽略任何 KL 項，類似於一般的 BBB。第二種涉及到使用 q(θ|(x, y))，這需要用 KL [q(θ|?,(x, y)) || p(θ|?)] 項得出一個困惑度（perplexity）上界（下界用對數概率產生，參見補充材料）。下一節提供了這兩種方法的比較。

6 相關工作（略）

7 實驗

我們給出了我們的方法在一個語言建模基準和一個圖像描述生成任務上的結果。

7.1. 語言建模（Language Modelling）

開源地址：https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/ptb_word_lm.py

谷歌論文提出貝葉斯循環神經網路：優於傳統RNN（附開源項目）