當前位置:
首頁 > 新聞 > 將未來信息作為正則項,TN加強RNN對對長期依賴的建模能力

將未來信息作為正則項,TN加強RNN對對長期依賴的建模能力

選自arXiv

機器之心編譯

參與:蔣思源

Yoshua Bengio 等人提出了一種新型循環神經網路,該網路由前向和反向循環網路組成,並且前向和反向隱藏狀態之間有一定的緊密度而共同預測相同的符號。因為前向 RNN 包含了前面序列的信息,而反向 RNN 在同一位置包含了未來的信息,所以利用正則項連接這兩種信息將有助於 RNN 獲取學習長期依賴的能力。

將未來信息作為正則項,TN加強RNN對對長期依賴的建模能力

論文地址:https://arxiv.org/abs/1708.06742

對序列數據(如文本)的長期依賴(long-term dependencies)建模一直是循環神經網路中長期存在的問題。這個問題和目前循環神經網路架構沒有明確的規劃是嚴格相關的,更具體來說,循環神經網路只是在給定前一個符號(token)的基礎上預測下一個符號。在本論文中,我們介紹了一種鼓勵 RNN 規劃未來的簡單方法。為了實現這種規劃,我們引進了一種反向訓練和生成序列的附加神經網路,並且要求前向 RNN 和反向 RNN 中的狀態有一定的緊密度以預測相同的符號。在每一步中,前向 RNN 的狀態要求匹配包含在反向狀態中的未來信息。我們假設這種方法簡化了長期依賴關係的建模,因此更有助於生成全局一致的樣本。該模型在語音識別任務上實現了 12% 的相對提升(相對於基線 7.6,CER 達到了 6.7)。

2. 模型

給定數據集 X = {x^1 , . . . , x^ n },其中 x={x_1, . . . , x_T } 為觀察序列,RNN 模型對序列空間的概率 p(x) 及其概率密度進行建模,通常我們會訓練 P 以最大化觀察數據的對數似然函數 :

將未來信息作為正則項,TN加強RNN對對長期依賴的建模能力

RNN 會將序列的概率分解為:

將未來信息作為正則項,TN加強RNN對對長期依賴的建模能力

也就是說,RNN 在給定前面所有元素的情況下預測下一個元素。在每一步中,RNN 迭代地總結時間步 t 之前的序列值而更新一個隱藏狀態

將未來信息作為正則項,TN加強RNN對對長期依賴的建模能力

(下文用 h_ft 代表)。即

將未來信息作為正則項,TN加強RNN對對長期依賴的建模能力

,其中 f 代表網路前向地讀取序列,而Φ_f 為典型的非線性函數,如 LSTM 單元。預測值 x_t 在 h_ft 的頂部執行另一個非線性轉換,即 p_f(x_t|x<t)=ψ_f(h_ft)。因此,h_ft 總結了前面序列中的信息。該方法的基本思想是提升 h_ft,以令其不僅包含對預測 x_t 有用的信息同時還兼容序列中將要出現的符號信息。

將未來信息作為正則項,TN加強RNN對對長期依賴的建模能力

如上圖 1 所示,前向和反向網路獨立地預測序列 {x1, ..., x4}。正則化罰項將匹配前向(或前向參數函數)和反向隱藏狀態。前向網路會從對數似然目標函數接收到梯度信號,並且狀態之間的 L_i 是預測相同的符號。反向網路僅通過最大化數據對數似然度而進行訓練。在評估階段中,部分網路(藍色表達)將會被丟棄。L_i 的成本為歐幾里德距離或通過仿射變換 g 學到的度量。

2.1 正則化損失

我們最開始試驗是使用 L2 損失來匹配前向和反向隱藏狀態。雖然這給我們一定的提升,但是我們發現這種損失太嚴格而不允許模型有足夠的靈活性來生成稍微不同的前向和反向隱藏狀態。因此,我們試驗了參數方程以匹配前向和反向狀態。這種情況下,我們簡單地使用了一個參數仿射轉換(parametric affine transformation),以允許前向路徑不一定精確地匹配反向路徑。雖然不一定完全精確,但這種方法只允許前向隱藏狀態包含反向隱藏狀態的信息。實驗上,我們發現參數損失在語音-文本生成任務中給模型很大的提升。具體來說,我們首先使用 L2 正則項為

將未來信息作為正則項,TN加強RNN對對長期依賴的建模能力

,而我們使用的參數正則項為

將未來信息作為正則項,TN加強RNN對對長期依賴的建模能力

,其中 g(·) 為 h_ft 上的簡單仿射變換。

將未來信息作為正則項,TN加強RNN對對長期依賴的建模能力

表 1:WSJ 數據集上的平均字元錯誤率(CER%)

我們在表 1 中總結了實驗結果。從仿射變換學到的度量方法展現了非常好的性能,並且我們從網路中解碼並沒有使用任何外部的語言模型,這進一步強調了該正則化方法的重要性。我們的模型相對於基線模型在性能上提升了 12%。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

利用TensorFlow和神經網路來處理文本分類問題
谷歌開放語音命令數據集,助力利用深度學習解決音頻識別問題
如何從一名軟體工程師轉行做人工智慧?
蘋果機器學習期刊:Siri通過跨帶寬和跨語言初始化提升神經網路聲學模型
瀏覽器使用synaptic.js訓練簡單的神經網路推薦系統

TAG:機器之心 |

您可能感興趣

資源 | 正則表達式的功法大全,做NLP再也不怕搞不定字元串了
正則表達式的功法大全,做NLP再也不怕搞不定字元串了
Petuum提出新型正則化方法:非重疊促進型變數選擇
Python 模式匹配與正則表達式
使用正則表達式匹配嵌套Html標籤
精準防禦對抗性攻擊,清華大學提出對抗正則化訓練方法DeepDefense
L2正則化和對抗魯棒性的關係
系統學習PHP之正則表達式
Perl 正則表達式
學界 | 精準防禦對抗性攻擊,清華大學提出對抗正則化訓練方法DeepDefense
Python正則表達式的7個使用典範
谷歌大腦提出對抗正則化方法,改善自編碼器的泛化和表徵學習能力
想遠離欠擬合OR過擬合?正則化最有效!
精準防禦對抗性攻擊,清華大學提出對抗正則化訓練方法
[python] 常用正則表達式爬取網頁信息及分析HTML標籤總結
大會最佳短論文:利用對抗學習的跨域正則化
谷歌大腦提出對抗正則化方法,顯著改善自編碼器的泛化和表徵學習能力
使用正則表達式處理html標籤方案分享
Scala 正則表達式
Python 正則表達式