EMNLP 2018 | Google AI提出「透明注意力」機制，實現更深層NMT模型

科技 09-25

選自

arXiv

作者：

Ankur Bapna等

機器之心編譯

參與：路、劉曉坤

當前最優的 NMT 模型都遵循結合注意力的 seq2seq 模型的範式，但與用於文本和視覺任務的卷積模型相比，NMT 模型仍然太淺。來自 Google AI 的研究者提出對注意力機制進行修改，其類似於創建沿著編碼器層的加權殘差連接，使誤差信號可以同時沿著編碼器層和時間進行傳播。「透明注意力」使得更深層 NMT 模型的訓練成為可能，並使模型在 WMT"14 英語-德語翻譯和 WMT"15 捷克語-英語翻譯任務上取得了 0.7-1.1 的 BLEU 值提升。

近年來，機器翻譯系統的質量突飛猛進，這要歸功於神經序列到序列模型的出現。儘管當前最優的幾個模型各不相同，包括 Transformer (Vaswani et al., 2017)、卷積 seq2seq 模型 (Gehring et al., 2017) 和 LSTM (Chen et al., 2018)，但所有這些模型都遵循注意力機制 (Bahdanau et al., 2015) 結合 seq2seq 模型的範式。

儘管變革性新架構為機器翻譯系統的質量提升做出了很大貢獻，但更大模型容量的重要性不容忽視。機器翻譯轉向神經模型後，NMT 質量的第一個重大改進就是由於模型容量的巨大提升 (Zhou et al., 2016; Wu et al., 2016)。儘管存在多種方法可以提升模型容量，但事實證明更深的模型能夠提取更具表達性的特徵 (Mhaskar et al., 2016; Telgarsky, 2016; Eldan and Shamir, 2015)，給視覺任務帶來之前數年未曾有過的顯著提升 (He et al., 2015; Srivastava et al., 2015)。

儘管深層模型很明顯是一條康庄大道，但這方面的研究通常受限於計算能力的約束。此外，深層模型常常受到梯度消失或爆炸等訓練問題的困擾。這些問題在循環架構中捕捉長距離依賴的語境中得到了研究 (Pascanu et al., 2012; Hochreiter et al., 2001)，但在多於 8 層的 Transformer 或 LSTM seq2seq 模型中解決這些缺陷尚未得到充分研究 (Wang et al., 2017; Barone et al., 2017; Devlin, 2017)。

這篇論文為基於 Transformer 和 LSTM 的模型訓練極端深層編碼器，從而在訓練用於翻譯的深層模型方面邁出了第一步。隨著編碼器深度逐漸增加，原始 Transformer 模型完全無法訓練。研究者還觀察了 LSTM 模型的次優性能，認為其與訓練方面的問題有關。為便於優化，研究者提出對注意力機制進行增強，實現對更深層模型的訓練，該方法在 WMT"14 英語-德語翻譯和 WMT"15 捷克語-英語翻譯任務上取得了一致進展。

論文：Training Deeper Neural Machine Translation Models with Transparent Attention

論文鏈接：https://arxiv.org/pdf/1808.07561v1.pdf

摘要：

儘管當前最優的 NMT 模型（如 RNN seq2seq 和 Transformer）擁有大量參數，但與用於文本和視覺任務的卷積模型相比，它們仍然太淺。本研究嘗試訓練深度為原來 2-3 倍的 Transformer 和 Bi-RNN 編碼器用於機器翻譯任務。我們提出對注意力機制進行簡單的修改，以簡便更深模型的優化，這種修改使得模型在基準 WMT"14 英語-德語翻譯和 WMT"15 捷克語-英語翻譯任務上取得了 0.7-1.1 的 BLEU 值提升。

透明注意力（Transparent Attention）

注意力對前向傳播的影響因直觀的可視化和語言學闡釋而受到廣泛關注，但它對梯度流的影響卻常常被忽略。考慮沒有注意力機制的原始 seq2seq 模型。為了將解碼器最後一層的誤差信號傳播到編碼器的第一層，信號必須穿過解碼器中的多個時間步，通過編碼器-解碼器瓶頸，再穿過編碼器中的多個時間步，才能到達需要更新的參數。每個時間步都會有一定量的信息損失，尤其是在訓練早期。注意力 (Bahdanau et al., 2015) 創建了一條從解碼器到達編碼器第一層的直接路徑，確保信號隨時間的高效傳播。這一內部連接性的增強顯著縮短了信用分配（credit assignment）路徑 (Britz et al., 2017)，使得網路不易受到梯度消失等優化問題的影響。

但對於更深的網路，誤差信號還需要通過編碼器層。為此我們提出了一種注意力機制的擴展，類似於創建沿著編碼器深度的加權殘差連接，這使得誤差信號可以同時沿著編碼器層和時間進行傳播。使用可訓練權重，這一「透明」注意力可使模型根據訓練階段靈活調節編碼器中不同層的梯度流。

實驗設置

我們在標準 WMT"14 英語-德語數據集上進行模型訓練。在將句子分解成類似於 (Sennrich et al., 2016) 的子詞單元之前，先使用 Moses 分詞器將對每個句子執行分詞操作。我們對每個語言對使用一個包含 32k 個單元的共享辭彙表。我們報告了該方法在 newstest 2014 上的所有結果，並使用 newstest 2012 和 newstest 2013 的組合作為驗證集。為了驗證結果，我們還在 WMT"15 捷克語-英語翻譯任務上評估了該模型。這裡我們使用 newstest 2013 作為驗證集，newstest 2015 作為測試集。為評估模型，我們計算了 tokenized、true-case 輸出的 BLEU 值。我們報告了 21 個檢查點窗口的平均收斂後得分（mean postconvergence score），該得分按照 (Chen et al., 2018) 的方法使用開發性能獲取。

基線實驗

我們的研究基於兩個架構：Transformer (Vaswani et al., 2017) 和 RNMT+ (Chen et al., 2018)。我們選擇了二者的較小規模版本，以在單個 GPU 上擬合層數多達 20 層的深層編碼器。我們的所有模型都在 8 個 P100 GPU 上進行同步訓練，並使用 Adam (Kingma and Ba, 2014) 進行優化。我們對這兩個架構各訓練了四個模型：具備 6、12、16、20 個編碼器層。我們對所有的 Transformer 和 RNMT+ 模型分別使用 6 和 8 個解碼器層。我們還報告了標準 Transformer Big 和 RNMT+ 的性能（詳見 (Chen et al., 2018)），便於與更高容量的模型進行對比。

Transformer：我們使用 Transformer 基礎模型的最新版本，(Chen et al., 2018) 的實現。我們修改了學習率方案，將學習率設置為 3.0，使用了 40000 個預熱步。

RNMT+：我們基於 (Chen et al., 2018) 的設置實現了英語-德語 RNMT+ 模型的較小版本，編碼器和解碼器各有 512 個 LSTM 節點。