谷歌升級版Transformer官方解讀：更大、更強，解決長文本問題

新聞 01-30

新智元報道

來源：Google AI Blog

編輯：肖琴

【新智元導讀】谷歌官方博客今天發文，詳細解釋了萬用NLP模型Transformer的升級版——Transformer-XL，該模型利用兩大技術，在5個數據集中都獲得了強大的結果。

要正確理解一篇文章，有時需要參考出現在幾千個單詞後面的一個單詞或一個句子。

這是一個長期依賴性(long-range dependence)的例子，這是序列數據中常見的現象，處理許多現實世界的任務都必須理解這種依賴。

雖然人類很自然地就會這樣做，但是用神經網路建模長期依賴關係仍然很具挑戰性。基於Gating的RNN和梯度裁剪(gradient clipping)技術提高了對長期依賴關性建模的能力，但仍不足以完全解決這個問題。

應對這個挑戰的一種方法是使用Transformers，它允許數據單元之間直接連接，能夠更好地捕獲長期依賴關係。

Transformer 是谷歌在 17 年做機器翻譯任務的「Attention is all you need」論文中提出的，引起了相當大的反響，業內有「每一位從事 NLP 研發的同仁都應該透徹搞明白 Transformer」的說法。

然而，在語言建模中，Transformers目前使用固定長度的上下文來實現，即將一個長的文本序列截斷為幾百個字元的固定長度片段，然後分別處理每個片段。

vanillaTransformer模型在訓練時具有固定長度上下文

這造成了兩個關鍵的限制：

演算法無法建模超過固定長度的依賴關系。

被分割的片段通常不考慮句子邊界，導致上下文碎片化，從而導致優化低效。即使是對於長期依賴性不顯著的較短序列，這也是特別麻煩的。

為了解決這些限制，谷歌提出一個新的架構：Transformer-XL，它使自然語言的理解超出了固定長度的上下文。

Transformer-XL由兩種技術組成：片段級遞歸機制(segment-level recurrence mechanism)和相對位置編碼方案(relative positional encoding scheme)。

論文：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(https://arxiv.org/abs/1901.02860)

Segment-level的遞歸機制

在訓練期間，為前一個segment計算的representation被修復並緩存，以便在模型處理下一個新的segment時作為擴展上下文重新利用。

這個額外的連接將最大可能依賴關係長度增加了N倍，其中N表示網路的深度，因為上下文信息現在可以跨片段邊界流動。

此外，這種遞歸機制還解決了上下文碎片問題，為新段前面的token提供了必要的上下文。

在訓練期間具有segment-level recurrence的Transformer-XL

相對位置編碼

然而，天真地應用 segment-level recurrence是行不通的，因為當我們重用前面的段時，位置編碼是不一致的。

例如，考慮一個具有上下文位置[0,1,2,3]的舊段。當處理一個新的段時，我們將兩個段合併，得到位置[0,1,2,3,0,1,2,3]，其中每個位置id的語義在整個序列中是不連貫的。

為此，我們提出了一種新的相對位置編碼方案，使遞歸機製成為可能。

此外，與其他相對位置編碼方案不同，我們的公式使用具有learnable transformations的固定嵌入，而不是earnable embeddings，因此在測試時更適用於較長的序列。

當這兩種方法結合使用時，在評估時， Transformer-XL比vanilla Transformer模型具有更長的有效上下文。

在計算時具有固定長度上下文的vanilla Transformer

在評估期間具有segment-level 遞歸的Transformer-XL

此外，Transformer-XL能夠在不需要重新計算的情況下處理新段中的所有元素，從而顯著提高了速度(將在下面討論)。

結果

Transformer-XL在各種主要的語言建模(LM)基準測試中獲得新的最優(SoTA)結果，包括長序列和短序列上的字元級和單詞級任務。實驗證明， Transformer-XL 有三個優勢：

Transformer-XL學習的依賴關係比RNN長約80%，比vanilla Transformers模型長450%，儘管後者在性能上比RNN好，但由於固定長度上下文的限制，對於建模長期依賴關係並不是最好的。

由於不需要重複計算，Transformer-XL在語言建模任務的評估期間比vanilla Transformer快1800 倍。

由於建模長期依賴關係的能力，Transformer-XL在長序列上具有更好的困惑度(Perplexity, 預測樣本方面更準確)，並且通過解決上下文碎片化問題，在短序列上也具有更好的性能。

Transformer-XL在5個數據集上的結果

Transformer-XL在5個數據集上都獲得了強大的結果：在enwiki8上將bpc/perplexity的最新 state-of-the-art(SoTA)結果從1.06提高到0.99，在text8上從1.13提高到1.08，在WikiText-103上從20.5提高到18.3，在One Billion Word上從23.7提高到21.8，在Penn Treebank上從55.3提高到54.5。

研究人員展望了Transformer-XL的許多令人興奮的潛在應用，包括但不限於改進語言模型預訓練方法(例如BERT)，生成逼真的、長篇的文章，以及在圖像和語音領域的應用。

論文中使用的代碼、預訓練模型和超參數都已全部開源：

https://github.com/kimiyoung/transformer-xl

論文地址：

https://arxiv.org/abs/1901.02860

【加入社群】

新智元AI技術產業社群招募中，歡迎對AI技術產業落地感興趣的同學，加小助手微信號：aiera2015_2入群;通過審核後我們將邀請進群，加入社群後務必修改群備註（姓名 - 公司 - 職位;專業群審核較嚴，敬請諒解）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※昇騰、鯤鵬晶元加持，華為雲造就「技術暴力」黑馬
※詳解深度強化學習展現TensorFlow 2.0新特性（代碼）

TAG:新智元 |