NLP新標杆！谷歌大腦CMU聯手推出XLNet，20項任務全面超越BERT

新聞 06-21

打開今日頭條，查看更多圖片

【新智元導讀】谷歌大腦和CMU聯合團隊提出面向NLP預訓練新方法XLNet，性能全面超越此前NLP領域的黃金標杆BERT，在20個任務上實現了性能的大幅提升，刷新了18個任務上的SOTA結果，可謂全面屠榜！

近日，谷歌大腦主任科學家Quoc V. Le在Twitter上放出一篇重磅論文，立即引發熱議：

NLP新標杆！谷歌大腦CMU聯手推出XLNet，20項任務全面超越BERT

這篇論文提出一種新的NLP模型預訓練方法XLNet，在20項任務上(如SQuAD、GLUE、RACE) 的性能大幅超越了此前NLP黃金標杆BERT。

NLP新標杆！谷歌大腦CMU聯手推出XLNet，20項任務全面超越BERT

XLNet：克服BERT固有局限，20項任務性能強於BERT

本文提出的XLNet是一種廣義自回歸預訓練方法，具有兩大特點：（1）通過最大化分解階的所有排列的預期可能性來學習雙向語境，（2）由於其自回歸的性質，克服了BERT的局限性。

此外，XLNet將最先進的自回歸模型Transformer-XL的創意整合到預訓練過程中。實驗顯示，XLNet在20個任務上的表現優於BERT，而且大都實現了大幅度性能提升，並在18個任務上達到了SOTA結果，這些任務包括問答、自然語言推理、情感分析和文檔排名等。

與現有語言預訓練目標相比，本文提出了一種廣義的自回歸方法，同時利用了AR語言建模和AE的優點，同時避免了二者的局限性。首先是不再像傳統的AR模型那樣，使用固定的前向或後向分解順序，而是最大化序列的預期對數似然性分解順序的所有可能排列。每個位置的上下文可以包含來自該位置前後的令牌，實現捕獲雙向語境的目標。

作為通用AR語言模型，XLNet不依賴於數據損壞。因此，XLNet不會受到BERT受到的預訓練和微調後的模型之間差異的影響。同時以自然的方式使用乘積規則，分解預測的令牌的聯合概率，從而消除了在BERT中做出的獨立性假設。

除了新的預訓練目標外，XLNet還改進了預訓練的架構設計。 XLNet將Transformer-XL的分段重複機制和相對編碼方案集成到預訓練中，從而憑經驗改進了性能，對於涉及較長文本序列的任務效果尤其明顯。

NLP新標杆！谷歌大腦CMU聯手推出XLNet，20項任務全面超越BERT

圖1：在給定相同輸入序列x，但分解順序不同的情況下，對置換語言建模目標的預測結果

NLP新標杆！谷歌大腦CMU聯手推出XLNet，20項任務全面超越BERT

圖2：（a）：內容流注意力機制，與標準的自注意力機制相同。（b）查詢流注意力，其中不含關於內容xzt的訪問信息。（c）：使用雙信息流注意力機制的置換語言建模訓練示意圖。

全面屠榜：大幅刷新18項任務數據集SOTA性能

NLP新標杆！谷歌大腦CMU聯手推出XLNet，20項任務全面超越BERT

表1：與閱讀理解任務RACE測試集的最新結果的比較。 *表示使用聚集模型。 RACE中的「Middle」和「High」是代表初中和高中難度水平的兩個子集。所有BERT和XLNet結果均採用大小相似的模型（又稱BERT-Large），模型為24層架構。我們的XLNet單一模型在精確度方面高出了7.6分

NLP新標杆！谷歌大腦CMU聯手推出XLNet，20項任務全面超越BERT