NLP最新遷移學習方法微調語言模型,可將誤差減少超過20%
圖:pixabay
原文來源:arxiv
作者:Jeremy Howard、Sebastian Ruder
「雷克世界」編譯:嗯~是阿童木呀
可以這樣說,遷移學習已經促使計算機視覺領域發生了具有革命性的變化,但對於自然語言處理(NLP)中的現有方法來說,仍然需要從零開始對其進行針對於特定任務的修改和訓練。我們提出了微調語言模型(Fine-tuned Language Models,FitLaM),這是一種有效的遷移學習方法,可以應用於NLP中的任何任務,並且引入一些關鍵技術以對現有最先進的語言模型進行微調。我們的方法在五個文本分類任務上的性能表現要明顯優於現有最先進的技術,在大多數數據集上的實施中能夠將誤差減少18-24%。我們對我們的預訓練模型和代碼進行了開源設置,以便社區採用,使該方法具有更為廣泛的應用。
遷移學習對於計算機視覺(CV)的發展起著很大的作用。應用型CV模型(包括目標檢測、分類和分割)很少是從零開始進行訓練的,而是對已經在ImageNet、MS-COCO和其他數據集上進行預訓練的模型進行細微調整得到的(Sharif Razavian等人於2014年、Long等人於2015年、He等人於2016年、Huang等人於2017年提出)。
文本分類是一類常見的自然語言處理(NLP)任務,它涉及許多諸如垃圾郵件、欺詐和機器人檢測、應急響應和商業文件分類(如法律發現)等重要的實際應用。
文本分類中的數據集和任務
儘管深度學習模型已經在諸多自然語言處理任務上達到了當前最先進的技術水平,但這些模型都是從零開始進行訓練的,這需要大量的數據集,而且需要若干天的時間才能達到收斂狀態。對於利用遷移學習的自然語言處理任務來說,這已經處於算機視覺領域中較為落後的狀態了。對預訓練的詞嵌入進行微調,是一個簡單的遷移學習技術,它只針對模型的第一層,已經在實踐中產生了超乎想像的影響力,並在大多數當前最為先進的模型中進行使用。考慮到對模型進行預訓練的好處,我們應該能夠比隨機初始化模型其餘參數這一舉措做得更好。
當前常用的方法是將來自諸如語言建模或機器翻譯等其他任務的嵌入與不同層的輸入連接在一起。然而,這些方法存在著這樣一個問題,它們仍然是從零開始對主要的任務模型進行訓練,並將預訓練的嵌入作為固定參數進行處理,從而限制了它們的實用性。
在兩種文本分類數據集上進行測試,所取得的精確度得分情況
可以這樣說,一個成功的NLP遷移學習技術應該能夠達到與其計算機視覺技術相對應的類似標準:a)該方法應該能夠充分利用大量的可用數據;b)它應該利用一個可以獨立進行優化的任務,從而進一步實現下游的改進;c)它應該依賴於一個可以應用於大多數NLP任務的單一模型;d)在實踐中應該很容易進行使用。
在三個文本分類數據集上進行測試,所達到的誤差率(%)情況
我們提出將微調語言模型(FitLaM)作為NLP的一種有效的遷移學習形式,它完全滿足上述標準。我們方法使用的是語言建模,這是一項幾乎具有無限數據量的任務,並且能夠推動當前最先進技術取得最新進展。它通過預訓練,能夠將大量的外部數據以及域內數據進行集成。
FitLaM依賴於一個簡單的循環神經網路(RNN),而不需要對其進行任何的修改。我們只需要使用一個或多個針對於特定任務的線性層對模型進行擴充,相較於現有的方法來說,它只需要考慮少量的參數。我們提出了一種新的微調技術,即判別式微調(discriminative fine-tuning),它對較低層進行微調以調到一個相較於較高層較低的程度,從而保留通過語言建模所獲得的知識。我們還介紹了一些技術,這些技術示微調能夠取得較好性能和進行更快訓練的關鍵所在。
我們在五個經過廣泛研究,具有不同大小和類型的文本分類任務中對我們的遷移學習方法進行了評估,實驗結果表明,相較於以往高度針對於特定任務的研究和當前最先進的方法來說,我們方法的性能表現具有顯著的優越性。
我們所取得的成就大致如下所示:
1.我們歸納總結了CV和NLP中遷移學習的相似之處,並為NLP中有效的遷移學習方法提供了相關的依據。
2.我們提出了微調語言模型(FitLaM),這種方法對於NLP的任何任務來說,可以用以實現類似於CV中那樣的遷移學習方法。
3.我們提出使用判別式微調以保留以往的知識,並避免在微調過程中產生嚴重的遺忘。
4.我們引入了一種用於文本分類的基於時間的反向傳播(Back-Propagation Through Time,BPT3C),這是一種新的方法,通過線性層將分類器的損失反向傳播到任何序列大小的RNN輸出中。
5.我們引入了一些技術,它們是對預訓練語言模型進行微調的關鍵所在。
6.我們在五個代表性的文本分類數據集上的性能表現要明顯優於現有的文本分類方法,其中,在大多數數據集的誤差減少了18-24%。
7.我們開源了我們的預訓練模型以及相關代碼,從而希望能夠實現更為廣泛的應用。
我們提出了一種適用於NLP任務的有效遷移學習方法——FitLaM,以及一種稱之為判別式微調的方法,這種有效的微調方法可以對不同層進行不同程度的調整,以避免過程中的災難性遺忘。我們已經引入了於文本分類的基於時間的反向傳播(BPT3C),這種方法能夠將分類器的損失反向傳播到任何序列大小的RNN輸出中,除此之外,我們還引入了若干起著關鍵作用的好方法,從而能夠實現較好的微調性能表現和更快速地進行訓練。實驗結果表明,我們的方法要明顯優於現有的遷移學習技術,以及用於五個具有代表性的文本分類任務的最新技術。總的來說,我們已經證明了用於NLP的遷移學習的優勢所在,並希望我們的研究結果將能夠促進用於NLP的遷移學習能夠取得更好的新進展。
※五百萬獎金!六大賽區!2018數博會人工智慧全球大賽全面啟動
TAG:雷克世界 |