逆天語言模型GPT-2最新開源：345M預訓練模型和1.5B參數都來了

科技 05-04

銅靈發自凹非寺

量子位出品 | 公眾號 QbitAI

逆天的語言模型GPT-2又有最新開源進展了！

GPT-2，這個造假新聞編故事以假亂真，能完成閱讀理解、常識推理、文字預測、文章總結等多種任務的AI模型，從誕生開始就引起大量關注。

但因一開始只放出了117M的小型預訓練模型，OpenAI還被網友調侃為「ClosedAI」。OpenAI表示，不是不開源，而是時候未到。

剛剛，OpenAI宣布將其345M的預訓練模型開源，外加其Transformer的1.5B參數。

這一次，你也可以將最強語言模型，用到自己的項目中了。

稱霸各大語言建模任務

語言模型GPT-2在語言建模任務中，簡直是逆天般的存在。

作為一個沒有經過任何領域數據專門訓練的模型，它的表現比那些專為特定領域打造的模型還要好，橫掃各大語言建模任務。

GPT-2在不同語言建模任務上的測試結果（從左到右：數據集名稱、指標類型、GPT-2測試結果、此前最好結果、人類水平）

一經問世就獲得了Hinton等大牛的強推和關注。

簡單來說，GPT-2就是基於Transformer架構的大規模模型。

GPT-2是GPT演算法「進化版」，比GPT參數擴大10倍，達到了15億個，數據量擴大10倍，使用了包含800萬個網頁的數據集，共有40GB。

這個龐大的演算法使用語言建模作為訓練信號，以無監督的方式在大型數據集上訓練一個Transformer，然後在更小的監督數據集上微調這個模型，以幫助它解決特定任務。

上圖左部分，是研究中使用的Transformer架構以及訓練目標。右邊部分，是針對特定任務進行微調。將所有結構化輸入轉換為token序列，由預訓練模型處理，然後經過線性 softmax層處理。

就GPT-2而言，它的訓練目標很簡單：根據所有給定文本中前面的單詞，預測下一個單詞。

幾天前，在此架構基礎上改進得到的模型MuseNet，也能預測一段音樂中下一個音符是什麼了，還用貝多芬的曲風續寫阿黛爾的Someone Like You，讓莫扎特續寫披頭士。

不來了解一下？

傳送門

最後，附上GitHub代碼地址：

https://github.com/openai/gpt-2

GPT-2數據集地址：

https://github.com/openai/gpt-2-output-dataset

OpenAI介紹主頁：

https://openai.com/blog/better-language-models/#update

—完—

小程序|get更多AI資訊與資源

加入社群

量子位AI社群開始招募啦，量子位社群分：AI討論群、AI 行業群、AI技術群；

歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「微信群」，獲取入群方式。（技術群與AI 行業群需經過審核，審核較嚴，敬請諒解）

喜歡就點「在看」吧 !

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: