逆天語言模型GPT-2最新開源:345M預訓練模型和1.5B參數都來了
銅靈 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
逆天的語言模型GPT-2又有最新開源進展了!
GPT-2,這個造假新聞編故事以假亂真,能完成閱讀理解、常識推理、文字預測、文章總結等多種任務的AI模型,從誕生開始就引起大量關注。
但因一開始只放出了117M的小型預訓練模型,OpenAI還被網友調侃為「ClosedAI」。OpenAI表示,不是不開源,而是時候未到。
剛剛,OpenAI宣布將其345M的預訓練模型開源,外加其Transformer的1.5B參數。
這一次,你也可以將最強語言模型,用到自己的項目中了。
稱霸各大語言建模任務
語言模型GPT-2在語言建模任務中,簡直是逆天般的存在。
作為一個沒有經過任何領域數據專門訓練的模型,它的表現比那些專為特定領域打造的模型還要好,橫掃各大語言建模任務。
GPT-2在不同語言建模任務上的測試結果(從左到右:數據集名稱、指標類型、GPT-2測試結果、此前最好結果、人類水平)
一經問世就獲得了Hinton等大牛的強推和關注。
簡單來說,GPT-2就是基於Transformer架構的大規模模型。
GPT-2是GPT演算法「進化版」,比GPT參數擴大10倍,達到了15億個,數據量擴大10倍,使用了包含800萬個網頁的數據集,共有40GB。
這個龐大的演算法使用語言建模作為訓練信號,以無監督的方式在大型數據集上訓練一個Transformer,然後在更小的監督數據集上微調這個模型,以幫助它解決特定任務。
上圖左部分,是研究中使用的Transformer架構以及訓練目標。右邊部分,是針對特定任務進行微調。將所有結構化輸入轉換為token序列,由預訓練模型處理,然後經過線性 softmax層處理。
就GPT-2而言,它的訓練目標很簡單:根據所有給定文本中前面的單詞,預測下一個單詞。
幾天前,在此架構基礎上改進得到的模型MuseNet,也能預測一段音樂中下一個音符是什麼了,還用貝多芬的曲風續寫阿黛爾的Someone Like You,讓莫扎特續寫披頭士。
不來了解一下?
傳送門
最後,附上GitHub代碼地址:
https://github.com/openai/gpt-2
GPT-2數據集地址:
https://github.com/openai/gpt-2-output-dataset
OpenAI介紹主頁:
https://openai.com/blog/better-language-models/#update
—完—
小程序|get更多AI資訊與資源
加入社群
量子位AI社群開始招募啦,量子位社群分:AI討論群、AI 行業群、AI技術群;
歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「微信群」,獲取入群方式。(技術群與AI 行業群需經過審核,審核較嚴,敬請諒解)
喜歡就點「在看」吧 !
※天文學家首次拍到黑洞:質量是太陽400萬倍,照片4月10日晚公之於眾
※SpaceX載人龍飛船意外爆炸,據稱幾乎被完全摧毀
TAG:量子位 |