當前位置:
首頁 > 科技 > OpenAI放出逆天語言AI模型,AI一本正經胡說八道

OpenAI放出逆天語言AI模型,AI一本正經胡說八道

智東西(公眾號:zhidxcom)文 | 寓揚、心緣

今天,OpenAI在大洋彼岸推出了一個重磅AI語言模型,編起故事來已經達到以假亂真的地步,完全讓人看不到背後竟然是一個AI。

不信你看!

當人類隨意告訴AI一句信息:今天,一輛載有核材料的火車車廂在Cincinnati被盜,至今下落不明。

AI便順著這一情景,一本正經的創作了:

事故發生在市中心的火車線路上,該線路往返至Covington和Ashland車站之間。

在一封發給俄亥俄州新聞媒體的電子郵件中,美國能源部表示,他們正在與聯邦鐵路管理局合作,尋找竊賊。

「這些核材料被盜,將會對公眾、環境健康、我們的勞動力和國家的經濟產生重大負面影響」,美國能源部長Tom Hicks在一份聲明中表示,「我們的首要任務是確保盜竊物品的安全,確保此類事情不再發生。」

GPT-2編造的新聞

一篇假新聞就這麼誕生了!然而卻寫的文筆流暢、毫無違和感,讓身為文字寫作者的我感到汗顏。

OpenAI在推特上表示,這是他們訓練的一個無監督語言模型,它可以生成連貫的段落,進行閱讀理解、機器翻譯、問答、撰寫摘要等,並且所有這些都不需要特定任務的培訓。

它的名字叫GPT-2,讓我們一起看下這個語言模型背後的魅力吧。


逼真的AI段子手

幾個月前谷歌推出BERT語言模型,其3億參數刷新了11項紀錄,引行業一片關注後。

而今天OpenAI推出了一個大規模的無監督語言模型,將其命名為GPT-2。它具有來自800萬個網頁的15億數據集,其訓練目標就是基於前面給定的文本,從而預測接下來的文字。

正是數據集的多樣性,使得這個簡單的目標可以很自然的應用在跨領域中,這也是它可以應用在「文字創作」的一個原因。

另一個重點是,GPT-2是一個無監督語言模型,它可以生成連貫的文本段落,並進行閱讀理解、機器翻譯、問答和撰寫摘要,並且所以這些AI能力都不需要特定任務的訓練,這可謂是當下AI應用的一大進步。

至於GPT-2效果到底如何,前文已經展示了它寫新聞的能力,我們不妨再來看看它講故事的能力。

同樣人類給出一個提示:科學家們有一個震驚的發現,在安第斯山脈的一個偏遠且從未探索過的山谷中,生活著一群獨角獸。更讓人震驚的是,獨角獸的英語說得非常好。

於是,AI寫手又開始創作了:

科學家曾用它們獨特的角來命名這個種群,叫奧維德獨角獸。這些四角銀白色的物種以前並不為科學界所知。

在經過近兩個世紀後,現在,這一謎團終於揭曉。

拉巴斯大學的進化生物學家Jorge Pérez博士和他的幾位同伴在探索安第斯山脈時,他們發現了一個沒有人的小山谷。Jorge Pérez注意到這個山谷有一個天然噴泉,被兩個山峰包圍著。

······

Pérez和他的朋友們看到這群獨角獸感到非常驚訝,這些生物可以從空中看到,而不需要移動太多——它們離的非常近,以至於可以觸摸到它們的角。

當研究這些奇異的生物時,科學家們發現它們可以說一些相當標準的英語。······

Pérez認為,獨角獸可能起源於阿根廷,那裡的動物被認為是一個失落的種族的後代,這個種族在人類到達南美洲之前就生活在那裡。

雖然,這些生物的起源仍不清楚,但有些人認為,這些生物可能存在於人類文明之前的某個時期,在人類和獨角獸相遇時創造出來的。根據Pérez的說法,「在南美洲,這樣的時間似乎相當普遍」。

······

GPT-2編造的故事全文

假如你不知道這是一個AI在「胡說八道」,讀完這段話,你是什麼反應?

在講故事時,有起因,有經過,有結果,有大咖做背書論證,AI已經學習到了講故事的能力。如果不去吹毛求疵細節,從流暢度來說,AI講故事的能力已經快趕上普通大眾了。

推特上少網友表達了對這一文本生成器的稱讚,但也有網友表達了對AI帶來的假新聞、惡意消息的擔憂,稱「又一個重要的潘多拉魔盒被打開了」。

深度學習之父Hinton的評論

深度學習之父Hinton也在推特上評論道,這應該能讓矽谷的獨角獸們生成更好的英語了。


雖然是通用模型,但專業技能可能讓語文老師失業

從技術維度來說,GPT-2就是一個AI文本合成器,當你輸入一句話時,該模型就像變色龍一樣,生成合適的文風與內容,就如同上文展示的那樣。

這源於GPT-2擁有15億個參數,這可是相當龐大的參數量,此前打破11項NLP記錄的谷歌最強NLP模型BERT的參數量也不過為3.3億。

GPT-2是一個基於 transformer的大型語言模型,它是GPT(GPT-2的上一代)模型的擴展版本,其參數和數據量均比GPT模型超出10倍。

該模型的數據集高達40GB,來源於800萬個互聯網文本。由於數據集的多樣性,根據輸入內容編寫故事只是GPT-2龐大的技能樹中的一個枝丫,如果細數GPT-2的專業技能,那可是能讓語文老師失業的存在。

例如,在無需使用相關數據集的前提下,GPT-2還能在某些特定領域(如維基百科、新聞或書籍)訓練其他語言模型。

這種設定被稱之為「zero-shot」,OpenAI的博客上給出了在這種設定下GPT-2在多個語言任務上所取得的當前最佳成績。

GPT-2 在 Winograd Schema、LAMBADA 和其他語言建模任務中達到了當前最佳結果。其中,( )表示該領域得分越高越好,(-)表示得分越低越好。

此外,在知識問答、閱讀理解、總結和翻譯等語言任務上,GPT-2也都可以從原始文本開始學習,並在文本連貫性、流暢性取得不錯表現,而不需要使用特定任務的訓練數據。

但這一語言模型也存在許多不足,有時候會出現文本重複、建模失敗以及不自然的主題切換等問題,比如該模型有時候會寫出「火在水下發生」這樣的錯誤語句。這些都是NLP領域一直在努力突破的熱點問題。

雖然這些下游任務尚未達到最優水平,但GPT-2表明,如果有足夠的(未標註)數據和算力,這些任務均可通過無監督技術取得非常好的結果。


一面天堂,一面地獄

這樣一個全能型通用語言模型,將會對社會產生怎樣的影響呢?

OpenAI給了一些應用方向,比如AI寫作助手、無監督語言翻譯、更強大的對話機器人、更好的語音識別系統等。

但是,任何先進技術都是一把雙刃劍。OpenAI已經開始擔憂它可能造成的一些負面影響。

無論是生產虛假新聞、偽造信息、冒充他人、誹謗,還是生成垃圾或釣魚郵件,都將對網路環境造成極為惡劣的污染。

網民們不得不升級自己的判斷能力,對在線文本內容保持更謹慎的懷疑態度,這可能會引發更大的信任危機。

因為擔心這一新的技術創新會被人惡意利用,在尚無更好應對措施的情況下,OpenAI決定「僅發布 GPT-2 的較小版本和示例代碼,不發布數據集、訓練代碼和 GPT-2 模型權重」。

這意味著這一模型並不完全開源,圍觀群眾們只能瞻仰這個模型表現有多逆天,卻難以做到完全復現。

在如今全球鼓勵開源和共享的大潮中,這一不開放完整模型的決定不出意外地引發一些質疑。

Facebook AI首席科學家、深度學習大牛Yann LeCun就在推特上點贊了Kyunghyun Cho的吐槽:「要是這樣,我感覺我有義務刪除迄今為止自己公開的所有模型權重了。」

來自英偉達機器學習研究負責人Anima Anandkumar的態度更加激烈,直接罵出「Malicious BS(惡意個鬼)」,指責OpenAI站在開源的對立面上,批評它「炒作 傳播恐慌 阻礙復現」。

隨著AI的深入發展,如何平衡道德與技術的爭議又再一次擺在我們眼前,值得深思。

附OpenAI博客連接

https://blog.openai.com/better-language-models/#sample2

附OpenAI非監督語言模型論文連接

https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 智東西 的精彩文章:

IBM AI再戰人類辯手,輸了!復盤全程精彩
靈魂拷問雷軍:從鐵人三項到AIoT,小米為何撕去互聯網外衣?

TAG:智東西 |