當前位置:
首頁 > 新聞 > CMU博士生楊植麟:如何讓AI像人類一樣學習自然語言?

CMU博士生楊植麟:如何讓AI像人類一樣學習自然語言?

雷鋒網AI科技評論按:近幾年,由於深度神經網路的快速發展,自然語言處理藉此取得了重大突破,但同時也達到了它的發展瓶頸期。因此,研究如何讓 AI 像人類一樣去學習自然語言成為了現在研究者們最關心的問題。

近期,在雷鋒網 GAIR 大講堂上,來自卡內基 · 梅隆大學三年級博士生楊植麟同學分享了無監督學習和情景化學習的一些最新進展,其中包括一篇 ICLR Oral 論文的解讀。視頻回放地址:http://www.mooc.ai/open/course/472

楊植麟,卡內基梅隆大學博士三年級,師從蘋果人工智慧主任 Ruslan S.,主要研究無監督深度學習及其在自然語言理解的應用;過去兩年在 ICLR/NIPS/ICML 等人工智慧頂會發表 11 篇文章 (9 篇一作);曾在 Facebook 人工智慧實驗室從事研究工作,本科以年級第一畢業於清華計算機系。

分享主題:讓人工智慧像人類一樣學習自然語言:無監督學習和情景化學習的最新進展

分享提綱

無監督學習:高秩自然語言模型 (ICLR 2018)

基於生成式模型的半監督學習:利用無標註文本提升問答 (ACL 2017, NIPS 2017)

情景化學習:土耳其機械勇士下降法 (ICLR 2018)

分享內容:

近幾年,深度神經網路在自然語言學習任務上取得眾多突破,但是仍然依賴於大規模靜態標註數據。與此相反,人類學習語言的時候並不需要大規模監督信號,並且可通過與環境的交互理解語言。

先來回顧一下近些年 NLP 發展的狀況。NLP 發展的黃金時期出現在 2013 年末和 2014 年這段時間。這段時間出現三個非常重要的技術:Word embeddings;Seq2seq;Attention,這三項技術基本奠定了 2014 年之後的 NLP 發展基礎。

從2015年到現在,大家做的主要事情就是把三個技術都用上,做各種各樣的變種,用在不同的任務上來檢驗模型效果。單從效果上來看,還是有到很多突破的。但有兩點需要注意,依賴監督學習可能已經做到了極限;監督學習有兩個問題,一是依賴大規模標註數據集,二是依賴靜態數據集。

反觀人類是如何學習語言的?人類只需要非常少的監督信號,通過動態與環境交互,在環境中執行一些行為,得到一些反饋,進行學習語言。

如果讓機器像人類一樣學習,就需要突破監督學習的瓶頸。接下來講的就是在這一方面的探索,怎樣讓機器像人類一樣學習自然語言。

先看一下這個,Mastering the Dungeon : Grounded Language Learning by Mechanical Turker Descent。其中的

Mastering the Dungeon 是我們創造的一個遊戲環境,Mechanical Turker Descent 是我們發明的演算法名字。

圖中的兩個人(Turker1 和 Turker2)相當於平台上的兩個用戶。他們每個人負責訓練一個 dragon,如果 dragon 贏了,對應的人會獲得獎勵。這樣 Turker 就會受到激勵,會給 dragon 更好的樣本學習,讓它在比賽中擊敗其他 dragon。

下圖反應了 dragon 在遊戲環境中具體是如何交互學習的,以及具體的遊戲環境是怎麼樣的。

這個交互學習演算法的名字叫 Mechanical Turker Descent。第一步,每一個 Turker 會給 dragon 一些訓練數據,第二步,用數據集訓練出一個模型。第三步,這些模型會放在其他數據集上交互驗證,每個模型會得到分數,獲得高分的 Turker 會獲得獎勵。第四步,所有的數據將合併起來,進入下一輪,直到訓練出比較好的 agent。

這個演算法其實既有比賽,又有合作。Turker 為了贏得獎勵,所以他們之間相互比賽,促使他們提供更好的數據給 dragon。同時他們又是合作的,在每一輪結束後都會把數據合併起來進入下一輪,這些數據在下一輪都會共享。

這樣的演算法有四個優點:

第一,避免數據樣本太簡單,因為每個 Turker 都是在對方的數據集上做驗證,如果太簡單,就會導致對方的分數比自己高。

第二,避免數據樣本太難,如果樣本太難,就不可能訓練出模型,同樣不能贏得比賽。

第三,難易度適中的數據可以動態適應模型學習的能力。

第四,很難通過作弊獲得好成績。

遊戲環境和任務設置

實驗結果

通過實驗得出幾點結論,實驗中的交互學習演算法確實比傳統通過標記數據的靜態學習效果要好。

limit 是指限制 Turker 每一輪給的訓練數據數量。在給同樣獎勵的情況下,發現如果不限制 Turker,他會多給 dragon 30% 的數據,最終的模型表現效果也較好。

在模型有反饋和沒有反饋的兩種不同情況下,其性能表現也有很大的差別。如果把模型反饋去掉,所有的指標都會下降,說明動態調整訓練數據的動態分布是非常重要的。

接下來為大家介紹一篇 ICLR Oral 論文。論文題目為:Breaking the Softmax Bottleneck A High-Rank RNN Language Model。

我們首先證明了softmax存在表達能力上的根本缺陷,繼而提出了混合softmax (mixture of softmaxes)的方法,先算K softmaxes,然後用weighted sum得到最後的概率。這個方法在大家常用的語言模型數據集中,取得了當前最好的結果。

由於篇幅限制,這裡就不做文字解讀了,大家如果感興趣可以直接去看這篇論文或者觀看視頻回放:http://www.mooc.ai/open/course/472

小結

未來最重要的兩個研究方向,一個是無監督學習,另一個是 language grounding。

無監督學習可以學習有價值的和可傳遞的特徵表示,可以改善低資源和高資源任務; 可以用於監督或無監督任務的元學習。language grounding 可以提供足夠複雜的環境,是一種非常有效的學習演算法。

以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 AI 慕課學院觀看。

關注微信公眾號:AI 科技評論,可獲取最新公開課直播時間預告。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

總理指示!加強新一代人工智慧研發應用
Bose出了款「AR」眼鏡,只能聽,不能看

TAG:雷鋒網 |