用自然語言教育AI：百度演算法發展出zero-shot學習能力

新聞 04-01

選自Baidu Research

機器之心編譯

百度最新的研究使用監督學習和強化學習的組合開發了一個系統，該系統允許虛擬教師（ virtual teacher）通過將語言與感知和行動連接起來而從頭教授虛擬 AI 智能體語言，這一過程就類似於父母教導他們的小孩。讀者可點擊閱讀原文下載此論文。

用自然語言教育AI：百度演算法發展出zero-shot學習能力

儘管有了極大的進步，人工智慧在許多方面仍舊有限。例如，在計算機遊戲中，如果 AI 智能體沒用遊戲規則預編程，在知道如何做出正確行為之前它需要進行百萬次的嘗試。人類能在非常短的時間內完成同樣的成就，因為我們善於使用語言將過去的知識遷移到新任務中。

在必須殺死龍才能獲勝的遊戲中，如果需要殺死龍才能獲勝，AI 智能體在理解自己必須要屠龍之前需要嘗試許多其他的行為（在牆上噴火、發出一片花等）。然而，如果 AI 智能體理解語言，人類就可以簡單地使用語言直接指令它「殺死龍贏得遊戲。」

以視覺為基礎的語言在我們如何歸納技能和將它們應用到新任務上扮演著重要的角色，而這對機器而言仍舊是一個重大挑戰。對於讓機器變得真正智能並且獲得類人的學習能力而言，開發複雜的語言系統是非常重要的。

作為實現這一目標的第一步，我們使用監督學習和強化學習的組合開發了一個系統，該系統允許虛擬教師（virtual teacher）通過將語言與感知和行動連接起來而從頭教授虛擬 AI 智能體語言，這一過程就類似於父母教導他們的小孩。

在訓練後，我們的模型結果表明 AI 智能體能以自然語言的方式正確地解讀教師的指令，並採取相應的行動。更重要的是，這些智能體發展出了我們所說的「zero-shot 學習能力」，這意味著智能體能理解未見過的句子。我們相信該項研究能進一步帶領我們朝訓練機器像人類一樣學習前進。

研究概述

該研究發生在一個 2D 迷宮似的環境 XWORLD 中，在這裡，我們的虛擬嬰兒智能體需要在自然語言命令的指導下在迷宮裡穿行，這個命令是由一個虛擬 teacher 發出的。開始，該智能體對語言一無所知：每個詞都對其沒有意義。不過，隨著該智能體不斷研究周圍環境，如果執行對了（或者錯了）命令，該 teacher 就會給出相應的獎懲。為了幫助智能體更快地學習，該 teacher 也會問些有關智能體所運動的周圍環境的簡單問題。該智能體需要正確回答問題。通過鼓勵對的行動/回答，懲罰錯誤的行動/回答，該 teacher 能在多次試錯時候讓該智能體理解自然語言。

示範命令的一些例子：

請導航至這個蘋果（Please navigate to the apple.）
你能移動到蘋果和香蕉之間的格子嗎？（Can you move to the grid between the apple and the banana?）
你能去那個紅蘋果那裡嗎？（Could you please go to the red apple?）

問答對的一些例子：

問：北邊的物體是什麼？答：香蕉（Q:What is the object in the north? A:Banana.）
問：香蕉在哪裡？答：北邊（Q:Where is the banana? A:North.）
問：蘋果西邊的物體是什麼顏色的？答：黃色（Q:What is the color of the object in the west of the apple? A:Yellow.

結果

在最後，該智能體可以正確地解讀 teacher 的命令，並導航至正確的位置。更加重要的是，該智能體發展出了所謂的「zero-shot 學習能力」。這意味著即使是接受了從未執行過的新任務，如果該指令的句式的相似形式在之前已經見過足夠多了，那麼它仍然有能力正確地執行任務。換句話說，人工智慧有能力理解由已知詞和已知語法組成的新句子。

比如說，一個學會用刀切蘋果的人通常知道怎樣用刀切一個火龍果。應用已有知識實現新的任務對於人類而言是輕而易舉的事，但對目前的端到端機器學習來說非常困難。儘管機器可能知道「火龍果」看起來是什麼樣子，但除非已經經過了相關數據集的訓練，它無法執行「用刀切那個火龍果」的任務。相比之下，我們的智能體可以成功地遷移它所知道的火龍果外觀與任務「用刀切 X」，而不需要直接去訓練「用刀切火龍果」。

在下圖中，我們的智能體成功地在導航測試中執行了命令，完成任務。

用自然語言教育AI：百度演算法發展出zero-shot學習能力

我們的下一步研究有兩個方面：1、在當前 2D 環境中使用自然語言命令來教人工智慧獲得更多能力；2、把這種能力應用到虛擬 3D 環境中。虛擬的 3D 環境有更多的挑戰，同時也與我們所生活的現實環境更加接近。我們的最終目標是用人類的自然語言訓練出一個在真實世界中可用的物理機器人。

論文：一個用於虛擬環境中的類人語言習得的深度組合框架

（A Deep Compositional Framework for Human-like Language Acquisition in Virtual Environment）

論文鏈接：https://arxiv.org/pdf/1703.09831.pdf

用自然語言教育AI：百度演算法發展出zero-shot學習能力

摘要

我們在一個稱作 XWORLD 的迷宮般的 2D 環境之中完成了智能體學習導航的任務。在每一個 session 中，該智能體可感知一個原始像素幀序列、一個 teacher 發出的自然語言指令和一組獎勵（reward）。該智能體能以一種基礎的組合式的方式從頭學習 teacher 的語言，以至於完成訓練之後，它可以正確地執行 zero-shot 指令：1) 指令之中詞的組合以前從未出現，並且／或者 2) 指令包含從另一個任務而不是從導航學來的新的目標概念。我們端到端地訓練了該智能體的深度框架：它能同時學習環境的視覺表徵、語言的句法和語義以及輸出行動的行動模塊（action module）。我們框架的 zero-shot 學習能力來自帶有參數約束的組合性（compositionality）和模塊性（modularity）。我們視覺化了框架的中間輸出，以證明該智能體真正可以理解如何解決問題。我們相信我們的成果能為如何在 3D 環境中訓練帶有相似能力的智能體提供初步的見解。

用自然語言教育AI：百度演算法發展出zero-shot學習能力

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※從演算法平台到機器視覺和語音識別，優必選全面布局人工智慧
※資源 | LibRec：領先的推薦系統開源庫
※1萬8千塊GPU：橡樹嶺實驗室即將推出Summit超級計算機
※出門問問攜手中科院自動化研究所，共建語言智能與人機交互實驗室
※深度神經網路全面概述：從基本概念到實際模型和硬體基礎

TAG:機器之心 |

您可能感興趣

※百度實時語音轉換技術 DeepVocie；谷歌 Python Fire 等
※百度聯手Kubernetes，助力開發者高效訓練深度學習模型
※智能雲Azure服務將推動百度Apollo自動駕駛發展？
※百度推出端到端的大規模語音識別系統Deep Speaker
※百度攜手微軟，推進 Apollo 自動駕駛發展；Google Glass 回歸，面向企業用戶
※百度開源新一代深度學習硬體測試工具：覆蓋Titan Xp到iPhone7
※【福利】百度Hadoop架構師教你學習大數據技術
※「聲明」吳恩達新創業項目deeplearning.ai 域名與百度無關
※百度攜手微軟，推進 Apollo 自動駕駛發展；Google Glass 回歸，面向企業用戶 | 極客早知道
※百度端到端大規模語音識別系統 Deep Speaker，箭在弦上即將發布
※吳恩達重出江湖創deepinglearning.ai，域名在老東家百度之下
※增強機器視覺核心能力百度收購矽谷科技公司xPerception
※百度收購矽谷公司xPerception 增強機器視覺核心能力
※看英特爾、百度、蘇寧、唯品會等企業大牛帶你玩轉大數據：Spark、Greenplum、Alluxio多熱點話題盡入囊中
※百度Deep Speaker：可用於端到端的大規模說話人識別
※阿里發布天貓精靈X1和AliGenie系統；百度Apollo計劃開放路徑圖曝光
※百度人工智慧實驗室發布語音合成系統Deep Voice
※百度宣布全資收購xPerception！為計算機裝上「眼睛」
※外媒：百度日本推出AI服務發布Simeji語音輸入功能