棋類大戰中慘敗的人類，現在想要在電子遊戲上扳回一局

新聞 01-15

雷鋒網：喜歡機器學習和人工智慧，卻發現埋頭苦練枯燥乏味還殺時間？油管頻道 Arxiv Insights 每周精選，從技術視角出發，帶你輕鬆深度學習。

翻譯/ 曹晨

校對/ 凡江

整理/ 廖穎

雷鋒網本期Arxiv Insights圍繞一篇名為《研究電子遊戲中人類的先驗信息》（Investigating Human Priors For Playing Video Games)展開。論文提出的核心問題是：為什麼人類擅長通關電子遊戲？作者發現其中一個關鍵點是，人類能夠利用強大的先驗能力快速決策、快速通關。

視頻解讀

人類1分鐘通關的遊戲，機器要花37小時

以「營救公主」的益智遊戲為例，遊戲通關方式是，需要營救者爬上梯子到達最頂端，越過敵人救出公主，對普通玩家來說，整個操作過程只需要1分鐘時間。但如果用現階段最先進的增強學習演算法進行遊戲，就算是最有效的一類演算法也大約需要4百萬幀來訓練。（要連續通關，這個數量的幀數是必須的）

現在我們以時間為單位，來重新計算這些幀數。假設你運行的遊戲是每秒30幀左右，那麼400萬幀就相當於一個人不間斷地玩37個小時左右的遊戲。這樣算下來，機器花費的時間大約是人類闖關所需時間的2000倍。

為什麼人類擅長處理新的複雜環境？

很顯然你會說，這是因為人類有很多已知的先驗信息。比如，我們知道梯子是需要爬的，所以我們避開梯子。但關鍵問題不在信息數量，而在於信息的重要度和影響力：不同的先驗信息重要程度會有所不同嗎？我們能否量化這些先驗信息所帶來的影響？

在最近幾年中，機器學習取得了非常顯著的進步，增強學習也取得了顯著的進步。這些進步大部分來自於類似谷歌的 DeepMind OpenAI 以及在人工智慧研究前沿中聲名鵲起的大學。

這些進展表明我們能夠訓練agent，使它在動態環境中能學習到非常複雜的行為。agent使用了一種信號，我們稱之為獎勵信號。不同於監督學習，需要告知agent在給定情況下應該採取什麼行動。這種agent可以在環境中按照其想要的方式自由行動。但是它有一個信號，即之前提到的獎勵信號，獎勵信號試圖隨著時間的推移，不斷優化agent，使其達到最優值。

這些演算法在各式各樣的場景中，表現非常出色。這樣的成就甚至讓很多人提出，我們可能看到了泛化人工智慧早期的萌芽。儘管已取得一些可觀的成就，要使機器達到與人類水平相近的學習能力，還有很長的路要走。

機器學習究竟差在哪？

目前的演算法擅長於泛化學習(general learning)，但它們存在樣本利用率(sample efficiency)差的問題。這個問題意味著，在它們能夠分清什麼行為是當前環境所需要的之前，你必須給agent很多訓練幀。還需要說明，演算法和人類表現的不同之處，大部分研究者並沒有提到嵌入式知識(embedded knowledge)，即人們帶到新的任務中的知識。這些知識使得我們找尋特定問題的最優解法能比我們目前擁有的任何演算法都快速。

如果你還了解些心理學，我們就知道，新生嬰兒實際上是有模仿傾向的。如果一個父親伸出他的舌頭，雖然孩子沒有意識到發生了什麼，但是我們經常會看見嬰兒模仿這個動作。這個事實說明有些信息是嵌入在我們基因中的。同樣我們有強烈的傾向去注意人臉。因此，對於新生嬰兒而言，如果給他很多很多圖片，他們總是會首先盯著人臉看。

而還有一些人類的先驗信息是沒有存儲到我們基因中的，但我們會在年輕的時候去學習。其中一個案例就是客體永久性(object permanence)。客體永久性表明一個事實：如果你有一個給定的物體，突然將該物體隱藏起來，我們還是認為物體在那兒。

客體永久性這個概念經常出現在兩個月左右大小的人類嬰兒。然而在黑猩猩和其他猴類，這種現象出現得更快更早。因此你可以看到，一隻和人類嬰兒相同年齡的猴子，對於猴子來說，客體永久性的概念已經表現出來了。為了檢測不同人類先驗信息的出現和影響，研究者們設計了個遊戲，他們故意用隨機結構替換了遊戲中的一些物體。這個想法其實是，如果處理得巧妙，你實際上可以掩蓋某些形式的先驗信息。然後再通過人類玩家的表現變化來分辨，哪些形式的先驗知識實際上對完成遊戲是關鍵的。

人類贏了，靠的是先驗信息

在繼續討論之前，我希望你們所有人都來試玩一下這個遊戲，並且嘗試其中一個調整過的遊戲版本，去看看如果你沒有了先驗信息，玩下去是多麼困難。沒有重新映射任何結構的原始遊戲，一個正常人需要大約1.4分鐘來闖關。

研究者對遊戲的第一個調整是改變了對象的語義，他們將可以看見的一把鑰匙或一扇門替換了，玩家只能簡單地看到一種統一顏色的正方形。這樣做其實是拿走了我們關於對象屬性的先驗知識。我們很顯然能發覺，在遊戲的初始版本中，所有玩家需要先去拿鑰匙，然後去開門。而在重新映射了結構的遊戲中就不是這樣了。這明顯地展示了人們使用他們關於對象先驗信息來引導他們的行為。

在重新映射結構的遊戲中，平均遊戲時間從1.4分鐘上升至大約4.4分鐘。在調整的第二個遊戲版本中，研究者決定簡單地在一個版本基礎上，再隱藏物體的位置。於是，現在所有玩家能自由移動的位置已經被統一顏色的正方形掩藏起來了。在這個版本遊戲中，人類玩家闖關所需的平均間上升到9分鐘。我們不知道對象在哪兒，但我們仍非常清楚地形是什麼樣的，比如我們知道平台在哪兒，也知道晶格作用是什麼。

在新版本遊戲中，他們又重新映射了所有的這些結構，我們把這種行為叫做去除功能可見性(affordance removal)。這證明了去除功能可見性並不像移除對象語義那樣糟糕。最後研究者決定試試遊戲的骨灰級模式，於是他們將重力感應旋轉了90度，交換了左和右的控制鍵。此外，他們還重新映射了所有的功能可見性結構。

這說明我們找到了關鍵點，因此通過定量比較這些調整的遊戲版本給人們闖關時間所帶來的影響，研究者們列出了一些人類已知道的先驗信息，以及這些先驗信息對於解決一個任務來說的重要性。

從結果我們能看出端倪，比如簡單的判斷物體對於解決複雜環境來說非常關鍵。接下來，研究者們就做了非常有趣的事：他們使用了最先進的增強學習演算法，該演算法稱為A3C(Asynchronous Advantage Actor-Critic)，通過這個演算法來嘗試經過同樣處理的調整後遊戲版本——這些版本都是之前人類玩家見過的。結果證明增強學習agent沒有任何問題，無論在調整的版本，哪怕是遊戲版本中所有的物體結構都被重新映射了，增強學習agent需要大約相同數量的訓練幀來解決這部分問題。

總體來說，人類使用非常強大的先驗信息，使得他們能在之前從未遇見的情境中快速發現最佳的解決方案。而這正是當前在增強學習演算法中，所缺少的最主要的東西，因為演算法沒有預先建立起關於這個世界如何工作的知識。

先驗信息不萬能，有時候還會成為絆腳石

最後需要注意的一點是，掌握對象的先驗知識可能不總是一件好事情。想想我之前討論過的AlphaGo系統，就可以很清楚地發現，該演算法從零開始訓練，就需要丟掉一些基於人類知識和人類遊戲的先驗信息，而這些先驗信息確實能使演算法得到一個更好的性能。

還有另一個例子，如果你改變了遊戲的重力，那麼人們將會做出非常糟糕的決策，並做出比沒有預先輸入物理知識定義的目標agent更糟糕的事情。這些表明，雖然人類的先驗信息可能對解決新環境中的新任務有用，但是這些先驗信息也可能是起到妨礙作用。

這種情況我們在量子物理也會中見到。人類的知識是我們通過很多年的科學研究和自然界生活積累的。然而這些卻被量子物理中奇怪的規則所違背了，這些對我們來說非常不符合自然規律，也非常難以接受和理解。

論文中各個版本的遊戲鏈接：

https://high-level-3.herokuapp.com/

雷鋒網（雷鋒字幕組）出品。添加微信：雷鋒字幕組（leiphonefansub），加入我們。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

TAG:雷鋒網 |