當前位置:
首頁 > 遊戲 > 這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

這個變態級難度的小遊戲,只為證明:人類的聰明沒那麼簡單

本文由量子位授權觸樂網轉載,點擊可至原文鏈接。

先別說話。

給自己幾分鐘的時間,玩一下這個遊戲,看看是否能順利通關。幾分鐘就好,別為難自己。因為普通人通關平均需要20分鐘。

遊戲地址:https://high-level-4.herokuapp.com/experiment

推薦在PC端打開,手機端玩不了。如果不在電腦前,可以看看我們試玩的動圖:

這是什麼鬼?簡直有點變態級的難度

從某種程度上說,你在體驗AI打遊戲的感覺。

最近幾年,大家一方面讚歎AI自行學會了玩打磚塊等雅達利遊戲,而且達到甚至超過了人類玩家的平均水平。另一方面大家也質疑說,人類看一眼就能上手的遊戲,AI卻需要學習非常久的時間。為什麼機器和人類之間的學習效率差這麼多?

加州大學伯克利分校有一組科學家,就正在研究這個問題。區別可能在於:人類帶著一大堆從現實世界中得來的先驗知識(prior knowledge)進入遊戲,大大提高了決策效率。

什麼意思?

還是基於開頭讓大家試玩的小遊戲,讓我們跟隨伯克利的研究人員們,一起來感受下。


定量分析

來,開始實驗。

先看看遊戲原始的樣子

即便你不玩遊戲,也能看出來,玩家應該躲避粉色的怪物、地刺路障,然後通過跳躍和爬梯子,拿到右上角的鑰匙,接著打開左上角的大門。

如果你想試玩,地址在:https://dry-anchorage-61733.herokuapp.com/experiment

實驗表明,人類很快就能上手這個遊戲。平均完成時間1.8分鐘,平均死亡次數3.3,遊戲路徑探索達3011種。

好,接下來加大難度。


去掉語義

梯子的形狀,就是它的語義。人類看到梯子的形狀,就能聯想到可以攀爬。語義的重要性幾何?實驗方法很簡單,去掉遊戲中各種物體的細節,只用統一的色塊來表現。

整個遊戲就變成這個樣子

在這種遊戲中,人類完成遊戲的平均時間增加到4.3分鐘,死亡次數增加到11.1次,遊戲路徑探索達7205種。

試玩地址在此:https://boiling-retreat-38802.herokuapp.com/experiment

你有沒有覺得其他玩家弱爆了?其實你忽略了一點。由於文章的表述結構,你先玩了正常版的遊戲,但如果你並不知道遊戲的原始設定,就能感覺出來遮蔽語義信息的遊戲有多難。

因為在原始遊戲中,鑰匙和大門都可見。人類自然能想到先獲取鑰匙,再去開門。在遮蔽語義的版本中,玩家無從獲知這種信息。

120位參與者中,只有42位在抵達「大門」(藍色方塊)之前,先取得了「鑰匙」(橙色方塊)。而且與原始遊戲相比,玩家獲取「鑰匙」後抵達「大門」的時間更長。

這個結果表明,在沒有語義的情況下,人類無法推斷獎勵結構,從而顯著增加了探索的時間。

為了進一步量化語義的重要性,接下來這個實驗不是簡單的遮蔽,而是改變了語義。

遊戲中粉色的怪物和地刺路障,替換成有正面含義的金幣和冰淇淋;而梯子、鑰匙和大門,分別被替換成有負面含義的火焰、地刺路障和粉色怪物。

這樣一來,參與實驗的玩家花了更長時間來過關。平均耗時6.1分鐘,死亡次數13.7次,遊戲路徑探索達9400種。這個結果表明,語義翻轉比遮蔽更具迷惑性。


混淆物體

雖然上述遮蔽之後,遊戲里的物體都沒有傳達語義,但它們與背景截然不同。人類很容易推斷這些引人注意的物體是子目標,展開比隨機搜索更有效的行動。

為了測試這一點,小遊戲的迷惑性進一步升級。平台上每個空間位置,都使用了不同的色塊填充,然而大多數都是毫無作用的色塊。代表實際物體的色塊,位置和之前相同。當然,如果你是第一次玩這個遊戲,這次絕對要懵逼一下了。

遊戲畫面如圖

試玩地址:https://high-level-1.herokuapp.com/experiment

實驗結果:人類玩家平均通關時間是原來的四倍,達到7.7分鐘;死亡次數達到20.2;遊戲路徑探索達12232種。找到鑰匙與打開門之間的耗時進一步增加。


抹平功能可視性

到目前為止的種種「折騰」,已經說明推斷出遊戲的基本獎勵結構,並不是一件易事。不過整個遊戲仍然對人類玩家有利。遊戲畫面中還是能很清楚的看到,各個平台的位置,以及平台之間的相互連接,黑色背景出賣了這一切。

怎麼辦?

抹平功能可視性的一種方法,就是用隨機紋理填充空白的區域。這些紋理與用於渲染梯子和平台的紋理相似。再強調一下,這次實驗中各種物體的語義清晰可見。

試玩地址:https://fierce-sierra-47669.herokuapp.com/experiment

實驗結果:人類平均通關時間4.7分鐘,死亡次數10.7,遊戲路徑探索達7031種。這個結果與遮蔽語義時相比,差異不大。可以認為,可視性與語義同等重要。

一旦人類玩家意識到,可以站在或者攀爬特定的紋理,就很容易通過相似性識別其他的平台和梯子。看起來相同的事物,人類會認為具有相同的性質。

接下來繼續提升難度。

這次每個平台和梯子的紋理全都不同了。人類再也無法用相似性展開推斷。

試玩地址:https://high-level-3.herokuapp.com/experiment

這一次,人類平均通關時間7.6分鐘,死亡次數14.8,遊戲路徑探索達11715種。結果表明,視覺相似性是人類在遊戲中第二類重要的知識。


改變交互

以上,都是與視覺相關的研究。在這個遊戲中,玩家還得知道如何與不同的物體交互。例如遇到粉色的怪物可以跳過去,遇到梯子可以按上鍵往上爬。但是,深度強化學習控制的智能體Agent並沒有這種先驗知識,必須一點點摸索如何與物體交互。

為了測試這種先驗知識的重要性,一個新的遊戲版本被創建了。我們先不說到底哪裡有了改動,你可以自己試試看。

試玩地址:https://calm-ocean-56541.herokuapp.com/experiment

如圖所示,單純按上鍵是沒辦法爬梯子的,在按住上鍵的同時,還得交替反覆按下左鍵和右鍵

與原版遊戲相比,這個小改動將平均遊戲時間延長到3.6分鐘,死亡次數6,遊戲路徑探索達5942次。


終極挑戰

最後,綜合上述種種,就產生了開頭提到了變態級難度的小遊戲。

人類完成這個小遊戲的平均時間增加到20分鐘,死亡次數達40,各種遊戲路徑探索的次數提高了9倍。

這個遊戲實在是太難了,玩家放棄的比例非常高。但這還不是最難的,其實伯克利的研究人員還搞出一個更難的版本。在那個版本里,重力方向做了翻轉,按鍵的響應也做了隨機的映射。

即便是玩過無數次的研究人員,也很難完成這個版本。而且,他們也沒有放出這個版本的試玩地址。

當然還有一個重力方向旋轉90°的版本,可以挑戰一下。

地址:https://tranquil-earth-53211.herokuapp.com/experiment


討論

這篇論文的實驗結果顯示,強化學習演算法再強,如果想像人類一樣高效完成獎勵稀疏的任務,還要從人類的認知中學習很多東西。關於物體的先驗知識,就在打遊戲這個獎勵稀疏的任務上幫了人類的大忙。

不過,有強大的先驗也不一定總是好事,有時候會限制探索範圍,以後的研究也應該注意在某些環境中,對探索少加約束。

另外,人類對於遊戲的先驗知識其實遠不止這篇論文所探討的「物體」,人們在打遊戲時還會假設遊戲有目標,右鍵上鍵通常是往前走等等。這些先驗,也都很值得探索。

研究人員最後根據實驗,對先驗知識的分類和重要性進行了排序。如下圖所示:

這項研究的論文Investigating Human Priors for Playing Video Games發表在ICLR 2018 Workshop上。

論文一作Rachit Dubey是伯克利計算認知科學實驗室的博士,其他作者也都來自伯克利,包括計算機系的博士生Pulkit Agrawal和Deepak Pathak,以及一作和三作的導師:計算認知科學實驗室主任Tom Griffiths和Alexei Efros。


視頻講解

關於這篇研究論文,如果你有興趣,還可以看看這段講解視頻。

v.qq.com/iframe/player.html?vid=r0601dsgs4w&tiny=0&auto=0

關注觸樂,隨時查看更多有趣遊戲內容,或關注觸樂微信(chuappgame)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 觸樂 的精彩文章:

比競技更有趣的是人設,《非人學園》有個不一樣的MOBA體驗
2017年度CGWR暨第四屆金浪獎頒獎典禮在京舉行

TAG:觸樂 |