AI要有好奇心了？伯克利研究人員正在開發

最新 11-20

來源：Quanta Magazine

編譯：新智元

智能觀轉載

你可能不記得第一次玩「超級馬里奧兄弟」是什麼感覺，但試著想像一下：藍色的天空，棋盤石的地面，還有一個蹲著的紅色男人在靜靜等待。他面向右方，你把他推到那個方向。再多走幾步，就會看到一排磚塊在頭頂盤旋，看起來像是一個憤怒的蘑菇。這個人跳起來，他的四像素拳頭指向天空。

對於20世紀80年代長大的人來說，這個場景聽起來很熟悉，但是你可以在Pulkit Agrawal的YouTube頻道上看到一個更年輕的玩家。Agrawal是加利福尼亞大學-伯克利分校的一位計算機科學研究人員，正在研究天生的好奇心如何使學習新內容更加高效，比如第一次玩超級馬里奧兄弟。

然而，Agrawal視頻中的新手玩家並不是人類。像馬里奧一樣，它只是一個軟體。但這個軟體配備了Agrawal和同事Deepak Pathak，Alexei A. Efros和Trevor Darrell在伯克利人工智慧研究實驗室設計的一個實驗性的機器學習演算法，這個演算法有一個驚人的目的：讓機器具有好奇心。

GIF/1407K

Agrawal說：「你可以把好奇心看作是內部產生的一種獎勵，以便更多地探索它的世界。」這種內部產生的獎勵信號在認知心理學中被稱為「內在激勵」。

人類也會回應外在激勵。計算機科學家應用強化學習來訓練演算法：軟體在執行所需任務時獲得「分數」，而懲罰遵循不想要的行為。

但是這種「胡蘿蔔加大棒」式的機器學習方法有其局限性，AI研究人員開始將內在激勵視為軟體代理的一個重要組成部分，使機器更像人類和動物，可以高效而靈活地學習。這種在人工智慧中使用內在激勵的方法，靈感源於心理學和神經生物學。

雖然代理程序現在僅僅在視頻遊戲上接受訓練，但是「開發有好奇心的AI」這件事意義非常重大。「選擇你最喜歡的應用領域，我會給你一個例子，」伯克利人工智慧實驗室的聯合主任Darrell說，「在家裡，我們想讓機器做家務。我們需要能夠在複雜路況中自動駕駛的車輛，以及可以探索建築物的救援機器人，並找到需要救援的人員。在所有這些情況下，我們試圖弄清楚這個非常困難的問題：如何製造一台可以弄清楚自己任務的機器？

獎勵機制的問題

強化學習是幫助Google的AlphaGo擊敗頂尖人類棋手的重要技術。在特定領域使用強化學習的細節很複雜，但總體思路很簡單：給予一個學習演算法（或「代理」）一個獎勵函數，即一個數學定義的信號來尋找和最大化。然後把它放在一個環境中，真實或虛擬環境皆可。當代理在環境中運行時，增加獎勵函數價值的行為將得到加強。重複多次後，演算法學會了使獎勵功能最大化的行為模式。理想情況下，這些模式將使演算法達到理想的最終狀態（如「在圍棋中取勝」），程序員或工程師不必手動編碼代理程序需要採取的每一步。

換句話說，獎勵功能就是把強化學習驅動的代理鎖定在目標上的引導系統。目標的定義越清楚，代理人的表現就越好。這就是為什麼他們當中的很多人目前都是在老的視頻遊戲上進行測試，而這些視頻遊戲通常會提供基於積分的簡單的外在獎勵計劃。塊狀的二維圖形也很有用：因為遊戲相對比較簡單，研究人員可以快速運行和重複實驗。

然而，「在現實世界中，這沒有任何意義。」 Agrawal說。計算機科學家希望讓他們的創作能夠探索新的環境，而不是預先載入可量化的目標。

此外，如果環境不能快速和規律地提供外部獎勵，「演算法就不知道是否做對或錯。」Houthooft說。

而且，即使精心定義的外在獎勵功能可以指導演算法展示出令人印象深刻的智能行為，如果不經過大規模的修改，也無法輕易推廣到其他領域。

研究人員想要創造的是有內在自我驅動能力的AI，而不是依賴人類指令的偽智能。Agrawal說，「人類有一個內在的自我獎勵機制。世界上並不存在一個神靈告訴你，做這個就會『加一分』，做那個就『減一分』。」

加州大學伯克利分校的計算機科學家Pulkit Agrawal

好奇心至關重要

伯克利人工智慧實驗室的研究人員Pathak認為，「好奇心這個詞只不過是說『一種能夠引導代理在雜訊環境中高效探索環境的模型』」。

但在2016年，Pathak曾對強化學習的稀疏獎勵問題感興趣。以強化學習技術為基礎的深度學習最近在玩簡單的得分驅動的Atari遊戲（例如Space Invaders和Breakout）方面取得了重大進展。但像超級馬里奧兄弟等稍微複雜一些的遊戲，仍然超出了AI的能力範圍。

加州大學伯克利分校的計算機科學家Deepak Pathak

Pathak、Agrawal、Darrell、Efros四人合作，給學習代理配備了他們所稱的內在好奇模塊（ intrinsic curiosity module ICM），這一模塊的設計意圖是在代理沒有失去控制的情況下推進遊戲。畢竟，演算法完全不了解如何玩超級馬里奧兄弟遊戲。

事實上，Agrawal和Pathak分別從伯克利和麻省理工學院的發展心理學家Alison Gopnik和Laura Schulz的作品中得到了靈感，他們表明，嬰幼兒自然而然地被吸引到最令他們驚訝的物體上。 Agrawal說：「解釋這種對兒童的好奇心的一種方式就是，兒童建立了他們對世界了解的模型，然後進行實驗，以更多地了解他們不知道的東西。」

在Pathak和Agrawal的例子中（這種由驚訝驅動的機器的好奇心），AI首先用數學方法表示當前超級馬里奧兄弟的視頻框架。然後AI預測遊戲看起來有幾個框架。目前深度學習可以做到這樣。但是Pathak和Agrawal的ICM做了更多的事情。它產生了一個內在的獎勵信號，這個信號是去證明預測模型的錯誤的。錯誤率越高，（或者說，越驚訝），其內在獎勵函數的值越高。換句話說，「驚訝」等同於「注意到事情沒有如預期般發生」，那麼就是錯了，Pathak和Agrawal的系統會因驚訝而獲得獎勵。

這個內部產生的信號將代理引向遊戲中未開發的狀態，它對尚未知道的東西感到好奇。而且，隨著代理不斷學習，預測模型的錯誤率越來越低，ICM的獎勵信號就會減少。這時代理就會通過探索別的令它吃驚的情況，來使收到的獎勵信號最大化。Pathak說：「這使探索的效率加快。」

這個反饋迴路還可以讓AI快速引導自己脫離幾乎空白的無知狀態。起初，代理對屏幕上的任何基本動作感到好奇。然而，不斷的提高，會產生各種不可預測的影響：有時候馬里奧會直線上升，有時他短暫跳，其他時間跳遠。所有這些結果在代理的預測模型中都記錄為錯誤，從而收到來自ICM的獎勵信號，這使得代理不斷嘗試該行為。向右移動具有類似的好奇吸引效果。在Agrawal的演示視頻中可以清楚地看到向上和向右移動的衝動：在幾秒鐘內，由AI控制的馬里奧開始像一個多動的幼兒一樣向右跳躍，導致越來越不可預知的效果（如碰到懸停的磚塊，不小心壓扁了一個蘑菇），所有這一切都推動了進一步的學習。

避免新奇性陷阱

自20世紀90年代初以來，好奇心一直是人工智慧研究的主題。一種程式化定義好奇心的方式是：代理程序被編程為探索環境中不熟悉的狀態。這個廣義的定義似乎對好奇心的經驗有一個直觀的理解，但在實踐中，它可能導致代理陷入滿足其內在激勵的狀態，但阻止任何進一步的探索。

例如，想像一個電視屏幕上只顯示靜態的東西。這會很快引起一個純粹尋求新奇的代理的好奇心，因為從定義上來說，一個隨機閃爍的視覺雜訊的方塊從一個時刻到另一個時刻是完全不可預測的。由於每種靜態模式對代理來說都是完全新穎的，所以它的內在獎勵功能將確保它永遠不會停止關注環境中這一單一無用的特徵。它被困住了。

事實證明，這種毫無意義的新奇事物在虛擬或物理的豐富特色環境中無處不在，人工智慧必須學會應對，才能變得真正有用。

Agrawal 和Pathak 不得不想出一個方法來保持代理好奇，但不能太好奇。使用深度學習和計算機視覺對代理的視野進行全面的時間整體建模使得它很難過濾潛在干擾。計算成本也很昂貴。

所以，伯克利的研究人員將代理設計為從原始像素的視覺輸入轉化為現實的抽象版本。這種抽象只包含可能影響代理（或代理可以影響）的環境特徵。實質上，如果代理人不能與某個事物互動，那麼它就不會被首先感知到。使用這個精簡的「特徵空間」（相對於未處理的「像素空間」而言）不僅簡化了代理的學習過程，而且巧妙地避開了新奇性陷阱。

人造好奇心的局限性

Darrell 承認，這種好奇心模式並不完美。他說：「這個系統知道什麼是相關的，但是不能保證它總能正確地做到。」事實上，代理程序在達到局部最佳狀態之前，只能通過超級馬里奧兄弟的第一級。Agrawal說：「代理必須跨越一個巨大的間隙，這需要以特定順序執行15或16個連續的行動。因為它永遠無法跳過這個縫隙，每次去那裡都會死亡。而且，當它學會準確地預測這個結果時，就不會再有好奇心繼續在遊戲中前進了。」

伯克利人工智慧研究實驗室的聯合主任Trevor Darrell

人造好奇心的問題在於，即使是研究內在激勵多年的研究人員仍然無法精確定義好奇心是什麼。領導明尼蘇達大學計算機認知與行動實驗室的神經科學家保羅·施拉特（Paul Schrater）表示，伯克利模型「是短期內讓代理自動學習新環境的最明智之舉」，但他認為與「運動的學習和控制」相比，「直觀的好奇心」更少。他說：「它控制著認知之下的東西，更多的是控制身體的細節。」

法國Inria公司研究總監Pierre-Yves Oudeyer表示，好奇心也許還需要代理至少在環境中有一定的體現才能具備真正的意義。 Oudeyer十多年來一直在創造好奇心的計算模型。他指出，世界是如此之大而豐富，以至於代理可以在任何地方找到驚喜。但是這不夠。 Oudeyer說：「如果你有一個無實體的代理利用好奇心去探索一個大的特徵空間，那麼它的行為最終會看起來像隨機探索，因為它沒有任何行動上的限制。」

但是並不是所有實體化的代理都需要內在激勵，正如工業機器人的歷史所表明的那樣。對於更簡單的任務，比方說，使用機器人將貨物從一個地方送到另一個地方，增加好奇並不是明智之舉。

原文地址：https://www.quantamagazine.org/clever-machines-learn-how-to-be-curious-20170919/

—完—

想知道AI加教育領域有哪些最新研究成果？

想要AI領域更多的乾貨？

想了解更多專家的「智能觀」？

請在對話界面點擊「找找看」，去獲取你想要的內容吧。

有人問：你們為什麼要做智能觀？為什麼關注AI+教育？

我想，這不是一個選擇。

當AI開始顛覆各行各業時，我們首先想到了教育。未來是我們正在為之努力的地方，教育可以影響當下，改變未來。

我們用心觀察和記錄教育在這個時代的蛻變；努力把前沿的動態、最新的進展、先進的觀點帶到你面前，希望與你一起思考和探索。我們相信，長出AI翅膀的教育，會創造出無限可能。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！