Science子刊：為機器人複製腦代碼，無限接近人類決策

新聞 02-24

【新智元導讀】通過模仿人類大腦在日常生活中做出決策時使用的策略，可以顯著增強機器人智能。最近，科學家們找到了最新觀點。

本周五在國內上映的《阿麗塔：戰鬥天使》又掀起了一波智能熱，這部由著導演詹姆斯·卡梅隆（James Cameron）擔任編劇和製片的電影，講述了擁有人類大腦、機械身軀的女主角，不斷改變世界、認識自我的故事。

這部背景發生在26世紀的電影，依舊把人類大腦作為承載智慧、情感和決策的關鍵能力。

而現在，一份來自韓國高等科學技術研究院（KAIST）、劍橋大學、日本國家信息通信技術研究所（NICT）和谷歌DeepMind的聯合研究認為，通過模仿人類大腦在日常生活中做出決策時使用的策略，可以顯著增強機器人智能，他們的方法是：將神經科學應用於機器人大腦。

最近，這項研究發表在了Science Robotics雜誌上。

決策神經科學：解決機器人技術中的關鍵挑戰

人類和自主機器人不斷需要學習和適應新的環境。兩者的不同之處在於，人類能夠根據獨特情況做出決策，而機器人仍然依靠預定數據來做出決策，這是目前機器人的短板。

強化學習(RL)成為通過與世界交互來理解決策的主要理論框架，並且最近在構建具有超人類表現的智能體方面取得成功。然而，哪怕是最新的強化演算法仍然存在很大的局限性，例如，缺乏制定目標導向策略的能力，或依賴大量經驗來學習。

這些限制阻礙了機器人在任務或背景頻繁變化的動態環境中快速適應的能力。

相比之下，人類在經驗有限的條件下迅速適應環境變化方面具有非凡的能力。決策神經科學(decision neuroscience)的最新發現表明，大腦不僅為RL使用多個控制系統，而且還使用一種靈活的元控制機制(metacontrol mechanism)來選擇控制選項，每個不同選項分別與預測性能、認知負荷和學習速度相關。

理解大腦如何實現這些選項可能會讓RL演算法解決機器人的實際控制問題。

在Science Robotics上發表的研究中，研究人員討論了人類RL相關的最新發現，這些發現可能會解決機器人技術中的幾個關鍵挑戰：性能—效率—速度權衡、多機器人設置中的衝突需求以及探索—開發困境。

Science子刊：為機器人複製腦代碼，無限接近人類決策

詳細解讀：元控制可以類似大腦

首先，決策神經科學的證據表明，人類利用兩種不同的行為控制策略：

刺激驅動的習慣性(stimulus--driven habitual)；
目標導向的認知控制(goal--directed cognitive control)。

習慣性控制是自動且快速的，儘管它在不穩定的環境中很脆弱，並且能由model--free RL很好地解釋，model--free RL通過無環境模型下的試錯過程來逐步學習行為的價值。

相反，目標導向的控制可以迅速適應環境的變化，但它具有認知需求。它通過學習環境模型來指導行動，並利用這個知識庫快速適應環境結構的變化，例如學習狀態-行動空間中的潛在(隱藏)原因。

model--based RL和model--free RL之間的這種計算上的區別表明它們之間存在不可避免的妥協。model--free RL學習起來比較慢，但一旦策略被學習並實現自動化，就可以快速地實現目標。model--based RL通常比model--free RL提供更多的準確預測，但計算量要大得多。每種策略都提供了關於準確性、速度和認知負荷的互補解決方案，突出了預測性能和計算效率之間的權衡。

其次，RL演算法通常需要大量經驗來充分學習不同環境因素下的因果關係(incremen-tal learning)。然而，人類的學習速度很快——通常一個從未經歷過的事件發生一次之後就已學習(「one--shot learn-ing」)。

神經科學最近的研究發現，當與環境的交互受到限制時，人類有很強的提高學習速度的傾向；他們會努力迅速弄清環境中未知的部分，即使這會危及安全。這些結果表明，大腦是直接執行計算來尋找性能和速度之間的權衡。

第三，越來越多的證據支持這樣一種觀點，即前額葉皮層使元控制能夠靈活地在不同的學習策略之間進行選擇，例如在model--based RL和model--free RL 之間，以及在incremental learning和one--shot learning之間。

在新的環境中，元控制通過選擇model--based RL來強調性能。因為這在計算上很昂貴，當大腦發現進一步學習沒有什麼好處時，就會轉向model--free RL：要麼環境非常穩定，可以做出精確的預測；要麼高度不穩定，以至於基於模型的RL的預測不如無模型RL的預測可靠。

在其他情況下，元控制優先考慮速度。當預估的因果關係中的不確定性很高時，大腦傾向於轉換到one-shot學習，以快速解決預測結果中的不確定性。然而，當agent對所有可能的因果關係都同樣不確定時，它會重新轉向incremental learning以確保安全的學習。

這些機製表明類似於大腦的元控制可以處理性能-效率-速度的權衡。

第四，人類的RL可以解釋在人類進化中起重要作用的社會現象。在多主體相互作用的人類社會中，存在著具有部分競爭性和部分一致性激勵機制的社會困境。

使用model--based的RL方法成功地在更複雜的時間擴展設置中實現了協作。

人類似乎通過使用元認知(metacognition)來繞過這個問題——元認知是一種評估自己表現的能力，即評估自信和/或不確定性的水平。例如，較低的任務難度或較低的環境雜訊會使學習主體自信，從而導致更果斷的行動，而失去自信則會導致更謹慎和防禦性的策略。元認知學習因此可以快速適應環境的變化，同時保持對環境雜訊的魯棒性。這樣的策略有可能增強機器人的決策能力。

總之，將人類決策神經科學的發現整合起來，可以為機器人的動作控制系統提供有價值的見解，從而實現更安全、更有能力、更高效的學習。