DeepMind：AI「元強化學習」的關鍵因素同樣存在於人類大腦

新聞 05-15

上周，《Nature》刊登了 DeepMind 用 AI 演算法模擬人類大腦導航功能的論文，而就在今天，DeepMind 又發布了一項新的突破——利用元強化學習來解釋人類大腦的快速學習原理，探索多巴胺（dopamine）在人腦學習中的地位，並據此提出了強化學習模型未來的發展思路。

以下為 DeepMind 官方博客對此次突破的解讀：

前額葉皮質——人腦中的「元強化學習系統」

近年來，人工智慧逐漸系統掌握了視頻遊戲的訣竅，比如雅達利經典遊戲的《Breakout》和《Pong》。但是，儘管這些人工智慧的表現已稱得上相當出色，它們依然需要上千小時的遊戲學習才能趕超人類玩家水平；而另一方面，人類卻能在幾分鐘之內就能掌握陌生遊戲的基本技巧。

由於人腦往往輕而易舉便能學會更加錯綜複雜的事物，人們提出了「元學習」理論（theory of meta-learning），換句話說，就是「學習如何學習」。一般認為，我們的學習可以分為兩個時間尺度：短期學習中，我們往往更專註於事實的學習；而長期學習中，我們更偏重任務中抽象的技巧與規則。正是這樣長期、短期學習的結合幫助我們有效學習，並得以在新任務中快速而靈活地應用新知識。而在人工智慧系統中，這種「元學習」結構的再創造被稱為「元強化學習」（meta-reinforcement learning），在進行快速、單次的學習任務中極富有成效。然而，要從神經科學角度解釋人腦中相應的機制則困難得多。

我們最新發表在期刊《Nature Neuroscience》上的文章中運用了人工智慧研究中「元強化學習」的框架，以探索多巴胺（dopamine）在人腦學習中的地位。多巴胺因作為大腦中的「快樂信號」被大家熟知，目前被認為是一種「獎勵預測誤差」（reward prediction error，RPE）信號，類似於人工智慧中的強化學習演算法。我們在文中提出，多巴胺的功能並不只是從過往事件中估測獎勵值。事實上，多巴胺尤其在前額葉皮質區中扮演著且重要的整體性角色，使我們在新任務中高效、迅速、靈活地學習。

為了證明該理論，我們從神經科學領域實驗中改造了 6 項元學習實驗，實驗均需要受試完成一定的任務，雖然 6 項任務的基本原理或所需技巧相同，在不同方面卻各有側重。我們訓練了一個循環神經網路（recurrent neural network，RNN）以代表前額葉皮質，用標準深度強化學習技術代表人腦中的多巴胺功能，然後將循環網路的動態活動與過去神經科學實驗中的實際數據相比較。事實證明，循環網路非常擅長元學習，因為它們能將歷史的行動與觀察結果內化，然後運用到多項受訓任務里。

實驗中的一項 Harlow 實驗是 19 世紀 40 年代的著名心理學實驗，用於摸索元學習概念。在原始實驗中，研究者讓一組受試猴從兩個陌生物體中選擇，只有其中一個才能讓猴得到食物獎勵。兩個物體出現 6 次，每次的左右擺放位置都是隨機的，因此實驗猴必須學習究竟選擇哪一個物體才能獲得食物獎勵。之後又換上兩個新的陌生物體，同樣也只有其中一個與食物獎勵相關聯。在這一訓練階段中，猴子們學會了選中正確物體的策略：首先在第一次物體出現時先隨機選擇一個，之後再根據獎勵與否的結果反饋選擇特定物體，而不是左右位置。這一實驗表明，這些猴能夠內化實驗任務的原理，並習得抽象的規則結構——也就是「學習如何學習」。

當我們在計算機中進行類似的模擬實驗時，我們發現，即使提供全新的圖片，這些受試的「元強化學習」網路依舊錶現出了和 Harlow 實驗中動物類似的學習行為。

事實上，這些元強化學習網路迅速地適應了一系列不同規則和結構的實驗任務；也正是因為它們已經了解了如何適應各種任務，它們還學會了高效學習的一些普適性原則。

重要的一點是，我們觀察到的大多數學習都發生在循環網路中，這就支持了我們的觀點——多巴胺在元學習過程中有著更為整體性的作用。傳統觀點認為，多巴胺能增強前額葉系統中的突觸連接，強化某些特定行為。在人工智慧系統學習解決一項任務時，類似多巴胺的獎勵信號負責調整神經網路中人工突觸的權重。然而，在我們的實驗中，神經網路的突觸權重是固定的，無法在學習過程中進行調整，而元強化學習網路仍然解決並適應了任務。這就說明類似多巴胺的獎勵信號不僅僅是對權重進行調整，它還負責編碼、傳遞抽象任務與規則結構的重要信息，從而使快速任務適應成為可能。

一直以來，神經科學家們在前額葉皮質中觀察到了不少類似的神經活動模式，然而關於這些適應及時且具有靈活性的模式，他們始終沒能找到合理的解釋。對於神經模式的多變性，有一種較為合理的觀點：前額葉皮質並不依賴於突觸權重隨著規則結構學習的緩慢改變，而是基於直接編碼於多巴胺的抽象模型信息。

我們的研究證明了，人工智慧中元強化學習的關鍵因素同樣存在於大腦中，而提出的理論不僅結合了對多巴胺和前額葉皮質的現有認知，還解釋了神經科學與心理學的許多未知現象。

這進而引發一些對其他問題的思考：基於結構和模型的學習是如何發生在腦中的？為什麼多巴胺本身就編碼模型信息？前額葉皮質的神經元是如何調節學習信號的？此外，從人工智慧得到的結果能應用到神經科學、心理學等其他學科的發現上，這就進一步強調了不同學科領域間的互惠價值。未來我們期待這一研究成果能夠反向，從大腦神經環路的組織結構中獲得啟發，從而設計出更新、更好的強化學習模型。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

※華為全線產品遭停賣，特朗普點燃中美貿易戰，欲掐斷中國人工智慧新興科技的活路
※消滅阿片成癮，這種阻斷大腦「獎勵機制」的新葯或許奏效

TAG:DeepTech深科技 |