心理學帶來曙光，DeepMind要像理解人一樣理解模型

最新 02-25

AI 科技評論按：人類對各種深度學習模型最常見的不滿之一就是難以解釋、無法理解，即便可以查看訓練好的網路的每個連接的權重，也說不清網路利用的數據模式是哪些，以及網路目前的運行狀況里有哪些問題。

不過，人類從不懷疑自己可以理解另一個人類：我們可以通過各種方法了解並描述別人的訴求、觀念和當下的想法，可以推測別人知道哪些信息，可以猜測別人的未來行動，我們同時也就以此為基礎考慮如何和別人互動。其實絕大多數情況下我們都不會嘗試重建別人的腦神經結構，不會嘗試估計別人的腦神經元的活動狀況如何、前額葉的連接性如何、海馬體的工作狀況如何。這時候我們所談的理解，就是對別人的心理狀況的高層次抽象，不再嘗試描述細碎的內部運行機理。這種注重於預測和計劃理解能力被稱為「心智理論 Theory of Mind」。（心智理論，心理學術語，是一種能夠理解自己以及周圍人類的心理狀態的能力，這些心理狀態包括情緒、信仰、意圖、慾望、假裝與知識等）

在近期新發表的論文《Machine Theory of Mind》中，DeepMind 就以心智理論的視角重新研究了如何理解另一個模型的問題。他們的目標是讓環境中的觀察者在有限的數據下自動學習如何對新遇到的智能體建模——不是嘗試學出一個模仿的演算法，而是學習如何像人理解人一樣地預測另一個智能體的行為，甚至發現別的智能體的觀念和實際環境狀況之間的矛盾。他們把這種新理論稱為「Machine Theory of Mind」（機器心智理論），為此建立的模型稱為 ToMnet。在 DeepMind 的研究人員們看來，這還可以是一種新的改進深度學習的可解釋性的方法，可以不用再像以往那樣嘗試設計能表述自己內在狀態的系統，而是作為新的中轉系統、人機介面，縮小原系統的行為空間大小，把難以理解的神經網路以人類好理解的形式轉述出來。

DeepMind 的研究人員們把這個機器心智理論問題形式化為一個元學習問題，讓觀察者智能體學習如何在環境中遇到一個新智能體之後收集數據對它進行建模，了解它的隱含特點和心理狀態，從而更好地預測它的未來行為。

這個觀察者要學習的內容也需要分為兩個層次，一個層次是基於網路學習到的權重的總體理論，它是對訓練集中所有智能體的共有行為的隱式描述；另一個層次是在測試階段觀察單個智能體，嘗試描述它獨有的特徵和心理狀態。而這兩個層次也就分別構成了對智能體行為的先驗和後驗判斷。

ToMnet 架構：character net 從一組部分可觀察的馬爾可夫決策過程（POMDP）中解析一個智能體的過往行動軌跡，形成特徵嵌入 echar；mental state net 根據智能體當前的行為解析出它當前的心理狀態嵌入 emental。這些嵌入會作為 prediction net 的輸入，它查詢當前狀態之後形成對未來預測的三個輸出：下一步行動的可能性，某個對象是否會被使用掉的可能性，以及預測的後續的表徵。

在論文中，DeepMind 的研究人員們圍繞提出的 ToMnet 進行了一系列難度遞增的實驗，逐步介紹 ToMnet 的設計思路、展示它的應用典型的人類心理理論技巧對其它各種各樣的模型建模的能力。

對於簡單、隨機的智能體，ToMnet 可以學到對智能體特點的最優層次化貝葉斯推理的近似；

對於基於演算法的智能體，ToMnet 可以通過小樣本反向強化學習找到它們的目標，以及理解它們如何在成本和反饋中找到平衡；

ToMnet 可以找到成群的強化學習智能體之間的多種變數的關鍵值，從而把它們分為不同的類別，並給智能體生成抽象嵌入。ToMnet 也可以給行為空間生成新的抽象；

用部分可觀察馬爾可夫決策過程中的深度強化學習智能體訓練的 ToMnet 可以隱式地發現這些智能體持有的對環境的錯誤觀念，而這正是人類的心理理論中的重要部分；

ToMnet 還可以訓練用於預測別的智能體的觀念狀態，顯式地揭露出別的智能體的錯誤觀念。DeepMind 的研究人員們還表明 ToMnet 僅僅根據別的智能體的行為就可以能夠推知它們觀察到了哪些東西、接下來會傾向於相信什麼。

帶有子任務的環境，其中的智能體可能會抱有對環境的錯誤認識。

圖 (a) ：智能體尋找子目標（星星）的軌跡（紅色箭頭）。智能體只能觀察到環境的一部分：深灰色的區域還沒有觀察到，淺灰色的區域之前觀察過，但在獲得子目標之後就觀察不到了。

圖 (b)：當智能體獲得子目標後，所有其它的物體有一個很小的可能性會立即交換位置。(b) 左：交換髮生在智能體視野之內；(b) 右：交換髮生在智能體視野之外

圖 (c)：交換位置對智能體緊接著的策略產生的影響

圖 (d)：交換位置對智能體的經驗後續表徵產生的影響

DeepMind 的這一系列實驗內容還比較簡單，主要為了展示這樣的系統的主要思路和能力。要拓展它的能力和領域、與人類共同評比還有很長的路要走。不過，這種思路對於人類這樣依賴社交性思考的人物確實有著重要意義。

未來 DeepMind 打算在其中繼續增加 ToMnet 需要做出的預測的數量、在建模其它智能體的行為過程中加入輕微的總結偏倚，以及如何根據自己的經驗和認識把自己的模型告訴別的智能體。這些都是可能的多智能體合作研究中的重要課題。

另外值得一提的是，ICLR 2017 最佳論文獎得主之一的張馳原也是這篇論文的作者之一。

論文地址：

https://arxiv.org/abs/1802.07740

————— AI 科技評論招人了 —————

————— 給愛學習的你的福利 —————

寒假 AI 學習狂歡

精品課程，豪華特輯

優惠折上折，福利搶不停！

春節 AI 充電，2018 贏在起跑線！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI科技評論 的精彩文章:

※GANs 造假領銜，看 2018 最具落地潛力的 9大AI 技術趨勢
※浙大博士生劉漢唐帶你回顧圖像分割的經典演算法

TAG:AI科技評論 |