UCL汪軍：論機器意識的可能和實現

新聞 10-01

新智元 AI World 2018 世界人工智慧峰會

全程回顧

新智元於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智慧峰會，邀請機器學習教父、CMU教授 Tom Mitchell，邁克思·泰格馬克，周志華，陶大程，陳怡然等AI領袖一起關注機器智能與人類命運。

愛奇藝

上午：https://www.iqiyi.com/v_19rr54cusk.html

下午：https://www.iqiyi.com/v_19rr54hels.html

新浪：http://video.sina.com.cn/l/p/1724373.html

新智元AI WORLD 2018

演講：汪軍（倫敦大學學院計算機系教授）

編輯：肖琴

【新智元導讀】9月20日，在新智元AI WORLD 2018世界人工智慧峰會上，倫敦大學學院計算機系教授汪軍作了《論機器意識的可能和實現》的演講。汪軍教授的研究方向之一是多智體強化學習，由於最近在研究「機器意識」這個課題，汪軍教授的演講也從「意識」講起，最後討論了機器是否也能擁有「意識」，如果答案是肯定的，那我們又該如何通過數學和計算機程序來實現這一點？

震撼！AI WORLD 2018世界人工智慧峰會開場視頻

我們是誰？我們從哪裡來？到哪裡去？

這是一個永恆的問題。

9月20日，在新智元AI WORLD 2018世界人工智慧峰會上，倫敦大學學院計算機系教授汪軍作了《論機器意識的可能和實現》的演講。

倫敦大學學院計算機系教授汪軍

汪軍教授的研究方向之一是多智體強化學習，也就是有多個「agent」互動，包括溝通、協作與競爭。由於最近在研究「機器意識」這個課題，汪軍教授的演講也從「意識」講起，最後討論了機器是否也能擁有「意識」，如果答案是肯定的，那我們又該如何通過數學和計算機程序來實現這一點。

汪軍教授介紹了他們團隊研究用AI打橋牌的例子。相比完全信息博弈的圍棋和不完全信息但只需要一對一的德州撲克，橋牌是一種不完全信息博弈，而且需要選手兩兩組隊，相互合作與競爭。這個遊戲更貼近於現實世界發生的情況。

研究結果表明，AI在打橋牌時，能夠學會相互隱秘地溝通，最終取勝。也是這一點，讓汪軍教授想到機器意識興起與實現的可能。

「很多原理實際上並沒有那麼複雜，」汪軍教授說：「只要你去研究並做出來的話。」當然，現在還都是非常初步的探索，因為首先，目前學界對「意識」還沒有統一的定義。

以下是汪軍教授在新智元AI WORLD 2018世界人工智慧峰會上發表的演講實錄。

機器意識的興起和實現不是沒有可能

汪軍：我給大家放個好玩的視頻。

我想通過這個視頻引出我今天要講的話題：我們自己到底是誰？我們從哪裡來？到哪裡去？這個話題非常非常大。讓我們先看看哲學家的理解。

有一點是很有意思的：我們作為個體，我們自己會有感情，我們會有愛，有恨。當我們聽到王菲的歌，會覺得是天籟之音；當我們聽到搖滾樂，我們會非常興奮；當我們閱讀一本書的時候，我們會隔空和作者進行心靈上的溝通。

這一切就定義了我們人類，它其實跟人的意識有關。關於意識，17世紀的時候哲學家笛卡爾已經做過一些系統的研究和學說。比如他提出「二元論」的理論，認為人作為個體存在兩個世界，一個是靈魂世界，一個是肉體世界，通過大腦里一個叫松果體的部位進行交互。通過這種交互，產生了人的各種各樣的行為。這個理論非常有局限性，無法解釋很多比較高級的認知智能，所以最後也就流於唯心主義的理論了。

人的意識到底是什麼？現在學術圈普遍認同的一個定義是「主觀的經驗」，就是說意識和現實可能不一樣，是你自己主觀的感受。有一個好的評判方法是可以用某種方式去表達，告訴別人。

例如，請看上面這張圖。如果大家聚焦視線，把注意力放在中間的+上，會發現邊上的圓圈會逐漸消失，當把眼睛挪到別的地方，邊上的圓圈又出現了。說明你看到的東西並不代表就是真實的，它們之間有差別。通過大腦能給出一定的解釋。

意識作為科學的一個學科或作為科學的一個研究課題，其實也只是在上世紀90年代大家才開始非常嚴肅去研究。有兩位比較主要的貢獻者，一位是Francis Crick，他是英國的生物學家、物理學家和神經科學家。他最大的成就是和他的同事James Watson發現了DNA的分子結構，並因此共同獲得了諾貝爾生理及醫學獎。他們兩個一起提出了一系列實驗方法去測量當有意識時，大腦裡面的神經活動是怎樣形成關聯。這從某種意義上證明了意識是有一種機制存在於大腦中的。

之後其他研究人員繼續在這個範圍研究。法國有一位科學家研究發現在控制人的身體時，其實有兩種不同的機制。做相同的動作，可以是潛意識的，也可以是有意識的。他設計了一個比較巧妙的實驗方法，可以把潛意識和有意識的動作分開，然後用腦電波或大腦造影做測試，看大腦神經元的激活狀態。他發現在有意識和無意識情況下，神經元的激活是不一樣的。有意識時候，神經元激活的位置是在大腦比較高級的部位，而且比較全面、多方面；潛意識的時候，神經元激活的位置是在比較低級的地方。

另外一個很有意思的研究，科學家發現了條件反射的機制，提出其實這個機制跟計算機里的強化學習方法其實是一樣的，即通過一個多巴胺神經元，預測到有一個錯誤，對這個錯誤不斷進行更正。

人和機器其實都是信息處理系統。既然是信息處理系統，可以從三個不同的層次去理解：

1. 計算理論是什麼，到底需要計算什麼。

2. 表徵和具體演算法。

3. 具體硬體實現。

我個人認為前面兩點，人和機器是非常相似的，甚至會問同樣的問題。只有到第三個層次，硬體的狀態，人和機器是不太一樣的。

計算理論。意識到底是什麼？目前還不是那麼明晰，但是有一些不同的理論提出來，這裡我講兩個可以接受的理論：

1.Global Neuronal Workspace，就是認為意識是在大腦里進行的全局的互相的信息共享，比如在工作台上你可以拿出以前的記錄，比如內存，可以去看一些低層次的視覺上的結果，有一些獎勵機制。通過這些信息共享把大腦各個部門及時調動起來，這時候就有意識了。

2.從信息集成度來解釋意識。集成信息理論是解釋大腦內部信息之間交換的一個理論，也就是說如果這個系統在全局裡的信息量大於任何內部小子集的信息量，就可以認為信息集成度高的有可能產生意識。

如果它們之間能夠交換，有空間跟時間上的關係，比如有內存的話，比較簡單的模型有意識的可能是比較高的。

元世界模型：對世界建模

有了這個理論，看看現在機器學習，特別是強化學習方面到底做了什麼，我們有什麼缺陷，再去提高理論和實際演算法。

比如說，這是微信的跳一跳小遊戲，我們將圖像作為輸入，用演算法做判斷，機械臂點按屏幕來玩這個遊戲。我買了這個機器臂，沒玩兩個星期就折了，我在微信里發了一下，一個深圳廠家說，汪老師你這個太爛了，我送你一個。然後就送我一個，我玩了大概一個月左右又壞了。

這個小東西很有意思，可以理解神經網路從一個圖像進去，最後一個決策出來，是怎麼回事。圖上亮點的地方指示系統的注意力在哪裡，左邊兩個圖是做正確的決策，取決於知道自己位置在哪裡，知道前方目標在哪裡。而右邊兩個都是錯誤決策，我們會看到方向判斷錯了。比如第二幅圖目標放到了相反的方向，所以最後按鍵計算就是錯誤的，目標也是錯誤的。

當計算出兩個目標以後，神經元激活了，激活以後，每個神經元控制一個目標，這個目標就是在它的範圍內激活的，到最後一層時，把信息結合起來，就能算出到底應該按多長時間。

這跟我們做分類其實是一樣的，就是從輸入一直到輸出。用集成信息理論來講，它是不可能產生跟人一樣的智慧的，就算能夠做成ALphaGo，能夠超過人類，也是沒有人的意識的。

那麼強化學習的弱點如何解決？我們的思路是Agent內部演算法有不同的層次，我們要潛意識拿一些統計數據過來，然後通過所謂的Global Neuronal Workspace把各個信息集成起來，再去決策。主要兩個部分，一是對周圍環境的建模，一是對敵人（對手）的建模。

人每天都經歷不同的環境，環境世界是有個性的，我們就給單個Agent做了一個Meta-World Model，就是多個世界集合在一起，發現它的共性。當我們學到Meta-World Model以後，Agent就可以想像了，可以做夢了，可以在它的腦子裡面去運轉了。這個不是從外面採集的，是Agent在它的演算法裡面不斷玩這個遊戲的狀態，通過它，我們可以去做決策。

我們有一個很有意思的發現，當建立一個世界模型時，特別是Meta-World Model，Agent就知道它在這個圖像裡面處於哪個位置了。如果看以前任何玩遊戲的模型，其實Agent不知道它是在圖像里哪個部位的，但我們用這個Meta-World Model就可以知道。

多智能體如何合作

我們知道BP演算法是主流的深度學習演算法，但用在多智能體時，卻失敗了。例如，這是一個非常簡單的matrix game，左圖是用BP去計算的，認為Agent之間是獨立的，是不可以收斂的。當對其他對手建模時，發現非常快就可以收斂到中間。我們建了對敵方建模的方法來玩多Agent的遊戲。

我們讓Agent去打橋牌，這個任務很有意思，跟AlphaGo相比有兩個大的技術難點：

1. Agent之間是合作關係，而圍棋只是一個Agent。

2. 不完全信息。在打牌時，對方手上的牌你是不知道的，所以在建模時，要不斷預測。

在這個環境下，如何去理解兩個Agent之間如何合作？

我們聚焦在叫牌這個階段，目前為止還沒有人可以解決。上圖左邊是專業選手在玩橋牌時，兩個人會坐下來定一個規矩，比如出2紅心時，告訴你我的牌是什麼，出3黑桃時，告訴我你的牌是什麼，他們倆約定好，打牌時把信息就傳給對方。

我們讓Agent去學習時，開始不知道，通過我們這個模型就學出來了它們自己不明晰的通訊方式，通過互相叫牌，把信息傳給對方，這是他們之間約定的一個Code，它是一個最優的解。

例如，剛開始，北家的Agent是紅桃，當兩者不停叫牌時，最後通過通訊方式知道其實兩個加在一起時，黑桃會更好，就改變了叫的花色。如果玩的是兩個Agent，Agent多的情況下怎麼辦？我們把一個多Agent到上百萬轉換成兩個Agent，相當於一個Agent和周圍其他人的平均值做一個交互。

最後講一下應用。對其他Agent做一個模型，包括對世界建一個模型，從意識里更進一步，並不代表它就有意識了。但是我們只往前走了一小步，實際應用里有更多以前無法解決的場景可以解決，比如互聯網廣告里，廣告主去排名競價時會考慮到其他廣告主的行為。

我們現在正在探討多智能體在無人車領域的應用。在某些特定場景，比如說過匝道時，怎樣在擁擠的情況下對其他車輛進行模擬，以及對匝道環境模擬，怎樣有效地在堵車情況下通過。另外一個應用場景是在交通路口紅綠燈的時候，怎樣通過跟別人的交互，高效地通過交通路口。

謝謝大家！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※「ECCV 2018」谷歌AI超大規模圖像競賽，中國團隊獲目標檢測冠軍
※神經網路突變自動選擇AI優化演算法，速度提升50000倍！

TAG:新智元 |