學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

新聞 07-17

機器之心整理，機器之心編輯部。

人工智慧頂會 IJCAI 2018 的主要議程於昨日在瑞典首都斯德哥爾摩開始。昨天上午，Facebook 首席人工智慧科學家、紐約大學教授 Yann LeCun 在會上發表了近一個小時，以《Learning World Models: the Next Step towards AI》為主題的演講，引起了人們的廣泛關注。本文將對 LeCun 的演講進行簡要介紹。

Yann LeCun 開場介紹說，當前幾乎所有的機器學習從業者在實踐中使用的都是監督式學習：向機器展示大量的樣本，然後告訴機器正確的答案與內部參數，然後就能做圖像識別之類的任務。而過去幾年，監督式學習有了極大的成功，應用也非常廣泛。下圖對比了傳統機器學習與深度學習各自的特點。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

深度學習的演講回溯到 20 世紀 50 年代，當時 AI 社區嘗試構建神經網路。建立這樣略為複雜的系統，你需要兩個基礎的運算：線性的加權和與非線性的激活函數。這裡，Yann LeCun 回顧了他們在 80 年代末期提出的用來識別數字的卷積神經網路 LeNet5，從最初的識別單個目標發展到了識別多個目標。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

很快，他們就建立了一個識別手寫文件的系統。在 1995 年，他們在 AT&T 完成了一個商業系統來讀取支票賬號。經歷了如下圖展示的過程。Yann LeCun 介紹了，這是上一波人工智慧浪潮下的極大成功示例。之後，人們就對神經網路的研究失去了興趣。一方面是準確率的原因，還因為很多領域當時沒有足夠多的數據來訓練學習系統。

接著，Yann LeCun 介紹說，實際上在 1996-2001 年這段時間內，他並沒有研究機器學習，而是在研究其它東西，尤其是圖像壓縮。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

下圖是在 21 世紀初加入 NYU 之後用模仿學習做的研究。這個研究激發了 DARPA 的 LAGR 項目。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

Yann LeCun 隨後回顧了卷積神經網路在不同任務中的應用，包括用於自動駕駛汽車的目標檢測與語義分割等。這些基於視覺的任務絕大部分都需要卷積神經網路的支持，當然也離不開並行計算設備的支持。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

第一個得到廣泛關注與應用的卷積神經網路是 2012 年提出來的 AlexNet，它相比於 LeNet-5 最大的特點是使用更深的卷積網路和 GPU 進行並行運算。AlexNet 還應用了非常多的方法來提升模型性能，包括第一次使用 ReLU 非線性激活函數、第一次使用 Dropout 以及大量數據增強而實現網路的正則化。除此之外，AlexNet 還使用了帶動量的隨機梯度下降、L2 權重衰減以及 CNN 的集成方法，這些方法現在都成為了卷積網路不可或缺的模塊。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

隨後在 ImageNet 挑戰賽中，卷積網路的深度與性能都逐年提升。從 12 年到 16 年，參賽者使用的卷積神經網路不斷加深，錯誤率也逐年下降。

如下所示，牛津大學 2014 年提出了另一種深度卷積網路 VGG-Net，與 AlexNet 相比，它的卷積核更小，層級更深。谷歌同年提出了 GoogLeNet（或 Inception-v1），該網路共有 22 層，且包含了非常高效的 Inception 模塊。後來到了 15 年，何愷明等人提出的深度殘差網路驟然將網路深度由十幾二十層提升到 152 層，且性能大幅提高。

此外，去年提出的 DenseNet 進一步解決了 ResNet 遺留下的梯度問題，並獲得了 CVPR 2017 的最佳論文。DenseNet 的目標是提升網路層級間信息流與梯度流的效率，並提高參數效率。它也如同 ResNet 那樣連接前層特徵圖與後層特徵圖，但 DenseNet 並不會像 ResNet 那樣對兩個特徵圖求和，而是直接將特徵圖按深度相互拼接在一起。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

那麼為什麼卷積神經網路在計算機視覺任務上如此高效？Yann LeCun 隨後就對深度卷積網路的表徵方式做了介紹。他表明對於圖像數據來說，數據的信息與結構在語義層面上都是組合性的，整體圖像的語義是由局部抽象特徵組合而成。因此深度網路這種層級表徵結構能依次從簡單特徵組合成複雜的抽象特徵，如下我們可以用線段等簡單特徵組合成簡單形狀，再進一步組合成圖像各部位的特徵。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

卷積神經網路在目標識別、目標檢測、語義分割和圖像描述等領域都有非常多的應用，而這些實現很多都依賴於深度學習框架。LeCun 隨後重點介紹了 PyTorch 與 Detectron，其中 PyTorch 因為採用了動態計算圖而受到了廣泛的關注，它也是當前發展最快的框架之一。

如下所示，Facebook AI 研究院開源的 Detectron 基本上是業內最佳水平的目標檢測平台。據 LeCun 介紹，該項目自 2016 年 7 月啟動，構建於 Caffe2 之上，目前支持目標檢測與語義分割演算法，其中包括 Mask R-CNN（何愷明的研究，ICCV 2017 最佳論文）和 Focal Loss for Dense Object Detection（ICCV 2017 最佳學生論文）等優秀的模型。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

最後，作為對卷積神經網路的總結，LeCun 帶我們回顧了卷積神經網路的應用，包括醫療影像分析、自動駕駛、機器翻譯、文本理解、視頻遊戲和其它學科研究。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

Yann LeCun 談到當前深度學習缺乏推理能力，因此未來的一個重點發展方向就是深度學習和推理的結合。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

人們已經在多個方向上進行嘗試。例如，在網路中增加記憶增強模塊，典型的工作在下圖中列出，這是實現推理的第一步。在對話模型中，由於對話的輪換和非連續的特點，通過增強記憶，有助於預測能力的提高，進而能實現長期而有效的對話。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

為什麼要強調記憶建模的重要性呢？在強化學習中，無模型的強化學習訓練需要大量的嘗試才能學會一項任務。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

因此此類方法在遊戲中表現良好，如 FAIR、DeepMind、OpenAI 等之前都已在許多遊戲上實現接近甚至超越人類的 AI 系統，但這些系統並沒有達到現實應用的水平。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

因為現實環境遠遠比遊戲中的環境要複雜得多，無論是變數複雜度還是不確定性方面，對此，無模型的強化學習系統面對的探索空間是相當巨大的。而且，不像 AlphaGo 那樣可以在計算機上模擬成千上萬次比賽，現實世界環境是無法被「加速」的，有些試驗還涉及很大的風險，這也大大限制了系統的訓練資源。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

那麼目前來看，人工智慧到底缺少了什麼？監督學習需要太多的樣本，強化學習需要太多的嘗試，AI 系統缺乏常識。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

Yann LeCun 總結了一下這兩類系統的缺點：缺乏獨立於任務的背景知識；缺乏常識；缺乏預測行為後果的能力；缺乏長期規劃和推理的能力。簡言之就是：沒有世界模型；沒有關於世界運行的通用背景知識。用更一般的語言來講就是，目前的機器無法在心裡想像（表徵）世界，而只是像殭屍一樣被氣味驅使著（無意識地）行動。記憶建模只是一方面，建立完整的世界表徵才是我們真正需要的。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

在現實應用層面，Yann LeCun 總結道，利用現有的監督學習和強化學習技術，我們可以在自駕汽車、醫療圖像分析、個性化醫療、語言翻譯、聊天機器人（有用但還很蠢）、信息搜索、信息檢索、信息過濾以及其它領域中取得不錯的進展，但仍然無法實現常識推理、智能個人助理、智能聊天機器人、家庭機器人以及通用人工智慧等。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講

然後，Yann LeCun 指出我們可以從嬰兒的學習方式上獲得啟發。嬰兒對外部世界的概念學習大部分是通過觀察，僅有小部分是通過交互，而視覺比觸覺、體感等能捕獲更多、更完整的外部信息。那麼機器如何做到這一點？其實，這種情況不止發生在人身上，動物也是如此。LeCun 隨後展示了一幅嬰兒和大猩猩觀看魔術的圖，並解釋說，當違反世界模型，也就是當我們觀察到一些不尋常、與世界模型不匹配的東西時，我們的注意力就會被調動（如嬰兒和大猩猩看到魔術表演會大笑就是因為世界模型被違反了）。

學習世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演講