DeepMind 提出 GQN，神經網路也有空間想像力

新聞 06-16

雷鋒網 AI 科技評論按：人類理解一個視覺場景的過程遠比看上去複雜，我們的大腦能夠根據已有的先驗知識進行推理，推理的結果所能涵蓋的內容也要遠超出視網膜接收到的光線模式的豐富程度。比如，即便是第一次走進某個房間，你也能馬上就認出房間里都有哪些東西、它們的位置又都在哪裡。如果你看到了一張桌子下面有三條腿，你很容易推斷出來很有可能它還有一條一樣形狀、一樣顏色的第四條腿，只不過現在不在可見範圍里而已。即便你沒法一眼看到房間里所有的東西，你也基本上能描繪出房間里的大致情況，或者想像出從另一個角度看這間房間能看到什麼。

這種視覺和認知任務對於人類來說看似毫不費力，但它們對人工智慧系統來說卻是一大挑戰。如今頂級的視覺識別系統都是由人類標註過的大規模圖像數據集訓練的。獲取這種數據成本很高，也很費時，需要人工把每個場景里的每一個物體的每一個視角都用標籤標識出來。所以最後，整個場景里往往只有一小部分的物體能被標識出來，這也就限制了在這樣的數據上訓練的人工智慧系統的能力。隨著研究員們開發能夠運行在現實世界裡的機器系統，我們也希望它們能夠完全理解它們所處的環境 —— 比如最近的能夠站穩的平面在哪裡？沙發的材質是什麼？這些陰影是哪個光源造成的？燈光開關有可能在哪裡？

DeepMind 近期發表在 Science 雜誌上的論文《Neural Scene Representation and Rendering》（神經網路場景表徵與渲染）就研究了這個問題，這篇文章是對雷鋒網 AI 科技評論對 DeepMind 的論文介紹博客的編譯。論文中他們提出了生成式詢問網路 GQN（Generative Query Network），這是一個可以讓機器在場景中移動，根據移動過程中它們收集到的數據進行訓練，從而學會理解它們自己的所處環境的網路框架。就像嬰兒和動物一樣，GQN 嘗試理解自己觀察到的所處的世界的樣子，從而進行學習。在這個過程中，GQN 基本學到了場景的大致樣子、學到了它的幾何特點，而且不需要人類對場景中的任何物體進行標註。

DeepMind 提出 GQN，神經網路也有空間想像力

GQN 模型由兩部分組成：一個表徵網路和一個生成網路。表徵網路把智能體觀察到的畫面作為輸入，然後生成一個表徵向量，這個向量就描述了網路認識到的場景。生成網路接下來就會從一個之前未使用過的觀察角度對場景進行預測（也可以說是「想像」）。

表徵網路並不知道生成網路要預測的視角是什麼樣的，所以它需要找到儘可能高效的方式、儘可能準確地表徵出場景的真實布局。它的做法是捕捉最重要的元素，比如物體的位置、顏色以及整個屋子的布局，在簡明的分散式表徵中記錄下來。在訓練過程中，生成器逐漸學到了環境中的典型的物體、特徵、物體間關係以及一些基本規律。由於有了這組共享的「概念般」的表示方法，表徵網路也就可以用一種高度壓縮、抽象的方式描述場景，然後生成器會自動補足其它必要的細節。例如，表徵網路可以簡潔地用一組數字代表「藍色方塊」，同時生成器網路也知道給定一個視角以後要如何把這串數字再次轉化為像素點。

DeepMind 在一組模擬的 3D 世界環境中進行了控制實驗，環境里有隨機位置、顏色、形狀、紋理的多個物體，光源是隨機的，觀察到的圖像中也有許多遮擋。在環境中訓練過後，DeepMind 的研究人員們用 GQN 的表徵網路為新的、從未見過的場景生成表徵。通過實驗，研究人員們表明了 GQN 有以下幾個重要的特性：

GQN 的生成網路可以以驚人的精確性從新的視角為從未見過的場景生成「想像」的圖像。對於給定的場景表徵和新的視角，生成網路不需要任何透視、遮擋、光照條件的先驗指定，就可以生成清晰的圖像。這樣一來，生成網路也就是一個從數據學到的不錯的圖像渲染器。

DeepMind 提出 GQN，神經網路也有空間想像力

GQN 的表徵網路不需要任何物體級別的標籤就可以學會計數、定位以及分類。即便網路生成的表徵規模不大，GQN 對於提問視角的預測也很準確，與事實相差無幾。這表明表徵網路對場景的感知也很準確，比如準確描述了下面這個場景中組成積木的方塊的具體狀況。

DeepMind 提出 GQN，神經網路也有空間想像力

GQN 能表徵、測量以及減小不確定性。它自己對於場景的認知中可以包含一定的不確定性，尤其對於場景中的部分內容不可見的情況，它可以組合多個部分的視角，形成一個一致的整體理解。下圖通過第一人稱視角以及上帝視角展示了網路的這項能力。網路通過生成一系列不同的預測結果的方式展現出了不確定性，而隨著智能體在迷宮中四處移動，不確定的範圍逐漸減小。（圖中灰色圓錐表示觀察的位置，黃色圓錐表示提問的位置）

DeepMind 提出 GQN，神經網路也有空間想像力

GQN 的表徵為魯棒、樣本高效的強化學習帶來了可能。把 GQN 的緊湊的表徵作為輸入，相比無模型的基準線智能體，目前頂級的強化學習智能體能夠以更數據高效的方式進行學習，如下圖所示。對於這些智能體來說，生成網路中編碼的信息可以看做是存儲了這些環境的「固有信息」、「通用特性」。

DeepMind 提出 GQN，神經網路也有空間想像力

通過使用 GQN，DeepMind 的研究人員們觀察到了數據效率顯著更高的策略學習，相比一個標準的、把原始像素作為數據的方法，它與環境交互的數量只需要大概 1/4 就可以得到接近收斂級別的表現。

GQN 是基於多視角幾何、生成式建模、無監督學習和預測學習方面的大量近期論文構建的，DeepMind 也在這篇報告中介紹了相關工作。GQN 介紹了一種新的方式從物理場景學習緊湊的、可靠的表徵。最關鍵的是，所提的方法也不需要任何專門針對領域的工程設計或者耗時的內容標註，所以同一個模型可以用在多種不同的環境中。它還學到了一個強有力的神經網路渲染器，能夠從新的視角為場景生成準確的圖像。

不過 DeepMind 也表示，相比傳統的計算機視覺技術，GQN 也遇到了諸多限制，目前也只嘗試了在生成的場景中訓練。不過，隨著獲得新的數據、硬體方面得到新的提升，他們也希望未來能夠在更高解析度的、真實的場景中研究 GQN 網路框架的應用。在後續研究中，研究如何把 GQN 應用到場景理解的更多層面上也是一個重要課題，比如通過對於一段時間和空間的提問，讓模型學會一些物理原理和運動常識；GQN 在虛擬現實、增強現實中也有機會得到應用。

雖然這項方法距離實際應用還有很長的距離，但 DeepMind 相信這是向著全自動場景理解的目標的重要一步。

論文地址（Science版）：http://science.sciencemag.org/content/sci/360/6394/1204.full.pdf

論文地址（Open Access 版）：https://deepmind.com/documents/211/Neural_Scene_Representation_and_Rendering_preprint.pdf

via DeepMind Blog，雷鋒網 AI 科技評論編譯

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※和諧汽車馮長革：站在拜騰背後的神秘商人
※專訪圖瑪深維創始人鍾昕：做醫療 AI 要心懷敬畏感

TAG:雷鋒網 |