當前位置:
首頁 > 科技 > Google的DeepMind開發AI 可將2D圖片渲染成3D

Google的DeepMind開發AI 可將2D圖片渲染成3D

谷歌旗下的DeepMind今天推出了一種新型的計算機視覺演算法,可以從2D快照生成場景的3D模型:生成查詢網路(GQN)。

Google的DeepMind開發AI 可將2D圖片渲染成3D

GQN的細節發表在《科學》(Science)雜誌上,它可以不經過任何人工監督或培訓,從任何角度「想像」和渲染場景。給定一個場景的一些圖片——比如一個貼滿壁紙的房間,地板上有一個彩色的球體——這個演算法可以渲染相對的、看不見的物體側面,並從多個有利位置生成3D視圖,甚至可以考慮到陰影中的照明。

它的目的是複製人類大腦了解周圍環境和物體之間的物理交互的方式,並消除人工智慧研究人員在數據集中標註圖像的需要。大多數視覺識別系統需要一個人在數據集中標註每個場景中每個物體的每個方面,這是一個費力而昂貴的過程。

Google的DeepMind開發AI 可將2D圖片渲染成3D

DeepMind GNQ

上圖:DeepMind的GQN從靜態圖像中想像了這個迷宮。

DeepMind研究人員在一篇博客文章中寫道:「與嬰兒和動物非常相似,GQN通過試圖理解其對周圍世界的觀察來學習。」「通過這樣做,GQN了解了似是而非的場景和它們的幾何屬性,而沒有對場景內容進行任何人類標記……GQN了解了似是而非的場景及其幾何屬性……沒有對場景內容進行任何人為標記。」

兩部分系統由表示網路和生成網路組成。前者獲取輸入數據,並將其轉換為描述場景的數學表示(矢量),而後者則對場景進行圖像處理。

Google的DeepMind開發AI 可將2D圖片渲染成3D

DeepMind GNQ

上圖:GQN從2D樣例數據創建一個可操作的虛擬對象。

為了訓練這個系統,DeepMind的研究人員給GQN提供了不同角度的場景圖像,用來自學物體的紋理、顏色和光線,以及它們之間的空間關係。然後它預測這些物體從側面或從後面看起來會是什麼樣子。

利用它的空間理解,GQN可以控制對象(例如,通過使用虛擬機器人手臂來撿球)。當它在場景中移動時,它會自我糾正,當預測被證明是錯誤的時候,它會調整預測。

Google的DeepMind開發AI 可將2D圖片渲染成3D

DeepMind GNQ

上圖:GQN設計的另一個3D迷宮。

GQN並非沒有限制——它只在包含少量對象的簡單場景中進行測試,它還不夠複雜,不足以生成複雜的3D模型。但是DeepMind正在開發更健壯的系統,它們需要更少的處理能力和更小的語料庫,以及能夠處理高解析度圖像的框架。

研究人員寫道:「雖然在我們的方法準備應用於實踐之前還有很多研究要做,但我們相信這項工作是朝著完全自主的場景理解邁出的重要一步。」

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 智鋒號 的精彩文章:

Leap Motion發布全新手勢跟蹤更新以及演示視頻
Elon Musk爆重磅 將發布提供全自動駕駛的車載系統

TAG:智鋒號 |