Science子刊封面：僅需20％信息，AI場景全再現！

新聞 05-19

新智元原創

來源：Science Robotics

編輯：金磊

【新智元導讀】近日，Science子刊發表文章，來自Facebook、加州伯克利分校和德克薩斯奧斯汀大學的研究人員通過強化學習解決了「如何讓智能體獲取信息性的視覺觀察」的問題。具體來說就是，AI智能體對新環境「瞥上幾眼」，就能快速推斷整個新環境的情況。AI的能力越來越接近人類了。

又接近了人類一步。

當我們給計算機視覺系統輸入一張照片時，它們可以很容易捕獲照片中的信息。但是，自主捕獲信息對於計算機視覺系統還是非常困難的。

簡單來說就是，當我們人類看到下圖左、中兩個不同方向的獎盃時，就有可能推測出第三個方向上獎盃的樣子。

但對於計算機視覺系統或者AI智能體來說，這種能力的實現是較為困難的。

近日，Science子刊(Sience Robotics)封面發表了一篇文章，便對這項任務做了深入研究，並讓智能體的視覺系統取得了突破性進展。不得不感嘆AI離人類的距離又拉近了一段！

文章鏈接：

https://robotics.sciencemag.org/content/4/30/eaaw6326

來自Facebook、加州伯克利分校和德克薩斯奧斯汀大學的研究人員通過強化學習解決了「如何讓智能體獲取信息性的視覺觀察」的問題。具體來說就是，AI智能體對新環境「瞥上幾眼」，就能快速推斷整個新環境的情況。

如上圖所示，AI智能體快速對新環境不同方向拍攝快照並作為輸入，通過總計不超過20%場景內容的照片即可推測整個場景內容！

「輕輕一瞥」，新場景即刻再現！

對於一個智能體，環境的各個視圖只提供所有相關信息的一小部分。

例如，一個智能體如果看到前面的電視屏幕，它可能不知道電視是在客廳還是卧室；智能體從側面觀察一個杯子，可能要從上面看才能知道杯子裡面是什麼。

這項研究的目標是學習一種控制智能體的攝像機運動策略，這樣它就可以有效地探索新的環境和對象。

為此，研究人員制定了一個基於主動觀察完成的無監督學習目標。它的主要思想是支持一系列的攝像機運動，這些運動能使智能體周圍看不見的部分更容易預測。其輸出是一個查找策略，用於在新環境中收集新圖像。

主動完成觀測任務面臨三大挑戰：

首先，為了很好地預測未觀察到的視圖，智能體必須學會從很少的視圖理解3D關係。經典的幾何解在這些條件下很難求解；

其次，智能行動選擇是這項任務的關鍵。鑒於過去的一系列觀察結果，系統必須根據可能提供最多信息的新觀點採取行動，即，確定哪些視圖最能改進其完整視圖網格的模型。

強調系統將面對在訓練期間從未遇到的對象和場景，但仍然必須智能地選擇下一步看起來有價值的地方。

作為這些挑戰的核心解決方案，研究人員提出了一種用於主動觀測完成的RL方法，如下圖所示。

我們的RL方法使用遞歸神經網路來聚合一系列視圖中的信息; 隨機神經網路使用聚合狀態和當前觀察來選擇一系列有用的相機運動。智能體根據其對未觀察到的視圖的預測而獲得獎勵。因此，它學會了一種策略來智能地選擇動作(攝像機動作)，以最大限度地提高預測的質量。

在訓練期間，完整的viewgrid是已知的，因此允許智能體「自我監督」其策略學習，這意味著它學習時不需要任何人類提供的標籤。

該模型判斷了像素空間中viewgrid重構的質量，從而保持通用性：整個場景(或3D對象)的所有像素都包含了所有對任何任務都可能有用的視覺信息。

因此，該方法避免使用任何中間語義表示，而採用尋求對許多任務有用的通用信息的學習策略。也就是說，研究人員所提出的方法很容易適應更專業的環境。例如，如果目標任務只需要語義分割標籤，那麼預測可以放在對象標籤的空間中。

RL方法往往存在勘探階段成本高和部分狀態可觀測性差的問題。特別是，一個活躍的視覺智能體必須完全基於第一人稱視圖中有限的可用信息進行一系列的操作。最有效的視點軌跡隱藏在許多平庸的視點軌跡中，阻礙了智能體在複雜的狀態-動作空間中的探索。

為了解決這一挑戰，作為這項工作的第二個主要技術貢獻，引入了「sidekick策略學習」。

sidekick方法引入了獎勵塑造和演示，利用訓練期間的完全可觀察性來預先計算每個候選快照的信息內容。然後，助手引導智能體訪問環境中的信息熱點或樣本中信息豐富的軌跡，同時考慮到在測試過程中可觀察性只是部分的事實。通過這樣做，助手們可以加快對實際智能體的訓練，提高整體表現。

實驗結果

數據集

為了基準和重現性，研究人員在兩個廣泛使用的數據集上評估了提出的方法。

SUN360 dataset for scenes

SUN360擁有26個不同類別的球形全景。數據集包括6174個訓練、1013個驗證和1805個測試示例。viewgrid有32×32像素解析度的2D圖像。

ModelNet dataset for objects

對於此數據集，智能體操縱3D對象以完成從所有查看方向看到的對象的視圖。viewgrid構成了一個隱式的基於圖像的三維形狀模型。ModelNet有兩個計算機輔助設計(CAD)模型子集：ModelNet-40(40個類別)和ModelNet-10 (ModelNet-40的10個類別子集)。不包括ModelNet-10類，ModelNet-40包含6085個訓練、327個驗證和1310個測試示例。ModelNet-10包含3991個訓練、181個驗證和727個測試示例。viewgrid有32×32解析度的2D圖像。

基線

研究人員測試了主動完成方法，使用/不使用sidekick策略學習(分別是lookaround和lookaround spl)與各種基線進行比較：

one-view是用T = 1訓練的方法。該基線沒有進行信息聚合或動作選擇。

rnd-actions與研究人員的方法相同，只是動作選擇模塊被所有可能動作池中隨機選擇的動作所取代。

large-actions選擇最大允許動作。這測試了遠距離觀點是否足夠豐富。

peek-saliency使用一個流行的saliency度量，在每個時間步長移動到可觸及的最顯著的視圖。

不同智能體行為下的場景和對象完成精度

(A)隨著獲得更多的一瞥，兩個數據集上的像素級MSE錯誤隨時間的變化。(B)所有T次瞥見後，兩個數據集的平均/對抗性MSE誤差×1000(越低越好)和相對於單視圖模型(越高越好)的相應改進(%)。

SUN360(左)和ModelNet(右)的活動觀測完成情況

對於每個示例，左邊的第一行顯示了ground-truth viewgrid;左邊的後續行顯示了t = 0,1，t?1 = 3時的重構，以及像素方向的MSE錯誤(×1000)和代理當前的快照(用紅色標記)。在右側，每個時間步長所採樣的智能體觀察角度顯示在觀察球上。重建質量隨著時間的推移而提高，因為它可以快速地細化場景結構和對象形狀。

T = 6「瞥見」後的三個重建例子

適用於SUN360和ModelNet的多種環境的ground-truth 360全景圖或viewgrid以及最終的GAN-refined重建

https://robotics.sciencemag.org/content/4/30/eaaw6326

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※GitHub5800星！一鍵還原百年老電影、黑白舊照片本色
※600萬死難者記憶由AI守護！以色列博物館用AI索引8億數字資產

TAG:新智元 |