Google AI用「語義連貫」將對象物逼真地亂入各種場景製作
以「語義連貫」的方式來將對象插入至圖形中的系統。
(映維網 2018年12月15日)對於計算機而言,通過後期製作軟體來布置場景實際上相當不易。它不僅需要確定所述對象的適當位置,同時需要嘗試預測對象在目標位置的外觀:比例,遮擋,姿勢和形狀等等。
幸運的是,人工智慧有望伸出援助之手。上周NeurIPS 2018大會公布了一篇論文(「Context-Aware Synthesis and Placement of Object Instances(對象實例的情景感知合成和放置)」,韓國首爾國立大學,美國加州大學美熹德分校,以及Google AI的研究人員描述了一種能夠以「語義連貫」的方式來將對象插入至圖像中的系統。
研究人員寫道:「對於將對象插入符合情景語義的圖像之中,這是一項具有挑戰性和有趣的任務。與此同時,這項任務與眾多實際應用密切相關,包括圖像合成,AR和VR內容編輯…這樣的對象插入模型可能有助於眾多的圖像編輯和場景解析應用程序。」
他們的端到端框架包括兩個模塊:一個模塊確定在哪裡插入對象;另一個模塊確定插入後的樣式。系統將利用GAN,或者由生成器(生成樣品和鑒別器)組成的二體神經網路,然後試圖區分生成的樣本和真實世界的樣本。因為系統同時對插入圖像的分布建模,所以兩個模塊能夠相互通信並相互優化。
論文作者寫道:「這項研究的主要技術創新在於,我們構建了一個端到端的可訓練神經網路,能夠從聯合分布中為新對象採樣合理的位置和形狀。合成對象實例既可以用作基於GAN的方法的輸入,也能夠從現有數據集中檢索最近的區段以生成新圖像。」
研究人員解釋道,生成器可以預測「可信的」的位置並生成具有「語義連貫」比例,姿勢和形狀的對象蒙版,特別是關於對象在場景中的分布方式,以及如何自然地插入對象。隨著時間的推移,人工智慧系統將能夠根據場景條件學習每個類別的不同分布。例如在城市街道的圖像中,人類往往出現在人行道上,而汽車通常出現在道路上。
在測試中,研究人員的模型能夠插入逼真形狀的對象。當圖像識別器YOLOv3應用於AI產生的圖像時,檢測合成對象的召回率是0.79。更有說服力的是,在對亞馬遜Mechanical Turk工作人員的調查中,43%的受訪者認為人工智慧生成的對象是真實對象。
論文指出:「這表明我們的方法能夠執行對象合成和插入任務。由於我們的方法能夠同時建模『在哪裡』和『什麼樣』,它可以用於解決其他計算機視覺問題。未來有趣的研究之一是處理對象之間的遮擋。」
原文鏈接:https://yivian.com/news/54147.html
※傳HoloLens將採用高通驍龍850晶元,預計明年2月公布確認
※限時免費,《Subnautica》將登陸Epic Games商城
TAG:映維網VR |