當前位置:
首頁 > 新聞 > Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

文章選自arXiv。作者:Peilun Li、Xiaodan Liang、Daoyuan Jia、Eric P. Xing。由機器之心編譯。

受大規模有標註數據集的推動,深度學習模型近來已經在多種任務(比如分類和檢測)上實現了非常出色的視覺感知表現 [14,19,20,31]。但是,由於各種場景中的像素方面的標註不足,更細粒度的任務仍然還有很大的提升空間。高質量的標註往往具有難以實現的難度,需要海量的人力工作才能得到,比如 Cityscapes 數據集 [7] 報告稱人工標註單張圖像的耗時超過 90 分鐘。此外,之前的 domain adaption 研究 [18] 表明,在有限的和有偏差的數據集上學習到的模型往往難以很好地泛化到其它不同領域的數據集上。

緩解這個數據問題的一種可選解決方案是尋找一種自動化的數據生成方法。無需依靠成本高昂的人力勞動來標註真實世界數據,近來計算機圖形學領域的研究進展 [23,32,33] 讓自動或半自動地從視頻遊戲中獲取圖像以及它們對應的形義標籤成為了可能,比如《俠盜獵車手 5》(GTA V)——這是一個基於洛杉磯的現實性開放世界遊戲。在虛擬世界中,我們可以不受限制地輕鬆收集各種有標籤數據,規模能比人類標註的真實世界數據大幾個數量級。

但是,由於常見的嚴重的域轉移問題(domain shift problem [29]),利用真實世界的知識來幫助解決真實世界的感知任務並不是一種容易實現的技術。由於渲染和物體模擬技術的限制,從虛擬世界收集的圖像往往會得到與從真實世界收集的圖像不一致的分布,如圖 1 所示。因此我們希望構建虛擬世界數據和真實世界數據之間的橋樑,以便將兩者共有的形義知識用於感知。之前的域適應方法可以概括為兩個方向:最小化源特徵分布和目標特徵分布之間的差異 [12,15,16,17,18,36];或通過對抗學習 [24,26,27,34,42,44] 或特徵組合 [10,11,22,25,37] 明確確保這兩個數據分布彼此接近。一方面,對於每個特定任務,這些基於特徵的適應方法需要監督源域和目標域,這不是廣泛適用的。另一方面,儘管通過生成對抗網路(GAN)得到了出色的適應表現 [13],但已有的模型只能將源圖像的整體顏色和紋理遷移到目標圖像,而不會考慮每個形義區域的關鍵特徵(比如道路與汽車),從而得到非常模糊和扭曲的結果。生成對抗網路中有一個鑒別器和一個生成器,其中鑒別器的訓練目標是將虛假圖像與真實圖像區分開,生成器的目標是生成看起來真實的圖像以欺騙鑒別器。當生成的圖像模糊或扭曲時,細粒度細節的損失會嚴重阻礙它們對下游的視覺感知任務的促進作用。

Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

圖 1:真實世界圖像和虛擬世界圖像的視覺比較。(a)採樣自 Cityscapes 數據集 [7] 的真實世界圖像;(b)採樣自 GTA-V 數據集 [33] 的虛擬世界圖像

我們在本論文中提出了一種全新的形義感知型 GradGAN(SG-GAN:Semantic-aware GradGAN),其目標是為虛擬世界圖像中不同的形義區域遷移個性化的風格(比如顏色、紋理,以逼近真實世界分布。我們的 SG-GAN 是一種基於圖像的適應方法,不僅能夠保留源域中關鍵的形義和結構信息,而且還能使每個形義區域接近它們對應的真實世界分布。

除了之前的 GAN 中所用的傳統對抗目標,我們提出了兩個用於實現上述目標的主要貢獻。第一,我們引入了一種新的對梯度敏感的目標來優化生成器,這強調了虛擬圖像和適應後的圖像的形義邊界一致性(semantic boundary consistency)。它可以規範化生成器,從而為每個形義區域渲染不同的顏色/紋理,以保持形義邊界,這可以緩解常見的模糊問題。

第二,之前的研究成果往往學習的是整張圖像的鑒別器,以便驗證所有區域的逼真度,這會使原圖像中所有像素的顏色/紋理容易坍縮成一種單調模式。我們這裡認為每個形義區域的外觀分布應該被有目的地區分對待。比如說,在真實世界中的道路區域往往具有粗糙的瀝青混凝土紋理,而車輛區域往往很光滑而且反光。不同於最終檢查全局特徵圖的標準鑒別器,我們實現了一種新的形義感知型鑒別器,可以以一種形義方面的方式來評估圖像適應的質量。這種可感知形義鑒別器能學習不同的鑒別參數,從而可以根據每個形義標籤來檢查區域。這就是 SG-GAN 與已有的 GAN 的不同之處,讓其成為了可以為不同形義區域個性化紋理渲染並得到具有更精細細節的適應圖像的可控架構。

我們在適應 GTA-V 虛擬圖像上進行了大量定性和定量實驗,結果表明我們的 SG-GAN 可以在不改變形義信息的情況下成功生成逼真的圖像。為了進一步證明適應圖像的質量,我們使用適應後的圖像訓練了形義分割模型並在公開的 Cityscapes 數據集上對它們進行了評估。相對於為形義分割使用原始的虛擬數據,適應後的圖像帶來了顯著的表現提升,這很好地表明了我們的 SG-GAN 在可感知形義的虛擬到真實場景適應方面的優越性。

形義感知型 Grad-GAN

我們提出的 SG-GAN 的目標是在保留不同內容的關鍵形義特徵的同時執行虛擬到真實的域適應。SG-GAN 使用了生成對抗網路(GAN),並且相比於傳統的 GAN 模型有兩大改進,即一種在生成器上的新的軟梯度敏感型目標和一種全新的形義感知型鑒別器。

Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

圖 2:我們提出的形義感知型 Grad-GAN(SG-GAN)的示意圖。V 和 R 框中的黃點分別表示未配對的虛擬世界圖像和真實世界圖像。兩個對稱的生成器 G_v→r, G_r→v 的學習目標是根據彼此執行場景適應。除了周期一致性損失(cycle consistency loss [44]),為了確保原始圖像及其適應後圖像的形義邊界是一致的,我們在生成器上加上了一個新的軟梯度敏感型目標 L_grad。兩個形義感知型鑒別器 SD_v 和 SD_r 是聯合進行優化的,以分別檢驗適應後真實世界圖像和虛擬世界圖像的逼真度。

Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

圖 3:形義感知型鑒別器示意圖。其以真實圖像或適應後的圖像為輸入,然後使用一個對抗目標進行優化。每個輸入首先會通過幾個卷積層,然後得到的特徵圖會以元素的方式與形義掩碼相乘,然後再求和得到單個通道的輸出。這種耦合後的輸出會被用於優化對抗損失,如等式 1 所示。圖中的 ⊙ 表示元素上的乘法運算,⊕ 表示信道維度上的求和運算。為了更好的可視化,被採樣的特徵圖被重新調整為 [0,255]。

實驗

Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

圖 4:當前最佳方法與我們方法的變體的視覺比較

Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

圖 5:用於展示 L_grad 目標的有效性的放大 4 倍的適應後圖像

Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

表 1:在亞馬遜 Mechanical Turk(AMT)上的 A/B 測試結果。每個單元格都比較了測試者選出的一種方法適應後的圖像比另一種方法適應後的圖像更逼真的比例,格式為「方法 A 的比例 - 方法 B 的比例」

Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

圖 6:展示形義感知型鑒別器 SD 的效果的有效性比較。(a)是輸入的虛擬世界圖像;(b)是(e)和(f)之間的絕對差;(c)是(a)和(e)之間的絕對差;(d)是(a)和(f)之間的絕對差;(e)是 SG-GAN-25K 生成的適應圖像;(f)是無 SD 變體生成的適應圖像;(g)是(e)放大 4 倍的細節;(h)是(f)放大 4 倍的細節。注意,通過比較(b)、(c)、(d),可以看到 SD 有助於為不同的形義類別實現更多色調和紋理變化。(g)和(h)的比較表明了 SD 生成更精細細節的能力,比如遠處的交通燈和光滑的天空。

Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

表 2:在 Cityscapes 500 張圖像的驗證集上得到的形義分割分數(%)比較

論文:用於虛擬到真實城市場景適應的形義感知型 Grad-GAN(Semantic-aware Grad-GAN for Virtual-to-Real Urban Scene Adaption)

Petuum研究提出形義感知型Grad-GAN:可基於遊戲生成真實城市場景

論文鏈接:https://arxiv.org/abs/1801.01726

視覺任務(比如分割)上的最近進展很大程度上取決於通過繁雜的人力勞動獲得的大規模真實世界圖像標註的可用性。此外,由於在有限和有偏差標註上訓練的模型的泛化能力很糟糕,模型的感知表現往往在新場景下會出現顯著的下降。在這項工作中,我們採用了遷移知識的方法——自動渲染虛擬世界中的場景標註以助力真實世界的視覺任務。儘管虛擬世界的標註可能有理想的多樣性而且是無限的,但虛擬世界和真實世界之間不同的數據分布使得知識遷移頗具難度。因此,我們提出了一種全新的形義感知型 Grad-GAN(SG-GAN)來執行虛擬到真實的域適應,同時它還有能力保留重要的形義信息。除了之前的工作實現的簡單的整體顏色/紋理轉換之外,SG-GAN 能成功地為每個形義區域個性化外觀適應,從而可以保留它們的關鍵特徵,以便進行更好的識別。相對於傳統的 GAN,SG-GAN 有兩大主要貢獻:1)一種用於保留形義邊界的軟梯度敏感型目標;2)一種用於驗證每個形義區域的個性化適應的逼真度的形義感知型鑒別器。定性和定量實驗表明了我們的 SG-GAN 在場景適應上相對於之前最佳的 GAN 的優越性。在 Cityscapes 上的進一步形義分割評估表明,使用 SG-GAN 得到的適應後虛擬圖像能在原始虛擬數據基礎上實現極大的分割表現提升。我們發布了我們的代碼:https://github.com/Peilun-Li/SG-GAN。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

TAG:機器之心 |