CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
雷鋒網 AI 科技評論按:百度研究院、華中科技大學、悉尼科技大學聯合新作——關於無監督領域自適應語義分割的論文《 Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》被 CCF A 類學術會議 CVPR2019 收錄為 Oral 論文 。該論文提出了一種從「虛擬域」泛化到「現實域」的無監督語義分割演算法,旨在利用易獲取的虛擬場景標註數據來完成對標註成本高昂的現實場景數據的語義分割,大大減少了人工標註成本。 本文是論文作者之一羅亞威為雷鋒網 AI 科技評論提供的論文解讀。 雷鋒網
論文地址: https://arxiv.org/abs/1809.09478
1.問題背景
基於深度學習的語義分割方法效果出眾,但需要大量的人工標註進行監督訓練。不同於圖像分類等任務,語義分割需要像素級別的人工標註,費時費力,無法大規模實施。藉助於計算機虛擬圖像技術,如3D遊戲,用戶可以幾乎無成本地獲得無限量自動標註數據。然而虛擬圖像和現實圖像間存在嚴重的視覺差異(域偏移),如紋理、光照、視角差異等等,這些差異導致在虛擬圖像上訓練出的深度模型往往在真實圖像數據集上的分割精度很低。
圖1. 問題背景
2. 傳統方法針對上述域偏移問題,一種廣泛採用的方法是在網路中加入一個域判別器Discriminator (D),利用對抗訓練的機制,減少源域Source (S)和目標域Target(T)之間不同分布的差異,以加強原始網路(G)在域間的泛化能力。方法具體包括兩方面:
(1)利用源域的有標籤數據進行有監督學習,提取領域知識:
其中Xs,Ys為源域數據及其對應標籤。
(2)通過對抗學習,降低域判別器(D)的精度,以對齊源域與目標域的特徵分布:
其中XT為目標域數據,無標籤。
3.我們針對傳統方法的改進以上基於對抗學習的傳統域適應方法只能對齊全局特徵分布(Marginal Distribution),而忽略了不同域之間,相同語義特徵的語義一致性(Joint Distribution),在訓練過程中容易造成負遷移,如圖2(a)所示。舉例來說,目標域中的車輛這一類,可能與源域中的車輛在視覺上是接近的。因此,在沒有經過域適應演算法之前,目標域車輛也能夠被正確分割。然而,為了迎合傳統方法的全局對齊,目標域中的車輛特徵反而有可能會被映射到源域中的其他類別,如火車等,造成語義不一致。
針對這一問題,我們在今年CVPR的論文中,向對抗學習框架里加入了聯合訓練的思想,解決了傳統域適應方法中的語義不一致性和負遷移等鍵問題。具體做法見圖2(b),我們採用了兩個互斥分類器對目標域特徵進行分類。當兩個分類器給出的預測很一致時,我們認為該特徵已經能被很好的分類,語義一致性較高,所以應減少全局對齊策略對這些特徵產生的負面影響。反之,當兩個分類器給出的預測不一致,說明該目標域特徵還未被很好地分類,依然需要用對抗損失進行與源域特徵的對齊。所以應加大對齊力度,使其儘快和源域特徵對應。
圖2. 傳統方法和本文方法對比
4.網路結構為了實現上述語義級對抗目標,我們提出了Category-Level Adversarial Network (CLAN)。 遵循聯合訓練的思想,我們在生成網路中採用了互斥分類器的結構,以判斷目標域的隱層特徵是否已達到了局部語義對齊。在後續對抗訓練時, 網路依據互斥分類器產生的兩個預測向量之差(Discrepancy)來對判別網路所反饋的對抗損失進行加權。網路結構如下圖3所示。
圖3. 網路結構
圖3中,橙色的線條表示源域流,藍色的線條表示目標域流,綠色的雙箭頭表示我們在訓練中強迫兩個分類器的參數正交,以達到互斥分類器的目的。源域流和傳統的方法並無很大不同,唯一的區別是我們集成了互斥分類器產生的預測作為源域的集成預測。該預測一方面被標籤監督,產生分割損失(Segmentation Loss),如式(3)所示:
另一方面,該預測進入判別器D,作為源域樣本。
綠色的雙箭頭處,我們使用餘弦距離作為損失,訓練兩個分類器產生不同的模型參數:
目標域流中,集成預測同樣進入判別器D。不同的是,我們維持兩個分類器預測的差值,作為局部對齊程度的依據 (local alignment score map)。該差值與D所反饋的損失相乘,生成語義級別的對抗損失:
該策略加大了語義不一致特徵的對齊力度,而減弱了語義一致的特徵受全局對齊的影響,從而加強了特徵間的語義對齊,防止了負遷移的產生。
最後,根據以上三個損失,我們可以得出最終的總體損失函數:
基於以上損失函數,演算法整體的優化目標為:
在訓練中,我們交替優化G和D,直至損失收斂。
5. 特徵空間分析圖4. T-SNE
我們重點關注不常見類,如圖4(a)中黃框內的柱子,交通標誌。這些類經過傳統方法的分布對齊,反而在分割結果中消失了。結合特徵的t-SNE圖,我們可以得出結論,有些類的特徵在沒有進行域遷移之前,就已經是對齊的。傳統的全局域適應方法反而會破壞這種語義一致性,造成負遷移。而我們提出的語義級別對抗降低了全局對齊對這些已對齊類的影響,很好的解決了這一問題。
6. 實驗結果我們在兩個域適應語義分割任務,即GTA5 -> Cityscapes 和 SYNTHIA -> Cityscapes 上進行了實驗驗證。我們採用最常見的Insertion over Union作為分割精度的衡量指標,實驗結果如下。從表1和表2中可以看出,在不同網路結構(VGG16,ResNet101)中,我們的方法(CLAN)域適應效果都達到了 state-of-the-art的精度。特別的,在一些不常見類上(用藍色表示),傳統方法容易造成負遷移,而CLAN明顯要優於其他方法。
表 1. 由虛擬數據集GTA5 遷移至真實數據集 Cityscapes 的域適應分割精度對比。
表 2. 由虛擬數據集SYNTHIA 遷移至真實數據集 Cityscapes 的域適應分割精度對比。
第二個實驗中,我們了展示隱空間層面,源域和目標域間同語義特徵簇的中心距離。該距離越小,說明兩個域間的語義對齊越好。結果見圖 5。
最後,我們給出分割結果的可視化效果。我們的演算法大大提高了分割精度。
7. 總結《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》引入了聯合訓練結合對抗學習的設計,在無監督域適應語義分割任務中取得了較好的實驗結果。該演算法能應用前景廣泛,比如能夠很好地應用到自動駕駛中,讓車輛在不同的駕駛環境中也能保持魯棒的街景識別率。
※進軍邊緣計算,英偉達剛發布的 EGX 平台有何優勢?
※Arm 機器學習處理器的獨特之處
TAG:雷鋒網 |