顏水成和馮佳時團隊一作詳解CVPR錄用論文：基於對抗擦除的物體區域挖掘

新聞 09-05

雷鋒網AI科技評論按：新加坡國立大學博士後魏雲超博士、新加坡國立大學助理教授馮佳時博士、卡內基梅隆大學梁小丹博士、南開大學程明明教授、北京交通大學趙耀教授及360人工智慧研究院院長顏水成博士所作論文《Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach》被CVPR 2017錄用為口頭報告（oral，錄用率2.65%）。在雷鋒網AI科技評論的邀請下，論文一作魏雲超博士撰寫了關於這篇論文的獨家解讀文章，以饗讀者。

圖像語義分割是計算機視覺領域的核心研究問題之一。一般來講，訓練高性能的語義分割模型需要依賴於大量的像素級的人工標註（即標註每個像素點的語義信息）。然而，標註這類的訓練樣本非常困難，往往需要大量的金錢和時間。為了降低獲取訓練樣本的難度，研究人員提出採用一些相對容易獲取的標註作為監督信息（我們稱之為弱監督），並用於訓練圖像語義分割模型。目前這些弱監督信息主要包括了bounding boxes，scribbles，points和labels，如圖1。

圖1

在這些弱監督信息中，圖像的labels標註最容易獲取，我們著重研究如何利用圖像的labels作為監督信息，訓練出用於語義分割的模型。而這一問題的成功的關鍵在於如何構建圖像標籤同像素點之間的關聯，從而自動生成圖像像素級的標註，進而利用FCN訓練語義分割模型。

圖2

目前我們注意到研究人員們提出了一些自上而下的attention方法（CAM[1]， EP[2]等）。這類方法可以利用訓練好的分類CNN模型自動獲得同圖像標籤最相關的區域。如圖2所示，我們給出了通過CAM方法獲取的attention map。可以看出對於一個圖像分類模型，往往物體的某個區域或某個instance對分類結果的貢獻較大。因此這類attention方法只能找到同標籤對應的某個物體最具判別力的區域而不是物體的整個局域。如何利用分類網路定位物體的整個區域，對語義分割任務具有重要意義。

圖3

圖3給出了我們的motivation。我們將第一張圖片以及它對應的標籤「person」輸入到網路中進行訓練。繼而，網路會嘗試從圖中發現一些證據來證明圖中包含了「person」。一般來講，人的head是最具判別力的部位，可以使此圖被正確地判別為「person」。若將head從圖片中移除（如第二張圖中的橙色區域），網路會繼續尋找其它證據來使得圖像可以被正確分類，進而找到人的body區域。重複此操作，人的foot區域也可以被發現。由於訓練本身是為了從圖片中發現對應標籤的證據而擦除操作則是為了掩蓋證據，因此我們稱這種訓練-擦除-再訓練-再擦除的方式為對抗擦除（adversarial erasing）。

基於上述的motivation，我們採用了對抗擦除的機制挖掘物體的相關區域。如圖4所示，我們首先利用原始圖像訓練一個分類網路，並利用自上而下的attention方法（CAM）來定點陣圖像中最具判別力的物體區域。進而，我們將挖掘出的區域從原始圖片中擦除，並將擦除後的圖像訓練另一個分類網路來定位其它的物體區域。我們重複此過程，直到網路在被擦除的訓練圖像上不能很好地收斂。最後將被擦除的區域合併起來作為挖掘出的物體區域。

圖4

圖5為對抗擦除方法的細節。我們基於VGG16訓練圖像的分類網路，將最後兩個全連接層替換為卷積層，CAM被用來定位標籤相關區域。在生成的location map（H）中，屬於前20%最大值的像素點被擦除。我們具體的擦除方式是將對應的像素點的值設置為所有訓練集圖片的像素的平均值。

圖5

我們發現在實施第四次擦除後，網路訓練收斂後的loss值會有較大提升（圖6右）。主要原因在於大部分圖片中的物體的區域已經被擦除，這種情況下大量的背景區域也有可能被引入。因此我們只合併了前三次擦除的區域作為圖片中的物體區域。圖6左給出部分訓練圖像在不同訓練階段挖掘出的物體區域，以及最後將擦除區域合併後的輸出。

圖6

我們利用顯著性檢測技術生成的顯著圖生獲取圖像的背景信息，並同通過對抗擦除獲得物體區域結合生成用於訓練語義分割網路的segmentation mask（其中藍色區域表示未指派語義標籤的像素，這些像素點不參與訓練）。由於在生成的segmentation mask中包含了一些雜訊區域和未被標註的區域，為了更加有效地訓練，我們提出了一種PSL（Prohibitive Segmentation Learning）方法訓練語義分割網路，如圖7。該方法引入了一個多標籤分類的分支用於在線預測圖像包含各個類別的概率值，這些概率被用來調整語義分割分支中每個像素屬於各個類別的概率，並在線生成額外的segmentation mask作為監督信息。由於圖像級的多標籤分類往往具有較高的準確性，PSL方法可以利用分類信息來抑制分割圖中的true negative區域。隨著訓練的進行，網路的語義分割能力也會越來越強，繼而在線生成的segmentation mask的質量也會提升，從而提供更加準確的監督信息。