當前位置:
首頁 > 科技 > 曠視科技Face+提出用於語義分割的判別特徵網路DFN

曠視科技Face+提出用於語義分割的判別特徵網路DFN

來源:Megvii

編輯 | 都保傑

微信 | ai_xingqiu

網址 | 51aistar.com

CVPR2018國際計算機視覺與模式識別會議將於6月18日至22日在美國鹽湖城舉行,在盛會召開之前,曠視針對CVPR 2018收錄論文集中進行系列解讀,本篇談談「判別特徵網路 DFN」。

論文鏈接:https://arxiv.org/abs/1804.09337

目錄

設計思想

網路架構

Smooth Network

Border Network

網路結構

實驗結果

結論

參考文獻

在大量的計算機視覺應用中,語義分割是一項不可或缺的底層技術。曠視科技Face++近期發表的一篇 CVPR 2018 收錄論文《Learning a Discriminative Feature Network for Semantic Segmentation 》提出判別特徵網路 DFN,有效解決了語義分割的兩個基本問題,顯著提高了其精度,可以幫助機器之眼更好地理解複雜的圖像和場景,解析靜態或動態人體及其他物體,有助於從根本上推動自動駕駛、手機影像、醫療影像、無人零售、物流安防等 AI 驅動型產業的普及與發展。

設計思想

本文提出的判別特徵網路(Discriminative Feature Network/DFN)包含兩個子網路 Smooth Network 和 Border Network,它有效解決了絕大多數現有語義分割方法面臨的類內不一致(intra-class inconsistency)與類間無差別(inter-class indistinction)問題。

具體而言,為應對類內不一致問題,作者專門設計帶有通道注意力模塊(Channel Attention Block/CAB)和全局平均池化的 Smooth Network 以選擇更具判別力的特徵;而 Border Network 則藉助多層語義邊界監督區分邊界兩邊的特徵。

伴隨著以全卷積網路(Fully Convolutional Network/FCN)為代表的卷積神經網路的新近發展,很多工作成效顯著。但是,上述網路學習的特徵經常存在判別性不強,難以區分的問題,表現為:1) 標籤相同但外觀不同的圖像塊,稱之為類內不一致,如圖 1 第一行所示;2) 兩個相鄰的圖像塊,標籤不同但外觀相似,稱之為類間無差別,如圖 1 第二行所示。

圖 1:棘手的語義分割實例。第二列是 FCN 模型的輸出;第三列是本文方法的輸出。第一行中,圖中牛的左下角被識別為馬,這屬於類內不一致問題。第二行中,電腦主機上的藍光及黑色機殼與顯示器相似,因此難以區分,這屬於類間無差別問題。

為解決上述兩個挑戰,本文從一個更加宏觀的角度重新思考語義分割,將其看作一項把一致的語義標籤分配給一類物體而不是每個單一像素的任務。這就需要把每個類別的像素看作一個整體,進而同時兼顧類內一致(intra-class consistency)與類間差別(inter-class variation)。這意味任務需要判別特徵,所以本文提出一個全新的判別特徵網路(DFN) 以學習特徵表徵。

DFN 有兩個組件:Smooth Network 和 Border Network。Smooth Network 用來解決類內不一致問題,從而需要學習一個魯棒特徵表徵,為此本文主要考慮兩個關鍵因素。一方面,需要多尺度和全局語境特徵編碼局部和全局信息。比如,由於缺乏足夠的語境信息,圖 1(a) 中的白色小圖像塊經常無法預測正確的類別;另一方面,隨著引入多尺度語境,對於一定尺度的物體來說,特徵具有不同程度的判別力,其中一些可能預測假標籤。因此,有必要選擇高效的判別特徵。正是出於上述兩方面的考慮,Smooth Network 展現為 U 形結構,以抓取不同尺度的語境信息,並通過全局平均池化抓取全局語境。此外,本文還提出通道注意力模塊(CAB),利用高層特徵逐階段地指導低層特徵的選擇。

Border Network 負責區分外觀相似但標籤不同的相鄰圖像塊。大多數現有方法把語義分割看作一種密集識別問題,無法明確建模類間關係。以圖 1(d) 為例,如果越來越多的全局語境整合進分類過程,相鄰於顯示器的電腦主機由於外觀相似很容易被誤認是顯示器。因此,明確地使用語義邊界指導特徵的學習非常重要,這可以增強特徵兩邊的變化。訓練時,作者把語義邊界損失整合進 Border Network 以學習判別特徵,增大類間差別。

網路架構

有關DFN的網路架構,首先詳述它的兩個組件 Smooth Network 和 Border Network;接著,具體解釋兩者如何實現類內一致和類間差別;最後描述 DFN 完整的編碼器-解碼器網路架構。

圖 2:判別特徵網路概覽。(a)網路架構。(b)優化殘差模塊(Refinement Residual Block/RRB)的組件。(c)通道注意力模塊(CAB)的組件。紅線、藍線分別表徵上採樣和下採樣運算元。綠線僅是信息傳遞路徑,不改變特徵圖的大小。

Smooth Network

絕大多數現有方法無法保證正確預測每個圖像塊的類別,尤其當圖像塊屬於較大區域和複雜場景之時;這種類內不一致問題的主要原因在於語境的缺失,為此作者提出帶有全局平均池化的全局語境。但是,全局語境只具有高語境信息,無助於復原空間信息,作者需要多尺度感受野和語境來優化空間信息,正如大多數現有方法那樣。然而,由於不同尺度的感受野其判別力也各不相同,從而造成不一致的結果,從而需要選擇更具判別力的特徵預測某個特定類別的統一語義標籤。

具體而言,本文使用 ResNet 作為基礎識別模型;根據特徵圖大小,該模型可劃分為 5 個階段。據觀察,不同階段識別能力各不相同,一致性表現也各不相同。在低級階段,網路編碼更精細的空間信息,但是由於缺乏空間語境指導和感受野較小,其語義一致性表現欠佳;而在高級階段,由於感受野較大,語義一致性表現較佳,但是預測的空間信息較粗糙。總體而言,低級階段有著更精確的空間預測,而高級階段有著更精確的語義預測。基於這一觀察,本文提出 Smooth Network 以整合兩者的優勢,利用高級階段的一致性指導低級階段獲得最優的預測。

圖 3:通道注意力模塊圖示。在(a)中,黃色模塊表徵低級階段的特徵,紅色模塊表徵高級階段的特徵。作者結合相鄰階段的特徵以計算權重向量,從而更新低級階段特徵圖的權重。較深色模塊表徵高權重值。(b)是第 4 階段通道注意力模塊的真實注意力值向量。藍色越深,表徵權重值越大。

當下流行的語義分割架構主要有兩種 style,一種是 Backbone,如 PSPNet 和 Deeplab v3;另一種是 Encoder-Decoder,比如 RefineNet 和全局卷積網路。但上述架構並不完備,為此,本文首先嵌入一個全局平均池化層把 U 形架構擴展為 V 形架構,為網路引入最強的一致性約束作為指導;此外,本文提出通道注意力模塊以優化一致性,如圖 2(c) 所示。該設計結合相鄰階段的特徵以計算通道注意力向量(圖 3(b))。高級階段的特徵給出一個強大的一致性指導,而低級階段的特徵給出特徵的不同判別信息,從而通道注意力向量可以選擇判別特徵。

通道注意力模塊:CAB 的設計目的是改變每一階段的特徵權重以優化一致性,如圖 3 所示。在 FCN 架構中,卷積運算元輸出一個 score map,給出每一類別在每個像素上的概率。其實際意義在於暗示了不同通道的權重是平等的。然而,如上所述,不同階段的特徵判別力不同,造成預測的一致性各不相同。為實現類內一致預測,應該提取判別特徵,並抑制非判別特徵,從而可以逐階段地獲取判別特徵以實現預測類內一致。

優化殘差模塊:特徵網路中每一階段的特徵圖全都經過 RRB,如圖 2(b) 所示。該模塊的第 1 個組件是 1 x 1 卷積層,作者用它把通道數量統一為 512。同時,它可以整合所有通道的信息。接著是一個基本的殘差模塊,它可以優化特徵圖。此外,受 ResNet 啟發,該模塊還可以強化每一階段的識別能力。

Border Network

在語義分割任務中,預測經常混淆外觀相似的不同類別,尤其當它們在空間上相近之時,因此需要加大特徵的差別。出於這一考慮,本文採用語義邊界指導特徵學習,同時應用顯式監督提取精確的語義邊界,使網路學習類間差別能力強大的特徵,進而提出 Border Network 加大特徵的類間差別。Border Network 直接通過顯式語義邊界監督學習語義邊界,類似於語義邊界檢測任務。這使得語義邊界兩邊的特徵變得可區分。

本文的工作需要語義邊界具有更多的語義含義。因此 Border Network 的設計是自下而上的。它可以同時從低級階段獲取精確的邊界信息和從高級階段獲取語義信息,從而消除一些缺乏語義信息的原始邊界。由此,高級階段的語義信息可以逐階段地優化低級階段的細節邊界信息。藉助傳統的圖像處理方法,比如 Canny,作者可以從語義分割的 groundtruth 中獲得網路的監督信號。Border Network 主要關注分離邊界兩邊的類別的語義分割。要精確地提取語義邊界,需要兩邊的特徵更加可區分,而這正是作者的目的所在。

網路結構

作者使用預訓練的 ResNet 作為基礎網路。Smooth Network 通過在網路頂部添加全局平均池化層以獲得最強的一致性;接著利用 CAB 改變通道的權重進一步提升一致性。同時,Border Network 通過明確的語義邊界監督獲得精確的語義邊界並使兩邊的特徵更易區分。由此,類內特徵更加一致,類間特徵更易區分。

對於顯式的特徵優化,需要使用多層監督以獲取更佳性能,同時網路也更容易訓練。Smooth Network 藉助 softmax loss 監督每一階段的上採樣輸出(全局平均池化層除外),而本文藉助 focal loss 監督 Border Network 的輸出。兩個子網路在一起聯合訓練,其 loss 通過一個參數控制兩者的權重。

實驗結果

本文在兩個開源數據集 PASCAL VOC 2012 和 Cityscapes 上評估這一方法。數據集介紹、實現細節結果分析等從略,本文將直接給出 DFN 最終的評估結果,了解更多請參見原論文。

表 5:DFN 在 PASCAL VOC 2012 測試集上的表現。在 MS-COCO 上預訓練的方法用「+」標記。

表 6:DFN 在 Cityscapes 測試集上的表現。「-」表明該方法未在發表的論文中展示結果。

結論

最後總結一下,本文的貢獻主要有 4 個方面:

從一個新的宏觀視角重新思考語義分割,將其看作一項把一致的語義標籤分配給一類物體(而不僅僅是在像素層面)的任務。

提出 DFN 同時解決類內一致和類間差別問題。DFN 分別在 PASCAL VOC 2012 和 Cityscapes 數據集上取得 86.2% 和 80.3% 的當前最優 mean IOU,證實了該方法的有效性。

提出 Smooth Network,通過全局語境和通道注意力模塊提升類內一致性。

提出一種自下而上的 Border Network,利用多層邊界監督信號增大語義邊界兩邊的特徵變化,同時優化預測的語義邊界。

往期趣文

如果你想了解最前沿的AI技術和場景應用

一網打盡AI界前瞻科技和深度報道

如果你想持續拉升逼格

歡迎關注AI星球,並轉發朋友圈為我們打Call~~

你們的支持是我們創造優質內容的不竭動力

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI星球 的精彩文章:

Facebook沉默四日終於發聲:我們被騙了,我們也很憤怒!
HomePod開局不利,市場份額跌至4%

TAG:AI星球 |