CVPR 2018：新型語義分割模型：動態結構化語義傳播網路DSSPN

新聞 03-26

近日，來自 CMU、Petuum 等機構的研究者提出一種新型語義分割模型動態結構化語義傳播網路 DSSPN，通過將語義概念層次明確地結合到網路中來構建語義神經元圖。實驗證明 DSSPN 優於當前最優的分割模型。

引言

隨著卷積神經網路的不斷進步，目標識別和分割作為計算機視覺的主要研究方向取得了巨大的成功。然而，目前使用更深、更寬網路層的分割模型 [24,5,40,37,22] 在對分割注釋有限的大型概念辭彙的識別方面表現欠佳。原因在於它們忽略了所有概念的固有分類和語義層次。例如，長頸鹿、斑馬和馬同屬於有蹄類動物，這個大類描繪了它們的共同視覺特徵，使得它們很容易與貓/狗區分開來。此外，由於專業水平和應用目的不同，語義分割的目標概念集本質上可以開放化和高度結構化，以適應特定的任務/數據集。然而，一些技術還通過在最終預測分數上採用複雜圖形推斷 [7]、層級損失 [31] 或詞嵌入先驗 [39] 來探索視覺識別的語義層次。它們的損失約束只能間接地將視覺特徵引導為可被層次感知，與通用的 CNN 模型相比，結果難以得到保證，甚至往往會得到更差的結果。

此外，模型語義層次的缺乏也阻礙了對一次性解決所有概念分割的通用分割模型的研究。現有研究 [24,5,40,37] 通常致力於訓練特定任務的模型，因為數據集之間存在標籤差異且數據集的注釋有限。這種方法很大程度上限制了模型的泛化能力，並且偏離了通過結合概念層次來識別並關聯所有概念的人類感知。如果想通過充分利用具備不同標籤集的注釋來改進一項任務，那麼以前的模型必須移除分類層，並且僅共享中間表徵。學習通用分割模型的目標與最近將不同視覺任務 [18, 36] 或多模態任務 [17] 整合進一個模型的研究有一定關聯，這些研究通常使用幾個固定的、具備特定損失函數的網路架構來整合所有的任務。

這篇論文旨在將語義概念層次顯式地集成到動態網路優化中，稱為動態結構化語義傳播網路 (Dynamic-Structured Semantic Propagation Network，DSSPN)。本著課程學習（curriculum learning）的精神 [2] 逐步提高目標難度，並利用以前學過的知識學習新的細粒度的概念，DSSPN 首先遵從語義概念層次結構逐步構建語義神經元圖（semantic neuron graph），其中每個神經元負責分割單詞層次結構中一個概念的區域。然後每個神經元學得的特徵被傳播到它的子神經元中進一步學習特徵，以便識別更細粒度的概念。對於每個圖像或數據集，DSSPN 在激活的語義神經元子圖上執行動態結構語義傳播，且子圖只選擇當前概念及其 ancestors。得益於有序語義網路模塊和動態優化策略的優點，DSSPN 學得的視覺表徵可在不同概念之間自然地嵌入豐富的語義相關性。這種顯式的神經元定義機制使得這篇論文提出的 DSSPN 是一種語義可解釋的動態網路架構，同時具備優秀的內存和計算效率。