當前位置:
首頁 > 科技 > 學界 | 雙重注意力網路:中科院自動化所提出新的自然場景圖像分割框架(附源碼)

學界 | 雙重注意力網路:中科院自動化所提出新的自然場景圖像分割框架(附源碼)


選自 arxiv


作者:

Jun Fu、Jing Liu、Haijie Tian、Zhiwei Fang、Hanqing Lu


機器之心編譯


參與:張倩、王淑婷





場景分割是語義分割領域中重要且具有挑戰的方向。為了有效完成場景分割任務,需要區分一些容易混淆的類別,並考慮不同外觀的物體。本文提出了一個新的自然場景圖像分割框架,稱為雙重注意力網路(DANet),引入了一種自注意力機制來分別捕捉空間維度和通道維度上的視覺特徵關聯。在處理複雜多樣的場景時,本文提出的方法比以往的方法更為靈活、有效,在三個具有挑戰性的場景分割數據集(Cityscapes、PASCAL Context 和 COCO Stuff)上取得了當前最佳分割性能。




場景分割是語義分割領域中重要且具有挑戰的方向,其可以應用於自動駕駛,增強現實,圖像編輯等領域。場景分割需要預測出圖像中的像素點屬於某一目標類或場景類,其圖像場景的複雜多樣(光照,視角,尺度,遮擋等)對於場景的理解和像素點的判別造成很大困難。當前主流場景分割方法大致可分為以下兩種類型:一是通過使用多尺度特徵融合的方式增強特別的表達,例如空間金字塔結構 (PSP,ASPP) 或者高層淺層特徵融合 (RefineNet)。但是這些方式沒有考慮到不同特徵之間的關聯依賴,而這對於場景的理解確實十分重要。另一是利用 RNN 網路構建特徵長範圍的特徵關聯,但這種關聯往往受限於 RNN 的 long-term memorization。




本文提出了一種簡單有效的雙重注意力網路(Dual Attention Network, DANet),通過引入自注意力機制 (self-attention mechanism) 在特徵的空間維度和通道維度分別抓取特徵之間的全局依賴關係,增強特徵的表達能力。該網路在 Cityscapes,PASCAL Context 和 COCO-Stuff 三個公開的場景分割數據集上均取得了當前最好性能,相比 Dilated FCN 性能得到 5 個點以上的顯著提升。




論文:Dual Attention Network for Scene Segmentation









  • 論文鏈接:https://arxiv.org/pdf/1809.02983.pdf



  • 代碼鏈接:https://github.com/junfu1115/DANet




摘要:在本文中,我們基於自注意力機制捕獲豐富的語境關聯來解決場景分割問題。與以往通過多尺度特徵融合捕獲語境的研究不同,我們提出了一種雙重注意力網路(DANet)來自適應地將局部特徵與其全局依賴關係相結合。具體來說,我們在傳統的基於空洞卷積的 FCN 上添加了兩種注意力模塊,分別對空間維度和通道維度的語義相互關聯進行建模。位置注意力模塊通過所有位置的特徵加權總和選擇性地聚集每個位置的特徵。無論距離遠近,相似的特徵都會相互關聯。同時,通道注意力模塊通過整合所有通道圖中的相關特徵,有選擇地強調相互關聯的通道圖。我們將兩個注意力模塊的輸出相加,以進一步改進特徵表示,這有助於獲得更精確的分割結果。我們在三個具有挑戰性的場景分割數據集(Cityscapes、PASCAL Context 和 COCO Stuff)上取得了當前最佳分割性能。特別是,在不使用粗略數據的情況下,在 Cityscapes 測試集的平均 IoU 分數達到了 81.5 %。





方法




DANet 在特徵的空間維度和通道維度分別引入自注意力機制,即位置注意力模塊和通道注意力模塊,有效抓取特徵的全局依賴關係。系統框架圖和兩個模塊的具體結構如下:





圖 1. DANet 的網路框架圖





圖 2. A 為位置注意力結構圖, B 為通道注意力結構圖





位置注意力模塊旨在利用任意兩點特徵之間的關聯,來相互增強各自特徵的表達。具體來說,首先計算出任意兩點特徵之間關聯強度矩陣,即原始特徵 A 經過卷積降維獲得特徵 B 和特徵 C,然後改變特徵維度 B 為 ((HxW)xC") 和 C 為 (C"x(HxW)) 然後矩陣乘積獲得任意兩點特徵之間的關聯強度矩 ((HxW)x(HxW))。然後經過 softmax 操作歸一化獲得每個位置對其他位置的 attention 圖 S, 其中越相似的兩點特徵之間,其響應值越大。接著將 attention 圖中響應值作為加權對特徵 D 進行加權融合,這樣對於各個位置的點,其通過 attention 圖在全局空間中的融合相似特徵。




通道注意力模塊旨在通過建模通道之間的關聯,增強通道下特定語義響應能力。具體過程與位置注意力模塊相似,不同的是在獲得特徵注意力圖 X 時,是將任意兩個通道特徵進行維度變換和矩陣乘積,獲得任意兩個通道的關聯強度,然後同樣經過 softmax 操作獲得的通道間的 attention 圖。最後通過通道之間的 attention 圖加權進行融合,使得各個通道之間能產生全局的關聯,獲得更強的語義響應的特徵。




為了進一步獲得全局依賴關係的特徵,將兩個模塊的輸出結果進行相加融合,獲得最終的特徵用於像素點的分類。




實驗




為了評估提出的此方法,我們在 Cityscapes 數據集、PASCAL Context 數據集、COCO Stuff 數據集上做了綜合實驗。實驗結果表示,DANet 在這些數據集上取得了頂級結果。




在 Cityscaps 數據集上的結果





表 1:在 Cityscapes 驗證集上的對比實驗。PAM 表示位置注意力模塊,CAM 表示通道注意力模塊。






圖 3:在 Cityscapes 驗證集上僅使用和不使用位置注意力模塊效果對比圖。





圖 4:在 Cityscapes 驗證集上僅使用和不使用通道注意力模塊的效果對比圖。





表 2:在 Cityscape 驗證集上,不同策略之間的表現對比。DANet-101 表示 DANet 使用 BaseNet ResNet-101,DA 表示訓練數據採用多尺度增強,Multi-Grid 表示使用多重網路方法,MS 表示測試時多尺度融合。








圖 5:注意力模塊在 Cityscapes 驗證集上的可視化結果。每一行包括一張輸入圖像,兩個與輸入圖像中標記的點對應的子注意力圖(H × W)。同時,我們也給出了來自通道注意力模塊輸出的兩張通道圖,分別來自第 4 和第 11 通道。最後,也給出了對應的結果和真實值。





可以看出位置注意力模塊中,全局區域下相似語義特徵之間響應較大,而通道注意力模塊中,通道對某些語義區域有很強的響應。





表 3:在 Cityscapes 測試集上每個類別的結果。DANet 超越了已有方法,平均 IoU 達到 81.5%。





本文與當前 state-of-the-art 進行了對比,在僅使用精細數據集(fine data)作為訓練數據,resnet-101 作為基模型下,取得當前最好的分割性能。值得一提的是,目前並沒有採用在線困難樣本挖掘(OHEM, Focal Loss),更高解析度的測試方法,更強大的基模型等策略,進一步的效果提升值得期待!




在 PASCAL Context 數據集上的結果





表 4:在 PASCAL Context 測試集上的分割結果





在 COCO Stuff 數據集上的結果





表 5:在 COCO Stuff 測試集上的分割結果






中科院自動化所圖像與視頻分析團隊(IVA),隸屬於模式識別國家重點實驗室,有著深厚的學術底蘊和強大的人才支持,在 PAMI,TNNLS,TIP 等重要國際期刊和 CVPR,ICCV,ECCV 等國際會議上發表論文數百餘篇,論文具有國際影響力,其中有多篇論文被 ESI 國際性基本科學指標資料庫列為高被引論文。在 ICCV 2017 COCO-Places 場景解析競賽、京東 AI 時尚挑戰賽和阿里巴巴大規模圖像搜索大賽踢館賽等多次拔得頭籌。






本文為機器之心編譯,

轉載請聯繫本公眾號獲得授權



?------------------------------------------------


加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com


投稿或尋求報道:

content

@jiqizhixin.com


廣告 & 商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

康奈爾&英偉達提出多模態無監督圖像轉換新方法
限時免費 | 從原理到實戰,大咖帶你跨過機器學習門檻

TAG:機器之心 |