當前位置:
首頁 > 最新 > 結合單階段和兩階段目標檢測的優勢:基於單次精化神經網路的目標檢測方法

結合單階段和兩階段目標檢測的優勢:基於單次精化神經網路的目標檢測方法

【導讀】近日,針對目標檢測中單階段和兩階段方法分別存在準確度和速度瓶頸的問題,來自中科院自動化所、中國科學院大學和GE Global Research的學者發表論文提出基於單次精化神經網路的目標檢測方法。其方法包括兩個互相連接的模塊,即錨窗精化模塊和目標檢測模塊。錨窗精化模塊旨在過濾不好的目標候選框並粗略的調整錨框位置。目標檢測模塊通過一個轉移連接使用錨窗精化模塊中的特徵進行最後的檢測。在PASCAL VOC 2007,PASCAL VOC 2012和MS COCO上進行的大量實驗表明,本文方法能夠高效地達到最先進的檢測精度。代碼已開源。

論文:Single-Shot Refinement Neural Network for Object Detection

摘要:

對於目標檢測,兩階段的方法(例如Faster R-CNN)已達到最高準確度,而單階段方法(例如SSD)具有高效率的優點。為了繼承兩者的優點,克服它們的缺點,本文提出了一種稱為RefineDet的新型單次檢測器,其精度比兩個階段的方法高,並且保持了單階段方法的高效率。 RefineDet由兩個相互連接的模塊組成,即錨框精化模塊和目標檢測模塊。具體而言,前者旨在

(1)濾除不合適的錨框以減少分類器的搜索空間

(2)粗略地調整錨框的位置和大小為隨後的回歸器提供更好的初始化。

後一模塊將精化的錨框作為前者的輸入,進一步改進回歸和預測多類標籤。同時,作者設計了一個轉移連接塊來轉移錨框精化模塊中的特徵,以預測目標檢測模塊中物體的位置、大小和類別標籤。 多任務損失函數使本文能夠以一種端到端的方式來訓練整個網路。 在PASCAL VOC 2007,PASCAL VOC 2012和MS COCO上進行的大量實驗表明,RefineDet能夠高效地達到最先進的檢測精度。代碼可在https://github.com/sfzhang15/RefineDet 獲取。

引言:

近年來,隨著深度神經網路(DNN)的發展,目標檢測已經取得了顯著的進展。 現有的DNN檢測器可以分為兩類:

(1)兩階段方法

(2)單階段方法

在兩階段方法中,首先生成一組稀疏的候選目標框,然後對它們進行進一步的分類和回歸。兩個階段的方法已經在幾個具有挑戰性的基準數據集上取得了最佳表現,包括PASCAL VOC和MS COCO等。

單階段方法通過對位置,尺度和長寬比進行規則和密集採樣來檢測目標。這樣做的主要優點是計算效率高。但是,它的檢測精度通常落後於兩階段的方法,其中一個主要原因是由於類別失衡問題。

單階段方法中的一些最近的方法旨在解決類別不平衡問題,以提高檢測精度。 Kong等人使用卷積特徵的目標性先驗約束來顯著減少目標的搜索空間。Lin等人通過重塑標準的交叉熵損失來解決類別失衡的問題,從而把訓練集中在一些稀疏的例子上,降低分配給容易分類樣本的損失。Zhang等人設計了一個max-out標籤機制,以減少類別不平衡造成的錯誤判斷.

圖1:RefineDet的體系結構。 為了更好的可視化,只顯示用於檢測的圖層。 青瓷平行四邊形表示與不同的特徵層關聯的精緻的錨框。 星星代表中心定義的錨框,這是不經常顯示在圖像上。

在作者看來,當前最先進的兩階段方法,比如FasterR-CNN,R-FCN 和FPN ,比單階段方法有三個優點,具體如下:

(1)採用基於採樣啟發式的兩階段結構處理類別失衡;

(2)使用兩步級聯來回歸目標框參數;

(3)使用兩階段特徵來描述目標。

在這項工作中,本文設計了一個新穎的目標檢測框架,稱為RefineDet,繼承了兩種方法(即單階段和兩階段方法)的優點並克服了其缺點。 它通過使用兩個互連模塊(見圖1),即錨框細化模塊(ARM)和目標檢測模塊(ODM),改進了單階段方法的架構。具體而言,ARM被設計為(1)識別並移除負錨框以減小分類器的搜索空間,以及(2)粗略地調整位置和錨框的尺寸以為隨後的回歸器提供更好的初始化。 ODM以精化後的錨框作為輸入,進一步提高回歸和預測多類標籤。 如圖1所示,這兩個互連模塊模仿兩級結構,從而繼承了上述三個優點,以高效率產生精確的檢測結果。另外,本文設計了一個傳輸連接模塊(TCB)來傳輸ARM中的特徵用以預測ODM中目標的位置、大小和類別標籤。 多任務損失函數使本文能夠以一種端到端的方式來訓練整個網路。

在PASCAL VOC 2007,PASCAL VOC 2012和MS COCO基準數據集的大量實驗表明,RefineDet優於最先進的方法。具體來說,在VGG-16網路上,VOC 2007和2012的mAP達到85.8%和86.8%。 同時,它勝過了之前公布的單階段和兩階段方法的最好結果,採用ResNet-101在MS COCO test-dev上實現41.8%AP的。 另外,RefineDet的時間效率高,當輸入尺寸為320×320和512×512時,在NVIDIA Titan X GPU上的運行速度為40.2 FPS和24.1 FPS。

這項工作的主要貢獻總結如下。

(1)引入了一個由兩個互連模塊組成的新型單階段目標檢測框架,即ARM和ODM。 這導致性能比兩階段方法更好,同時保持單階段方法的高效率。

(2)為了保證有效性,作者設計了TCB來傳遞ARM中的特徵,以處理更具挑戰性的任務,即在ODM中預測準確的目標位置,尺度和類別標籤。

(3)RefineDet達到最新的通用目標檢測成果(即PASCAL VOC 2007 ,PASCAL VOC 2012 和MS COCO )。

模型簡介:

RefineNet的損失函數分為兩個部分,即ARM部分的loss和ODM部分的loss。對於ARM,作者對每個錨框賦予一個二值類別標籤(是否是物體)並回歸其位置得到精化的錨框。在此之後,負置信度小於一定閾值的錨框送到ODM來進一步預測類別和準確的目標位置和尺度。根據上述定義,損失函數如下:

這裡p,x,c,t分別表示第i個錨框的物體性概率、精化後的坐標、預測的類別標籤和最終預測的坐標。

實驗結果

表1是在 PASCAL VOC dataset上檢測結果

表2是在MS COCO test-dev set的檢測結果。

表3是不同設計的效果

表4為在PASCAL VOC dataset的檢測結果。

圖3為RefineDet512在PASCAL VOC 2007 test set的結果。

圖4為RefineDet512在PASCAL VOC 2012 test set的結果。

圖5為RefineDet512在MS COCO test-dev set的結果。

結論:

在本文中,作者提出了一個基於單階段神經網路的檢測器,它由兩個相互連接的模塊組成,即ARM和ODM。ARM旨在過濾出負錨框以減少分類器的搜索空間,並且粗略地調整錨框的位置和大小,以便為後續的回歸器提供更好的初始化,而ODM則將精細的錨框作為的輸入來回歸準確的目標位置和尺度,並預測相應的多類標籤。整個網路都是基於多任務損失進行端到端的訓練。作者對PASCAL VOC 2007,PASCAL VOC 2012和MS COCO數據集進行了多次實驗,證明了RefineDet能夠高效地達到最先進的檢測精度。未來,作者計劃使用RefineDet來檢測其他特定類型的目標,例如行人,車輛和面部,並在RefineDet中引入注意機制進一步提高性能。

參考鏈接:

https://arxiv.org/abs/1711.06897

https://github.com/sfzhang15/RefineDet

-END-

人工智慧領域主題知識資料查看獲取【專知薈萃】人工智慧領域26個主題知識資料全集(入門/進階/論文/綜述/視頻/專家等)


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 專知 的精彩文章:

TAG:專知 |