高效率的目標檢測網路RON
目前基於深度神經網路的圖像物體檢測框架主要分為兩個流派:基於區域的方法(Region-based)和不基於區域(Region-free)的方法。兩種方法各有優勢和劣勢,那麼能否開發一個結合兩種方法的優勢並消除其主要缺點的框架?清華大學孔濤團隊等在CVPR 2017上發表了題為「RON: Reverse Connection with Objectness Prior Networksfor Object Detection 」的論文,研究設計了RON圖像物體檢測網路框架,利用反向連接、目標先驗等策略將基於區域法和不基於區域法融合起來,實現了快速高效的目標檢測。
創新點
主流方法中,基於區域的方法可以剔除圖片中的大多數背景,因此目標檢測的搜索空間很少,但網路訓練時間較長。代表性框架為Fast R-CNN(見推送:用目標檢測與語義分割聯合行人檢測)。
不基於區域的方法使用全卷積網路(FCN),從像素一直處理到候選框坐標,因此計算效率高,但需要大量正負樣本做訓練。代表性框架為YOLO(見推送:快速圖像多目標檢測演算法——YOLO9000)。
為了將這兩種方法的優勢相結合,作者在兩個地方做出了創新:
一、多尺度對象定位(Multi-scale Object Localization)
由於待檢測的物體尺度各異且可能出現在圖像的各個位置,因此需要考慮成千上萬個具有不同位置/尺度/方位的區域,這就是圖像檢測中的多尺度對象定位。不基於區域的方法將所有的對象都在固定的特徵圖下進行檢測,但因此其針對特定尺度對象檢測的優化變得很困難。
為此作者提出反向連接(Reverse Connection),不同尺度的物體將在其相應的網路尺度上被檢測到,且更容易優化。
圖1 作者提出的反向連接結構
反向連接讓下一層通過反卷積和前一層的卷積結果建立起聯繫。相比於只使用一層固定的特徵圖進行目標檢測,反向連接允許使用多個特徵圖表達,更有效地檢測多種不同尺度下的目標。更重要的是,這種反向連接是可以更新參數的,前一層可以很有效地豐富語義信息。
二、負空間挖掘(Negative Space Mining)
由於待檢測目標和非檢測目標的樣本之間的比例大多嚴重不平衡,所以需要對樣本對象中的非檢測目標進行有效剔除,這就是負空間挖掘。
基於區域的方法為此引入了區域建議網路(RPN,Region Proposal Networks)來處理這個不平衡的問題。但多出的網路帶來了不小的重複計算,因此檢測效率不高。
為此作者提出了目標先驗(Objectness Prior)。通過增加目標先驗來引導搜索以減少搜索空間。
圖2 作者提出的目標先驗
通過計算生成目標先驗圖,其通道為10(2個長寬比,5個不同尺度)。這樣就只需要在特徵圖上判斷有沒有相應的目標,大幅度減少了搜索。如圖2計算得到的目標先驗圖分別為a-d,其中a,b分別代表兩種不同尺度的沙發,c代表棕色狗,d代表斑點狗。可以發現通過目標先驗特徵圖可以很明顯地反映檢測區域有沒有對應目標。
而最重要的是,通過在隨後的訓練中設定閾值就可以大大減少訓練樣本的搜索空間,尤其可以減少可以負樣本。
作者在多尺度對象定位和負空間挖掘兩個方面分別提出了反向連接(Reverse Connection)和目標先驗(Objectness Prior)兩種方法,因此作者將該網路稱為RON(Reverse Connection withObjectness PriorNetwork)
網路訓練與檢測效果
作者先進行目標先驗的訓練,選擇正負樣本比例為1:3。隨後在整體目標檢測訓練時候,首先根據設定的目標先驗圖閾值剔除部分樣本,隨後在剩下的樣本中選擇所有的正樣本,負樣本隨機採樣,同時保證1:3的比例。為了避免對特定目標的尺寸過擬合,樣本做了水平翻轉和多尺度變換兩項數據增強策略。
作者在PASCAL VOC 2007,PASCAL VOC 2012標準數據集中進行測試。總體來看,當訓練樣本的數據集越大,難度越大時,作者的RON網路就越有更優異的表現。不僅如此,作者的RON網路在相同數量數據集的測試中,比 Faster R-CNN 快 3 倍。
編者認為
編者認為,作者設計的RON網路兼具了基於區域法的高搜索效率優勢和不基於區域法的高檢測效率優勢,而城市植被在街景圖像中呈現的尺度各異,這使得RON網路非常適合用於提取街景圖像中的城市植被進行城市植被的量化研究。
此外對於RON網路本身,作者在目標先驗策略中所計算的目標先驗圖,其思想接近於利用數個分類器對物體尺度進行分類,但由於作者所進行的尺度分類不是自適應的,這就產生了如圖2中同一個沙發被劃分到了a和b兩個尺度中,產生了重複計算。因此未來可以進一步設計自適應的圖像尺度分類器,這樣就可以減少在這一階段可能產生的重複計算,從而進一步提升圖像物體檢測的效率。