SSD用於實時物體檢測

新聞 07-24

雷鋒網 AI 研習社按：本文為雷鋒網字幕組編譯的技術博客，原標題 SSD(Single Shot Multi-Box Detection) for real time object detection，作者 Rabin Poudyal。

翻譯 | 陶玉龍校對 | 佟金廣整理 | 孔令雙

卷積神經網路在檢測圖像中的物體時優於其他神經網路結構。很快，研究人員改進了 CNN 來進行對象定位與檢測，並稱這種結構為 R-CNN（Region-CNN）。R-CNN 的輸出是具有矩形框和分類的圖像，矩形框圍繞著圖像中的對象。以下是 R-CNN 的工作步驟：

使用我們稱為選擇性搜索的演算法掃描輸入圖像，進而查找可能的對象，生成大約 2000 個候選區域，

在每個候選區域上運行 CNN，

獲取每個 CNN 的輸出並將其輸入：

SVM 來區域進行分類

線性回歸器來收緊對象的邊界框，如果對象存在

R-CNN 運用於目標檢測

雖然與傳統的 CNN 相比，R-CNN 在目標定位，檢測和分類方面都取得了很大進步，但在實現目標實時檢測方面依舊存在問題。以下是其中的一些問題：

1、訓練數據很難處理，而且耗時很長

2、訓練分為兩個階段進行（即：候選區域的選擇和分類）

3、網路在推理階段很慢（處理非訓練數據時）

為了改進 R-CNN，研究人員們相繼提出了其他演算法，如 Fast-RCNN，Faster-RCNN 等。這些演算法為目標檢測提供了更準確的結果。但它們對於實時檢測來說顯得有點慢。SSD 就在這個時候應運而生，它在準確性和計算速度方面具有良好的平衡。

SSD（單發多邊框檢測器）的含義

單發：目標定位和分類在網路的單個前向傳遞中完成：

多框：邊界框回歸的技術

檢測器：對檢測到的對象進行分類

結構

SSD 結構

SSD 的結構建立在 VGG-16 的基礎上。但在這裡對 VGG-16 進行了一些微小調整，從 Conv6 層開始，我們用一系列輔助卷積層來代替原先全連接層。因為 VGG-16 可以提供高質量的圖像分類和遷移學習來改善結果，我們將其作為 SSD 的基礎網路。通過使用輔助卷積層，我們可以提取圖像多個尺度的特徵，並逐步減小每個卷積層的尺寸。我已在下一節討論了它的工作原理。您可以看到 VGG-16 架構的以下圖像，它包含全連接層。

VGG-16 結構

工作機制

為了訓練我們的演算法，我們需要一個包含帶有對象的圖像的訓練集，這些對象必須在它們上面有邊界框。通過這種方式學習，演算法學習如何在對象上放置矩形框以及放置在何處。我們通過調參使預測出的邊界框和實際的邊界框之間的誤差最小，從而優化我們的模型以正確地檢測對象。與 CNN 不同，我們不僅預測圖像中是否存在物體，還需要預測物體在圖像中的位置。在訓練期間，演算法也要學習調整對象邊界框中的高度和寬度。