李沐等將目標檢測絕對精度提升 5%,不犧牲推理速度
選自 arXiv,作者:Zhi Zhang、Tong He、Mu Li等,機器之心編輯部。
天下沒有免費的午餐?李沐等研究者在一份名為《Bag of Freebies for Training Object Detection Neural Networks》的論文中推翻了這一定理。他們在不犧牲推理速度的前提下將目標檢測絕對精度提升了 5%。
目標檢測無疑是計算機視覺領域最前沿的應用之一,吸引了各個領域諸多研究者的目光。最前沿的檢測器,包括類似 RCNN 的單(SSD 或 YOLO)或多階神經網路都是基於圖像分類骨幹網路,如 VGG、ResNet、Inception 或 MobileNet 系列。
然而,由於模型容量和訓練複雜度相對較高,目標檢測受到的關注相對較少,從最近的訓練微調研究中獲益也較少。更糟糕的是,不同的檢測網路在沒有明確的初始化、數據預處理及優化分析的情況下就開始挑選自己的訓練流程,導致在採用最新的技術改進圖像分類任務時出現了大量的混亂。
本文的研究者致力於探索能夠在不造成額外計算成本的情況下有效提升流行的目標檢測網路性能的方法。他們首先在目標檢測上探索了一種混合技術。與《mixup: Beyond Empirical Risk Minimization》不同,本文的研究者認識到了多目標檢測任務的特殊性質有利於實現空間不變的變換,因此提出了一種用於目標檢測任務的視覺相干(visually coherent)圖像混合方法。接下來,他們探討了詳細的訓練流程,包括學習率調度、權重衰減和同步 BatchNorm。最後,他們探索了其訓練微調的有效性,方法是逐漸將這些微調疊加,以訓練單或多階段目標檢測網路。
本文的主要貢獻如下:
- 首次系統地評估了不同目標檢測流程中應用的多種訓練啟發式方法,為未來的研究提供了有價值的實踐指導。
- 提出了一種為訓練目標檢測網路而設計的視覺相干圖像混合方法,而且證明該方法可以有效提升模型的泛化能力。
- 在不修改網路架構和損失函數的情況下,在現有模型的基礎上實現了 5% 的絕對精度性能提升。而且這些提升都是「免費的午餐」,無需額外的推理成本。
- 擴展了目標檢測數據增強領域的研究深度,顯著增強了模型的泛化能力,減少了過擬合問題。這些實驗還揭示了可以在不同網路架構中一致提高目標檢測性能的良好技術。
所有相關代碼都是開源的,模型的預訓練權重可以在 GluonCV Toolkit 中獲取。
Gluon CV Toolkit 鏈接:https://github.com/dmlc/gluon-cv
圖 1:Bag of Freebies 在不犧牲推理速度的前提下,顯著提高了目標檢測器的性能。
論文:Bag of Freebies for Training Object Detection Neural Networks
論文鏈接:https://arxiv.org/pdf/1902.04103.pdf
摘要:與針對更好的圖像分類模型所取得的巨大研究成就相比,訓練目標檢測器的努力在普及性和普遍性方面都存在不足。由於網路結構和優化目標要複雜得多,針對特定檢測演算法專門設計了不同的訓練策略和流程。在本文中,我們探索了通用的微調,這些微調有助於在不犧牲推理速度的前提下將當前最佳的目標檢測模型提高到一個新水平。我們的實驗表明,這些「freebies」可以提高 5% 的絕對精度。
3. 技術細節
我們提出了一個用於目標檢測的視覺相干圖像混合方法,還介紹了為系統提升目標檢測模型性能而設計的數據處理和訓練調度器。
3.1 用於目標檢測的視覺相干圖像混合
Zhang 等人在《mixup: Beyond Empirical Risk Minimization》中引入的混合概念被證明在分類網路中減少對抗干擾方面非常成功。他們提出的混合演算法中混合比例的分布來自β分布(a = 0.2, b = 0.2)。大多數的混合幾乎都是這種β分布的雜訊。受到 Rosenfeld 等人啟發式實驗的激勵,我們關注自然共現的目標呈現,這種呈現在目標檢測中扮演重要角色。半對抗目標補丁移植方法不是傳統的攻擊方法。通過應用更複雜的空間變換,我們引入了遮擋,即在自然圖像呈現中常見的空間信號干擾。
我們的實驗中繼續增加了 mixup 中使用的混合比例,由此產生的幀中的目標更有活力,也更符合自然表現,類似於低 FPS 電影中常見的過渡幀。圖像分類和此類高比例 mixup 的視覺對比如圖 2 和圖 3 中所示。我們還使用了保留幾何形狀的對齊方式來進行圖像混合,以避免在初始步驟中扭曲圖像。我們還選擇了視覺相干性更強的β分布,a >= 1 和 b >= 1,而不是按照圖 4 所示的圖像分類中相同的做法。
我們還通過實驗利用 YOLOv3 網路在 Pascal VOC 數據集上測試了經驗混合比分布。表 1 顯示了採用檢測混合方法的實際改進情況。α和β都等於 1.5 的β分布略優於 1.0(相當於均勻分布),也優於固定均勻混合。
表 1:在 Pascal VOC 2007 測試集上用 YOLOv3 驗證多種混合方法的有效性。加權損失表示總體損失是多個比例為 0 比 1 的目標的損失之和,該比例是基於它們在原始訓練圖像中所屬的圖像混合比例算出的。
4. 實驗
為了對比所有微調方法對目標檢測結果的改進,我們分別使用 YOLOv3 和 Faster-RCNN 作為單或多階段 pipeline 的代表。為了適應大規模訓練任務,我們使用 Pascal VOC 對精調技巧做評估,使用 COCO 數據集對總體性能提升和泛化能力做驗證。
圖 7:在 COCO 2017 驗證集上利用 BoF 得到的檢測結果示例。
圖 8:YOLOv3 在 COCO 數據集 80 個類別上的 AP 分析。紅線表示使用 BoF 的性能提升,藍線表示性能下降。
圖 9:Faster-RCNN resnet 50 在 C0C0 數據集 80 個類別上的 AP 分析。紅線表示使用 BoF 的性能提升,藍線表示性能下降。
表 2:對 YOLOv3 的訓練精調,在 Pascal VOC 2007 測試集 416×416 圖像上評估。
表 3:對 Faster-RCNN 的訓練精調,在 Pascal VOC 2007 測試集 600 × 1000 圖像上評估。
表 4:利用 bag of freebies(BoF) 方法取得的進步,在 MS COCO 2017 驗證集上評估。
表 5:預訓練圖像分類和檢測網路混合方法影響的組合分析。
表 6:預訓練圖像分類和檢測網路混合方法影響的組合分析。
※隱藏著的因果關係,如何讓相同的機器學習模型變得不同
※過往Net,皆為調參?一篇BagNet論文引發學界震動
TAG:機器之心 |