當前位置：

首頁 > 新聞 > 復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

新聞 10-15

雷鋒網 AI科技評論按，目標檢測作為一個基礎的計算機視覺任務，在自動駕駛、視頻監控等領域擁有非常廣泛的應用前景。目前主流的目標檢測方法都嚴重依賴於在大規模數據集（如ImageNet）上預訓練初始模型。而在DSOD: Learning Deeply Supervised Object Detectors from Scratch這篇論文中，作者通過分析深度檢測模型從頭訓練存在的問題，提出了四個原則，他們根據這些原則構建了DSOD模型，該模型在三個標準數據集（PASCAL VOC 07, 12和COCO）上都達到了頂尖的性能。這篇論文已被ICCV2017收錄。

在近期雷鋒網 AI研習社的線上分享會上，該論文的第一作者——復旦大學Ph.D沈志強為我們帶來了對DSOD的詳細解讀，與此同時也介紹了他在CVPR 2017和ICCV 2017上的一些其它研究工作。

沈志強，復旦大學Ph.D，UIUC ECE系訪問學者，導師Thomas S. Huang教授。研究興趣包括：計算機視覺（目標檢測、視頻描述、細粒度分類等），深度學習，機器學習等。他曾在因特爾中國研究院（Intel Labs China）進行為期一年的實習研究，期間合作者包括研究院Jianguo Li博士和在讀博士生Zhuang Liu等。

分享內容：

很高興與大家分享我們的最新的工作DSOD，這篇論文已經被ICCV 2017 所收錄。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

眾所周知，計算機視覺有幾個比較重要的分類，包括目標分類、定位、目標檢測、實例分割，前兩個分類是針對單個目標，後兩個分類是針對多個目標，DSOD主要是針對目標檢測。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

說到目標檢測，大家可能會想到如下幾個比較有代表性的方法：R-CNN、Faster-RCNN、YOLO、SSD。下圖是關於他們的一些介紹。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

ImageNet預訓練模型的限制：一是模型結構是固定的，你不可能改變它的結構，二是會有learning bias，三是會出現domain不匹配的情況。我們的思路是從頭訓練檢測器，但是我們用R-CNN和Faster-RCNN都沒能得到較好的表現。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

簡單回顧下Rol pooling，如下圖所示：

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

它其實就是一個max pooling：

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

可以在下圖中看到forward和backward情況，把Rol pooling去掉這個框架就類似於YOLO和SSD。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

幾個原則：一是Proposal-free。去掉Rol pooling，雖然對模型的表現影響不大，但這一點非常重要。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

二是Deep Supervision。採用Dense Block，能避免梯度消失的情況。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

三是Dense Prediction Structure。大大減少了模型的參數量，特徵包含更多信息。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

四是Stem Block。採用stem結構，好處是能減少輸入圖片信息的丟失。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

下面是DSOD整體結構：

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

這是我們做的一些對比實驗，可以看到增加這些結構之後性能提升的百分點：

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

下面是在PASCAL VOC2007上的實驗結果，可以看到Faster-RCNN和R-CNN速度很慢，YOLO和SSD的速度非常快，但是mAP不高。最下面是我們沒有用預訓練模型做的一些對比實驗，可以看到Faster-RCNN和R-CNN均以失敗告終，最後的一行的實驗加入COCO後mAP值提升，說明DSOD模型本身的泛化能力非常強。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

下面是在PASCAL VOC2012上的實驗結果，可以看到DSOD有不錯的mAP值。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

接下來是在COCO上面的一些結果，對比起來DSOD的也有很好的性能。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

最後是一些實際的檢測結果，可以看到bounding box對目標的檢測非常貼合。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

論文地址： https://arxiv.org/abs/1708.01241

代碼：https://github.com/szq0214/DSOD

模型可視化示例：http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

最後簡單介紹下我們在CVPR 2017的相關工作Dense Video captioning，主要是做視頻描述。在視頻當中包含很多內容，而這些內容並不一致，因此視頻描述相對來說會比較困難。下圖是一些示例。

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

網路結構如下圖所示。具體細節大家可以參見我們的論文Weakly Supervised Dense Video Captioning，論文地址：https://arxiv.org/abs/1704.01502

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

接下來是我們在ICCV 2017上的工作，主要是做網路壓縮。我們用了一個衡量channel是否重要的值來訓練模型，然後剔除掉不太重要的特徵層。論文代碼我們也放在github上了。具體細節大家可以參見論文Learning Efficient Convolutional Networks through Network Slimming，論文地址：https://arxiv.org/abs/1708.06519

復旦大學Ph.D沈志強：用於目標檢測的DSOD模型（ICCV 2017） | 分享總結

本次分享的視頻如下：

雷鋒網 AI科技評論整理編輯。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※湖畔大學教育長曾鳴：把「五新」放在一起，才能理解新零售的未來
※深度 | 以太坊「大都會」終極指南：現在正在發生什麼？！
※世界最大黃網要用 AI 「鑒黃」，還號稱要讓鑒黃師下崗
※中國旅遊研究院院長：攜程搭售無可厚非，最重要的是打破行政、資本的共同壟斷
※高通尋求在華禁售禁產iPhone，蘋果反擊；中國旅遊研究院院長：搭售、包價再正常不過了

TAG:雷鋒網 |