當前位置:
首頁 > 新聞 > 復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

雷鋒網 AI科技評論按,目標檢測作為一個基礎的計算機視覺任務,在自動駕駛、視頻監控等領域擁有非常廣泛的應用前景。目前主流的目標檢測方法都嚴重依賴於在大規模數據集(如ImageNet)上預訓練初始模型。而在DSOD: Learning Deeply Supervised Object Detectors from Scratch這篇論文中,作者通過分析深度檢測模型從頭訓練存在的問題,提出了四個原則,他們根據這些原則構建了DSOD模型,該模型在三個標準數據集(PASCAL VOC 07, 12和COCO)上都達到了頂尖的性能。這篇論文已被ICCV2017收錄。

在近期雷鋒網 AI研習社的線上分享會上,該論文的第一作者——復旦大學Ph.D沈志強為我們帶來了對DSOD的詳細解讀,與此同時也介紹了他在CVPR 2017和ICCV 2017上的一些其它研究工作。

沈志強,復旦大學Ph.D,UIUC ECE系訪問學者,導師Thomas S. Huang教授。研究興趣包括:計算機視覺(目標檢測、視頻描述、細粒度分類等),深度學習,機器學習等。他曾在因特爾中國研究院(Intel Labs China)進行為期一年的實習研究,期間合作者包括研究院Jianguo Li博士和在讀博士生Zhuang Liu等。

分享內容:

很高興與大家分享我們的最新的工作DSOD,這篇論文已經被ICCV 2017 所收錄。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

眾所周知,計算機視覺有幾個比較重要的分類,包括目標分類、定位、目標檢測、實例分割,前兩個分類是針對單個目標,後兩個分類是針對多個目標,DSOD主要是針對目標檢測。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

說到目標檢測,大家可能會想到如下幾個比較有代表性的方法:R-CNN、Faster-RCNN、YOLO、SSD。下圖是關於他們的一些介紹。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

ImageNet預訓練模型的限制:一是模型結構是固定的,你不可能改變它的結構,二是會有learning bias,三是會出現domain不匹配的情況。我們的思路是從頭訓練檢測器,但是我們用R-CNN和Faster-RCNN都沒能得到較好的表現。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

簡單回顧下Rol pooling,如下圖所示:

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

它其實就是一個max pooling:

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

可以在下圖中看到forward和backward情況,把Rol pooling去掉這個框架就類似於YOLO和SSD。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

幾個原則:一是Proposal-free。去掉Rol pooling,雖然對模型的表現影響不大,但這一點非常重要。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

二是Deep Supervision。採用Dense Block,能避免梯度消失的情況。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

三是Dense Prediction Structure。大大減少了模型的參數量,特徵包含更多信息。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

四是Stem Block。採用stem結構,好處是能減少輸入圖片信息的丟失。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

下面是DSOD整體結構:

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

這是我們做的一些對比實驗,可以看到增加這些結構之後性能提升的百分點:

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

下面是在PASCAL VOC2007上的實驗結果,可以看到Faster-RCNN和R-CNN速度很慢,YOLO和SSD的速度非常快,但是mAP不高。最下面是我們沒有用預訓練模型做的一些對比實驗,可以看到Faster-RCNN和R-CNN均以失敗告終,最後的一行的實驗加入COCO後mAP值提升,說明DSOD模型本身的泛化能力非常強。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

下面是在PASCAL VOC2012上的實驗結果,可以看到DSOD有不錯的mAP值。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

接下來是在COCO上面的一些結果,對比起來DSOD的也有很好的性能。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

最後是一些實際的檢測結果,可以看到bounding box對目標的檢測非常貼合。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

論文地址: https://arxiv.org/abs/1708.01241

代碼:https://github.com/szq0214/DSOD

模型可視化示例:http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

最後簡單介紹下我們在CVPR 2017的相關工作Dense Video captioning,主要是做視頻描述。在視頻當中包含很多內容,而這些內容並不一致,因此視頻描述相對來說會比較困難。下圖是一些示例。

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

網路結構如下圖所示。具體細節大家可以參見我們的論文Weakly Supervised Dense Video Captioning,論文地址:https://arxiv.org/abs/1704.01502

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

接下來是我們在ICCV 2017上的工作,主要是做網路壓縮。我們用了一個衡量channel是否重要的值來訓練模型,然後剔除掉不太重要的特徵層。論文代碼我們也放在github上了。具體細節大家可以參見論文Learning Efficient Convolutional Networks through Network Slimming,論文地址:https://arxiv.org/abs/1708.06519

復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結

本次分享的視頻如下:

雷鋒網 AI科技評論整理編輯。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

湖畔大學教育長曾鳴:把「五新」放在一起,才能理解新零售的未來
深度 | 以太坊「大都會」終極指南:現在正在發生什麼?!
世界最大黃網要用 AI 「鑒黃」,還號稱要讓鑒黃師下崗
中國旅遊研究院院長:攜程搭售無可厚非,最重要的是打破行政、資本的共同壟斷
高通尋求在華禁售禁產iPhone,蘋果反擊;中國旅遊研究院院長:搭售、包價再正常不過了

TAG:雷鋒網 |