復旦大學Ph.D沈志強:用於目標檢測的DSOD模型(ICCV 2017) | 分享總結
雷鋒網 AI科技評論按,目標檢測作為一個基礎的計算機視覺任務,在自動駕駛、視頻監控等領域擁有非常廣泛的應用前景。目前主流的目標檢測方法都嚴重依賴於在大規模數據集(如ImageNet)上預訓練初始模型。而在DSOD: Learning Deeply Supervised Object Detectors from Scratch這篇論文中,作者通過分析深度檢測模型從頭訓練存在的問題,提出了四個原則,他們根據這些原則構建了DSOD模型,該模型在三個標準數據集(PASCAL VOC 07, 12和COCO)上都達到了頂尖的性能。這篇論文已被ICCV2017收錄。
在近期雷鋒網 AI研習社的線上分享會上,該論文的第一作者——復旦大學Ph.D沈志強為我們帶來了對DSOD的詳細解讀,與此同時也介紹了他在CVPR 2017和ICCV 2017上的一些其它研究工作。
沈志強,復旦大學Ph.D,UIUC ECE系訪問學者,導師Thomas S. Huang教授。研究興趣包括:計算機視覺(目標檢測、視頻描述、細粒度分類等),深度學習,機器學習等。他曾在因特爾中國研究院(Intel Labs China)進行為期一年的實習研究,期間合作者包括研究院Jianguo Li博士和在讀博士生Zhuang Liu等。
分享內容:
很高興與大家分享我們的最新的工作DSOD,這篇論文已經被ICCV 2017 所收錄。
眾所周知,計算機視覺有幾個比較重要的分類,包括目標分類、定位、目標檢測、實例分割,前兩個分類是針對單個目標,後兩個分類是針對多個目標,DSOD主要是針對目標檢測。
說到目標檢測,大家可能會想到如下幾個比較有代表性的方法:R-CNN、Faster-RCNN、YOLO、SSD。下圖是關於他們的一些介紹。
ImageNet預訓練模型的限制:一是模型結構是固定的,你不可能改變它的結構,二是會有learning bias,三是會出現domain不匹配的情況。我們的思路是從頭訓練檢測器,但是我們用R-CNN和Faster-RCNN都沒能得到較好的表現。
簡單回顧下Rol pooling,如下圖所示:
它其實就是一個max pooling:
可以在下圖中看到forward和backward情況,把Rol pooling去掉這個框架就類似於YOLO和SSD。
幾個原則:一是Proposal-free。去掉Rol pooling,雖然對模型的表現影響不大,但這一點非常重要。
二是Deep Supervision。採用Dense Block,能避免梯度消失的情況。
三是Dense Prediction Structure。大大減少了模型的參數量,特徵包含更多信息。
四是Stem Block。採用stem結構,好處是能減少輸入圖片信息的丟失。
下面是DSOD整體結構:
這是我們做的一些對比實驗,可以看到增加這些結構之後性能提升的百分點:
下面是在PASCAL VOC2007上的實驗結果,可以看到Faster-RCNN和R-CNN速度很慢,YOLO和SSD的速度非常快,但是mAP不高。最下面是我們沒有用預訓練模型做的一些對比實驗,可以看到Faster-RCNN和R-CNN均以失敗告終,最後的一行的實驗加入COCO後mAP值提升,說明DSOD模型本身的泛化能力非常強。
下面是在PASCAL VOC2012上的實驗結果,可以看到DSOD有不錯的mAP值。
接下來是在COCO上面的一些結果,對比起來DSOD的也有很好的性能。
最後是一些實際的檢測結果,可以看到bounding box對目標的檢測非常貼合。
論文地址: https://arxiv.org/abs/1708.01241
代碼:https://github.com/szq0214/DSOD
模型可視化示例:http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d
最後簡單介紹下我們在CVPR 2017的相關工作Dense Video captioning,主要是做視頻描述。在視頻當中包含很多內容,而這些內容並不一致,因此視頻描述相對來說會比較困難。下圖是一些示例。
網路結構如下圖所示。具體細節大家可以參見我們的論文Weakly Supervised Dense Video Captioning,論文地址:https://arxiv.org/abs/1704.01502
接下來是我們在ICCV 2017上的工作,主要是做網路壓縮。我們用了一個衡量channel是否重要的值來訓練模型,然後剔除掉不太重要的特徵層。論文代碼我們也放在github上了。具體細節大家可以參見論文Learning Efficient Convolutional Networks through Network Slimming,論文地址:https://arxiv.org/abs/1708.06519
本次分享的視頻如下:
雷鋒網 AI科技評論整理編輯。
※湖畔大學教育長曾鳴:把「五新」放在一起,才能理解新零售的未來
※深度 | 以太坊「大都會」終極指南:現在正在發生什麼?!
※世界最大黃網要用 AI 「鑒黃」,還號稱要讓鑒黃師下崗
※中國旅遊研究院院長:攜程搭售無可厚非,最重要的是打破行政、資本的共同壟斷
※高通尋求在華禁售禁產iPhone,蘋果反擊;中國旅遊研究院院長:搭售、包價再正常不過了
TAG:雷鋒網 |