當前位置:
首頁 > 新聞 > 商湯科技正式開源 mmdetection和mmcv

商湯科技正式開源 mmdetection和mmcv

據悉,mmdetection 檢測庫是基於商湯在 COCO 比賽(Detection 2018 winner)時的 codebase 重構,這個開源庫提供了已公開發表的多種視覺檢測核心模塊,通過這些模塊的組合,可以迅速搭建出各種著名的檢測框架。據該開源庫作者之一、香港中文大學陳愷介紹,這一版本中實現了 RPN,Fast R-CNN,Faster R-CNN,Mask R-CNN,近期還計劃釋放 RetinaNet 和 Cascade R-CNN。

mmcv 是一個基礎庫,主要分為兩個部分,一部分是和 deep learning framework 無關的一些工具函數,比如 IO/Image/Video 相關的一些操作,另一部分是為 PyTorch 寫的一套訓練工具,可以大大減少用戶需要寫的代碼量,同時讓整個流程的定製變得容易。

在該庫開源之後,知乎上有人提出問題:

陳愷也第一時間進行解答,他表示,mmdetection 和 Detectron 主要有如下三點差異:

performance 稍高

訓練速度稍快

所需顯存稍小

他進一步解釋道,在 performance 上 ,由於 PyTorch 官方 model zoo 里的 ResNet 結構和 Detectron 所用的 ResNet 有細微差別(mmdetection 中可以通過 backbone 的 style 參數指定),導致模型收斂速度不一樣。他們用兩種結構都進行了實驗,和 Detectron 使用相同的 pretrain model 的情況下,performance 比 Detectron 稍高,在使用 PyTorch 官方的 model 進行訓練時, 1x 的 lr schedule 下比 Detectron 的 performance 略低,但 2x 的情況下更高。

速度方面 Mask R-CNN 的差異比較大,其餘框架的差異很小。採用相同的 setting,Detectron 每個 iteration 需要 0.89s,而 mmdetection 只需要 0.69s。Fast R-CNN 比較例外,比 Detectron 的速度稍慢。另外,他們在伺服器上跑 Detectron 會比官方 report 的速度慢 20% 左右,他提出猜測,可能是 FB 的 Big Basin 伺服器性能比他們好。

在顯存方面這一檢測庫的優勢比較明顯,會小 30% 左右。但他表示,這和框架有關,不完全是 codebase 優化的功勞。一個讓他們比較意外的結果是,現在的 codebase 版本跑 ResNet-50 的 Mask R-CNN,每張卡(12 G)可以放 4 張圖,顯存消耗比他們在 COCO 比賽時小了不少。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

銀保監會:防範以「虛擬貨幣」「區塊鏈」名義進行非法集資
iPhone XS 陷「充電門」:待機狀態拒絕充電

TAG:雷鋒網 |