當前位置:
首頁 > 新聞 > 谷歌發布MobileNetV2:推動下一代移動計算機視覺網路

谷歌發布MobileNetV2:推動下一代移動計算機視覺網路

來源:research.googleblog.com

作者:Mark Sandler and Andrew Howard

編譯:文強

【新智元導讀】谷歌今天發布MobileNet重大更新,推出MobileNetV2,在結構上使用depthwise可分離卷積為基礎,在層與層之間增加了線性的bottleneck,並且bottleneck之間也增加了殘差連接,因此速度更快,精度更高,更適合設備上處理。

去年我們推出了MobileNetV1,這是一系列專為移動設備設計的通用計算機視覺神經網路,支持分類、檢測等功能。在個人移動設備上運行深度網路的能力可改善用戶體驗,隨時隨地訪問,並為安全性、隱私和能耗提供額外優勢。隨著新應用的出現,用戶可以與真實世界進行實時交互,因此對更高效的神經網路也提出了需求。

今天,我們很高興地宣布推出支持下一代移動視覺應用的MobileNetV2。相比MobileNetV1,MobileNetV2有了一些重大改進,推進了分類、對象檢測和語義分割等移動視覺識別技術的最好性能。MobileNetV2作為TensorFlow-Slim圖像分類庫的一部分發布,你也可以在下載Jupyter筆記本,或者直接在Colaboratory環境中探索MobileNetV2。

MobileNetV2也併入谷歌最新發布的TensorFlow Hub當中作為TF-Hub上的模塊使用,預訓練好的checkpoints可以在Github上找到。

MobileNetV2基於MobileNetV1的思想,使用在深度上可分離的卷積(depthwise separable convolution)作為構建模塊。不過,V2引入了兩種新的架構特性:1)在層與層之間的線性的bottleneck,以及2)bottleneck之間的shortcut鏈路。基本結構如下所示。

MobileNetV2的架構:藍色模塊代表深度可分離卷積層

MobileNetV2的設計直覺是,bottleneck對模型的中間輸入和輸出進行編碼,而內部的層則封裝了模型從低級概念(比如像素)轉換為更高級的描述(比如圖像類別)的能力。最後,與傳統的殘差連接一樣,shortcut可以讓訓練速度更快,準確性更高。

更多技術細節參見論文「MobileNet V2:Inverted Residuals and Linear Bottlenecks」。


與第一代MobileNets相比性能如何?

總體而言,MobileNetV2模型在精度相同的情況下,整體速度都更高。特別是,V2使用的操作次數減少了2倍,參數減少了30%,在Google Pixel手機上的速度比MobileNetV1模型快30%至40%,同時實現了更高的準確性。

MobileNetV2作為物體檢測和分割的特徵提取器是非常有效的。例如,當與SSDLite[2]配對進行檢測時,新模型在取得相同精度的情況下,要比MobileNetV1快大約35%。我們已經在Tensorflow Object Detection API下開源了這一模型[4]。

為了實現設備上語義分割(on-device semantic segmentation),我們使用MobileNetV2作為語義分割模型DeepLabv3簡化版的特徵提取器[3]。在語義分割基準PASCAL VOC 2012中,這一模型獲得了與使用MobileNetV1作為特徵提取器相似的性能,但參數要少5.3倍,MIultiply-Adds操作次數減少了5.2倍。

MobileNetV2提供了一個非常高效的面向移動的模型,可以用作許多視覺識別任務的基礎。希望通過與更廣泛的學術和開源社區分享這一技術,我們能夠幫助推動研究和應用程序的開發。

致謝

感謝核心貢獻者朱夢龍, Andrey Zhmoginov 和Liang-Chieh Chen。特別感謝Bo Chen, Dmitry Kalenichenko, Skirmantas Kligys, Mathew Tang, Weijun Wang, Benoit Jacob, George Papandreou, Zhichao Lu, Vivek Rathod, Jonathan Huang, Yukun Zhu,以及Hartwig Adam。


論文MoblieNetV2:反向殘差和線性瓶頸

摘要

在本文中,我們描述了一種新的移動架構MobileNetV2,改善了移動模型在很多任務和基準中的state of the art,並且在很多不同尺寸的移動模型上做到了這一點。我們描述了將這些移動模型應用在我們稱之為SSDLite的新框架中進行對象檢測的有效方法。此外,我們還演示了如何通過我們稱為Mobile DeepLabv3的簡化形式DeepLabv3來構建移動語義分割模型。

MobileNetV2架構基於反向殘差結構,其中殘差塊的輸入和輸出是薄的瓶頸層,與傳統殘差模型相反——傳統殘差模型在輸入中使用擴展表示(expanded representations),而MobileNetV2使用輕量級深度卷積過濾中間擴展層中的特徵。此外,我們發現為了維持表示的能力(representational power),去除很窄的層中的非線性非常重要。我們證明這可以提高性能,並提供得出這一設計的直覺。最後,我們的方法能將輸入/輸出域與轉換的表達性分開,為進一步分析提供了便利的框架。我們衡量了新模型在ImageNet分類,COCO物體檢測,VOC圖像分割方面的性能。我們評估了精度和MAdd操作次數之間的trade-off,以及參數的數量。

論文專門對比了幾種移動視覺模型的架構:NasNet是谷歌使用神經網路自動搜索得到的,ShuffleNet則是去年孫劍團隊提出的,基於分組逐點卷積和通道重排操作,優於谷歌MobileNet

了解更多:

MobileNetV2論文:https://arxiv.org/pdf/1801.04381.pdf

MobileNet Github:https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet

谷歌博客:https://research.googleblog.com/2018/04/mobilenetv2-next-generation-of-on.html

ShuffleNet介紹:孫劍團隊提出移動端神經網路ShuffleNet,優於谷歌MobileNet


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

剛剛,特斯拉又出致死車禍:Model X與馬自達和奧迪相撞後起火,前方全部摧毀
【AI+區塊鏈】AI比人類管理區塊鏈更有效,不用盯「三點鐘群」

TAG:新智元 |