谷歌發布MobileNetV2：推動下一代移動計算機視覺網路

新聞 04-04

來源：research.googleblog.com

作者：Mark Sandler and Andrew Howard

編譯：文強

【新智元導讀】谷歌今天發布MobileNet重大更新，推出MobileNetV2，在結構上使用depthwise可分離卷積為基礎，在層與層之間增加了線性的bottleneck，並且bottleneck之間也增加了殘差連接，因此速度更快，精度更高，更適合設備上處理。

去年我們推出了MobileNetV1，這是一系列專為移動設備設計的通用計算機視覺神經網路，支持分類、檢測等功能。在個人移動設備上運行深度網路的能力可改善用戶體驗，隨時隨地訪問，並為安全性、隱私和能耗提供額外優勢。隨著新應用的出現，用戶可以與真實世界進行實時交互，因此對更高效的神經網路也提出了需求。

今天，我們很高興地宣布推出支持下一代移動視覺應用的MobileNetV2。相比MobileNetV1，MobileNetV2有了一些重大改進，推進了分類、對象檢測和語義分割等移動視覺識別技術的最好性能。MobileNetV2作為TensorFlow-Slim圖像分類庫的一部分發布，你也可以在下載Jupyter筆記本，或者直接在Colaboratory環境中探索MobileNetV2。

MobileNetV2也併入谷歌最新發布的TensorFlow Hub當中作為TF-Hub上的模塊使用，預訓練好的checkpoints可以在Github上找到。

MobileNetV2基於MobileNetV1的思想，使用在深度上可分離的卷積（depthwise separable convolution）作為構建模塊。不過，V2引入了兩種新的架構特性：1）在層與層之間的線性的bottleneck，以及2）bottleneck之間的shortcut鏈路。基本結構如下所示。

MobileNetV2的架構：藍色模塊代表深度可分離卷積層

MobileNetV2的設計直覺是，bottleneck對模型的中間輸入和輸出進行編碼，而內部的層則封裝了模型從低級概念（比如像素）轉換為更高級的描述（比如圖像類別）的能力。最後，與傳統的殘差連接一樣，shortcut可以讓訓練速度更快，準確性更高。

更多技術細節參見論文「MobileNet V2：Inverted Residuals and Linear Bottlenecks」。

與第一代MobileNets相比性能如何？

總體而言，MobileNetV2模型在精度相同的情況下，整體速度都更高。特別是，V2使用的操作次數減少了2倍，參數減少了30％，在Google Pixel手機上的速度比MobileNetV1模型快30％至40％，同時實現了更高的準確性。

MobileNetV2作為物體檢測和分割的特徵提取器是非常有效的。例如，當與SSDLite[2]配對進行檢測時，新模型在取得相同精度的情況下，要比MobileNetV1快大約35％。我們已經在Tensorflow Object Detection API下開源了這一模型[4]。

為了實現設備上語義分割（on-device semantic segmentation），我們使用MobileNetV2作為語義分割模型DeepLabv3簡化版的特徵提取器[3]。在語義分割基準PASCAL VOC 2012中，這一模型獲得了與使用MobileNetV1作為特徵提取器相似的性能，但參數要少5.3倍，MIultiply-Adds操作次數減少了5.2倍。

MobileNetV2提供了一個非常高效的面向移動的模型，可以用作許多視覺識別任務的基礎。希望通過與更廣泛的學術和開源社區分享這一技術，我們能夠幫助推動研究和應用程序的開發。

致謝

感謝核心貢獻者朱夢龍, Andrey Zhmoginov 和Liang-Chieh Chen。特別感謝Bo Chen, Dmitry Kalenichenko, Skirmantas Kligys, Mathew Tang, Weijun Wang, Benoit Jacob, George Papandreou, Zhichao Lu, Vivek Rathod, Jonathan Huang, Yukun Zhu，以及Hartwig Adam。

論文MoblieNetV2：反向殘差和線性瓶頸

摘要

在本文中，我們描述了一種新的移動架構MobileNetV2，改善了移動模型在很多任務和基準中的state of the art，並且在很多不同尺寸的移動模型上做到了這一點。我們描述了將這些移動模型應用在我們稱之為SSDLite的新框架中進行對象檢測的有效方法。此外，我們還演示了如何通過我們稱為Mobile DeepLabv3的簡化形式DeepLabv3來構建移動語義分割模型。

MobileNetV2架構基於反向殘差結構，其中殘差塊的輸入和輸出是薄的瓶頸層，與傳統殘差模型相反——傳統殘差模型在輸入中使用擴展表示（expanded representations），而MobileNetV2使用輕量級深度卷積過濾中間擴展層中的特徵。此外，我們發現為了維持表示的能力（representational power），去除很窄的層中的非線性非常重要。我們證明這可以提高性能，並提供得出這一設計的直覺。最後，我們的方法能將輸入/輸出域與轉換的表達性分開，為進一步分析提供了便利的框架。我們衡量了新模型在ImageNet分類，COCO物體檢測，VOC圖像分割方面的性能。我們評估了精度和MAdd操作次數之間的trade-off，以及參數的數量。

論文專門對比了幾種移動視覺模型的架構：NasNet是谷歌使用神經網路自動搜索得到的，ShuffleNet則是去年孫劍團隊提出的，基於分組逐點卷積和通道重排操作，優於谷歌MobileNet

了解更多：

MobileNetV2論文：https://arxiv.org/pdf/1801.04381.pdf

MobileNet Github：https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet

谷歌博客：https://research.googleblog.com/2018/04/mobilenetv2-next-generation-of-on.html

ShuffleNet介紹：孫劍團隊提出移動端神經網路ShuffleNet，優於谷歌MobileNet

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※剛剛，特斯拉又出致死車禍：Model X與馬自達和奧迪相撞後起火，前方全部摧毀
※【AI+區塊鏈】AI比人類管理區塊鏈更有效，不用盯「三點鐘群」

TAG:新智元 |