FB「1小時訓練ImageNet」論文惹爭議，類似研究回顧

新聞 06-10

機器之心報道

機器之心編輯部

近日，Facebook 公布了一篇研究論文《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour》，介紹了他們一項最新的研究成果——一種將批量大小提高的分布式同步 SGD 訓練方法，希望能有助於解決越來越長的訓練時間。但就文章的創新度、引用內容上，這篇論文的幾位作者與曾致力於同一領域的 MXNet 的幾位成員之間出現了爭議，他們在賈揚清的一篇 Facebook 帖子下各抒己見，表達了各自的立場和看法。這一事件引起了業內人士不小的關注。

為了讓讀者更加了解這一事件的始末，機器之心將在這篇文章中將以儘可能中立的態度對 MXNet 之前做過的類似工作進行介紹——據稱這也是所述 Facebook 論文的引用中忽視的研究。另外，本文還將引述一些雙方爭論的觀點，以提供更加全面的視角。首先需要強調一下：目前爭議雙方已經在此事上達成了和解。

MXNet 的可擴展性

MXNet 是一個全功能，靈活可編程和高擴展性的深度學習框架，支持深度學習模型中的最先進技術，包括卷積神經網路（CNN）和長期短期記憶網路（LSTM）。MXNet 由學術界發起，包括數個頂尖大學的研究人員的貢獻，這些機構包括華盛頓大學和卡內基梅隆大學。

深度學習框架在多核心處理器中的運行效率是其性能的重要指標。更高效的擴展（Scaling）可以讓訓練新模型的速度顯著提高，或在相同的訓練時間內大幅提高模型的複雜性。

去年 11 月 23 日，亞馬遜宣布將 MXNet 作為其深度學習主要框架，此時的 MXNet 團隊已經表示他們正在使用越來越多的 GPU 訓練圖像分析演算法 Inception v3（在 MXNet 中實現並在 P2 實例上運行）。MXNet 團隊當時表示，該框架不僅具有所有已知庫中最快的吞吐量（每秒訓練的圖像數量），而且吞吐量提高几乎與用於訓練的 GPU 數量成正比（比例為 85 ％）。

2016 年 12 月 19 日，MXNet 在 Github 上公開了 ResNet 分布式訓練的收斂結果，其主要思想是在增加 batch size 同時增大 learning rate。

FB「1小時訓練ImageNet」論文惹爭議，類似研究回顧

相關 GithHub 頁面鏈接：https://github.com/dmlc/mxnet/commit/e62fbe1bd0bc0564ce1b97a33a9032c8dbd749ec

知情人士指出，亞馬遜曾在去年 12 月底的 AWS Reinvent 上展示過這一成果，而 MXNet 的可擴展性能力則更是早已在相關博客上展示。

在 MXNet 的主要開發者李沐 2017 年 2 月正式發表的論文《Scaling Distributed Machine Learning with System and Algorithm Co-design》中，也有一段有關 MXNet 可擴展性的介紹：

在實驗中，我們使用 ImageNet 訓練了 ResNet-152。作為基準，我們使用了一台 8 塊 GPU 的機器，每塊 GPU 處理 32 批尺寸，合計共 256。

FB「1小時訓練ImageNet」論文惹爭議，類似研究回顧

一次 SGD 迭代的通信成本和總成本。實驗在多台機器上執行，但這些機器的 GPU 總數量均為 8 塊。

我們調整了學習速度：我們以學習速度 0.1 開始訓練過程；隨後分別在時間點 30、60 和 90 上將速度除以 10；我們進一步在時間點 100 時停止了數據擴張。如下圖所示，與基線相比，我們在時間點 110 處得到了 77.8% 的最高準確率，與此前 77% 的準確率結果相匹配。在把 GPU 數量從 8 個增加到 80 個之後，批尺寸也從 256 增加到了 2560。我們改變了原始學習速度（從 0.1 改為 0.5）。在 160 個 GPU 上，我們將批尺寸增加到了 5120，而學習速度也進一步增加到了 1，學習速度減少的時間點也從 30 推後到了 50。這些探索讓訓練過程有了更多延展性。

在下圖中，我們畫出了準確率隨著 SGD 時間點的變化曲線。在仔細調整學習速度的情況下，批尺寸沒有顯著影響演算法的收斂。在 2560 批尺寸時，曲線與基線的收斂程度非常接近；而在 5120 個批尺寸時，儘管在一開始曲線不甚穩定，但在隨後的訓練過程中它逐漸與基線趨近。

FB「1小時訓練ImageNet」論文惹爭議，類似研究回顧

在 ImageNet 數據集上 ResNet 的精度與時間節點的對比圖。其中每個 GPU 使用的批尺寸為 32，使用了同步 SGD。

可擴展性一直是各家深度學習框架力圖優化的方向。在今年 4 月 18 日，Facebook 推出 Caffe2 時，TechCrunch 曾採訪了 Facebook AI 平台首席工程師賈揚清（他也是 Caffe 系列的主要開發者），在被問及對於 MXNet 可擴展性的看法時，賈揚清表達了對於基準測試數據的謹慎態度。基準測試得出的數據可以有意義，但也相當程度受到機器模型實現方式的影響。

「所有框架目前都有或多或少類似的可擴展能力，」賈揚清表示。「而我們確信 Caffe2 要比其他框架稍微領先一些。」

與 Facebook 論文間的爭論

FB「1小時訓練ImageNet」論文惹爭議，類似研究回顧

Facebook 的論文引起的最大爭議之處在於忽視了上述 MXNet 的相關研究成果。在賈揚清 Facebook 時間線的留言中，《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour》論文的第二作者 Ross Girshick 表示，「我們並不知道你的論文，我們將會在我們論文的更新版本中加入引用。非常抱歉這個遺漏。但這裡要指出（我們的研究）存在兩個重要的不同之處：1. 我們展示的是一種基本規則，它的目的是避免對每一個 minibatch size 進行超參調節。上方的曲線圖是學習速率分別為 0.1，0.5 和 1（對應的 minibatch size 為 256，2560 和 5120）時的結果，同時在 minibatch 為 5k 的情況下改變了相應的衰減設定（decay schedule）。這看上去像是對每一個 minibatch size 進行超參搜索的結果，但是至少我沒有發現 4.5.3 那樣的一般方法。可能我漏掉了它？2. 8192 大於 5120，打破已有的限制一直很重要。」

最後，論文的另一作者何凱明也發表了自己的一些看法。

「我們曾經產生過一個內部的爭論，是關於是否應該發表一篇論文來描述我們如何實現這些結果的。我承認這篇論文沒有太多的新內容，因為這是我和我的同事在多年以前就完成的，包括我們怎樣改進 ResNets 和 Faster R-CNN。在和很多人討論後，這些人包括現在的和以前的一些來自微軟、Facebook、谷歌、百度和一些高校的科學家和工程人員，我們意識到並不是所有的細節都被從業者、工程師或科研人員所熟知。因此最終我確信我們應該撰寫這篇論文：我們希望它可以成為一個有用的手冊，特別是對那些可能在他們的系統里遺漏掉一些東西的人。」

「從我的經驗而言，『linear scaling lr』之所以出奇的有效是因為在過去幾年中，它大大地幫助了我們去建立和改進計算機視覺演算法，包括 ResNets, Faster R-CNN 和 Mask R-CNN，要知道過去當我們要調整基準的時候，當時並沒有足夠的 8-GPU 甚或是 4-GPU 機器供我們使用。由於它的『奇效』，我們並不需要重新選擇任何超參數——hyper-parameters（和通常那樣選擇特定的學習速率和相關設定形成對比）。這個線性比例學習速率（linear scaling lr）不是一個新內容：在我們的論文里（Sec. 2.1『Discussion』, p3）我們引用了 Leon Bottou et al. 的綜述論文【4】，它給出了線性比例學習速率（linear scaling lr）的理論內容（還有一些介紹）。通過和 Leon 本人的私下溝通我們發現這個理論太古老也太普通了，以至於我們無法追溯到它的創始人。我真的希望推廣這個線性比例學習速率 linear scaling lr 的『法則』（也可以叫做理論），因為我過去幾年從中獲益良多。」

「另一方面，我早就有了一些使用『開方』（『sqrt』）法則的成功經驗：實驗性的結果可以在我們的論文里的表格 2(a) 找到。也有一些關於『線性比例』（「linear scaling」）法則和『開方』（『sqrt』）法則的理論正確性的討論；但是我們在這篇論文里分享的是我們豐富的實驗性結果（包括 ImageNet/COCO, 預訓練 pre-training/精調 fine-tuning, 分類 classification/探測 detection/分割 segmentation），並且強力地支持了線性法則，因為我在過去幾年就已經有了相關經驗。」

「你提到了使用『linear scaling lr』法則的『不穩定』結果。這和我們提出 warmup 方法的動機是一致的，可以從【4】中找到相關的理論支持。在過去一年的研究中，我也從 warmup 策略中受益良多，它可以幫助我很簡單地進行擴展（scale out）並且讓我的生活更加輕鬆起來。我們希望這可以幫助到一些（可能不是所有）研究人員和工程人員。」

據悉，在論文引用爭議出現之後，各方經過充分交流。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※OpenAI提出強化學習新方法：讓智能體學習合作、競爭與交流
※南京大學周志華等提出DFOP演算法：無分布一次通過學習
※重磅，波士頓動力被軟銀收購，「被豐田收購」傳言告破
※CMU和谷歌聯手研製左右互搏的對抗性機器人

TAG:機器之心 |

您可能感興趣

※SteamVR測試「Motion Smoothing」功能，類似Ocul
※Chrome部署Material Design：標籤欄類似於Firefox早期版本
※即將發售！Air Jordan 12 「Michigan」與 PSNY 聯名極為類似！
※Apple WatchS4將採用固態按鈕類似於iP7 Home鍵
※適配於低規格PC，SteamVR頭顯新增類似ASW的「Motion Smoothing」功能
※FDA有望批准首款Rituxan生物類似物，由以色列Teva與韓國Celltrion合作開發
※iPhone X Plus最新消息大小與8 Plus類似
※蘋果新款Beats Powerbeats無線耳機圖片泄露，與AirPods類似
※類似Bixby但比Siri全面！華為秘密自研AI語音助手：Mate 10或嘗鮮
※Kubernetes 會迎來類似 Hadoop 的結局嗎？
※Oculus Rift新專利：類似MagSafe的磁吸式介面
※iPhone XI Max配置類似華為P20 Pro？
※iTunes for Windows 10正式上架類似桌面版
※安卓Fast Share曝光：可快速傳文件類似iOS AirDrop
※紅米Note5Pro真機上手：類似蘋果iPhoneX
※與iPhone X採用類似設計的iPhone SE2能成嗎
※新一代iPhone XR或採用類似iPhone XI的三角後攝
※Android P有望獲得類似於iPhone X的手勢導航操作
※2018年蘋果iPad Pro可能類似於iPhone X
※類似Cardboard HTC申請新移動VR頭顯專利