FB「1小時訓練ImageNet」論文惹爭議,類似研究回顧
機器之心報道
機器之心編輯部
近日,Facebook 公布了一篇研究論文《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour》,介紹了他們一項最新的研究成果——一種將批量大小提高的分布式同步 SGD 訓練方法,希望能有助於解決越來越長的訓練時間。但就文章的創新度、引用內容上,這篇論文的幾位作者與曾致力於同一領域的 MXNet 的幾位成員之間出現了爭議,他們在賈揚清的一篇 Facebook 帖子下各抒己見,表達了各自的立場和看法。這一事件引起了業內人士不小的關注。
為了讓讀者更加了解這一事件的始末,機器之心將在這篇文章中將以儘可能中立的態度對 MXNet 之前做過的類似工作進行介紹——據稱這也是所述 Facebook 論文的引用中忽視的研究。另外,本文還將引述一些雙方爭論的觀點,以提供更加全面的視角。首先需要強調一下:目前爭議雙方已經在此事上達成了和解。
MXNet 的可擴展性
MXNet 是一個全功能,靈活可編程和高擴展性的深度學習框架,支持深度學習模型中的最先進技術,包括卷積神經網路(CNN)和長期短期記憶網路(LSTM)。MXNet 由學術界發起,包括數個頂尖大學的研究人員的貢獻,這些機構包括華盛頓大學和卡內基梅隆大學。
深度學習框架在多核心處理器中的運行效率是其性能的重要指標。更高效的擴展(Scaling)可以讓訓練新模型的速度顯著提高,或在相同的訓練時間內大幅提高模型的複雜性。
去年 11 月 23 日,亞馬遜宣布將 MXNet 作為其深度學習主要框架,此時的 MXNet 團隊已經表示他們正在使用越來越多的 GPU 訓練圖像分析演算法 Inception v3(在 MXNet 中實現並在 P2 實例上運行)。MXNet 團隊當時表示,該框架不僅具有所有已知庫中最快的吞吐量(每秒訓練的圖像數量),而且吞吐量提高几乎與用於訓練的 GPU 數量成正比(比例為 85 %)。
2016 年 12 月 19 日,MXNet 在 Github 上公開了 ResNet 分布式訓練的收斂結果,其主要思想是在增加 batch size 同時增大 learning rate。
相關 GithHub 頁面鏈接:https://github.com/dmlc/mxnet/commit/e62fbe1bd0bc0564ce1b97a33a9032c8dbd749ec
知情人士指出,亞馬遜曾在去年 12 月底的 AWS Reinvent 上展示過這一成果,而 MXNet 的可擴展性能力則更是早已在相關博客上展示。
在 MXNet 的主要開發者李沐 2017 年 2 月正式發表的論文《Scaling Distributed Machine Learning with System and Algorithm Co-design》中,也有一段有關 MXNet 可擴展性的介紹:
在實驗中,我們使用 ImageNet 訓練了 ResNet-152。作為基準,我們使用了一台 8 塊 GPU 的機器,每塊 GPU 處理 32 批尺寸,合計共 256。
一次 SGD 迭代的通信成本和總成本。實驗在多台機器上執行,但這些機器的 GPU 總數量均為 8 塊。
我們調整了學習速度:我們以學習速度 0.1 開始訓練過程;隨後分別在時間點 30、60 和 90 上將速度除以 10;我們進一步在時間點 100 時停止了數據擴張。如下圖所示,與基線相比,我們在時間點 110 處得到了 77.8% 的最高準確率,與此前 77% 的準確率結果相匹配。在把 GPU 數量從 8 個增加到 80 個之後,批尺寸也從 256 增加到了 2560。我們改變了原始學習速度(從 0.1 改為 0.5)。在 160 個 GPU 上,我們將批尺寸增加到了 5120,而學習速度也進一步增加到了 1,學習速度減少的時間點也從 30 推後到了 50。這些探索讓訓練過程有了更多延展性。
在下圖中,我們畫出了準確率隨著 SGD 時間點的變化曲線。在仔細調整學習速度的情況下,批尺寸沒有顯著影響演算法的收斂。在 2560 批尺寸時,曲線與基線的收斂程度非常接近;而在 5120 個批尺寸時,儘管在一開始曲線不甚穩定,但在隨後的訓練過程中它逐漸與基線趨近。
在 ImageNet 數據集上 ResNet 的精度與時間節點的對比圖。其中每個 GPU 使用的批尺寸為 32,使用了同步 SGD。
可擴展性一直是各家深度學習框架力圖優化的方向。在今年 4 月 18 日,Facebook 推出 Caffe2 時,TechCrunch 曾採訪了 Facebook AI 平台首席工程師賈揚清(他也是 Caffe 系列的主要開發者),在被問及對於 MXNet 可擴展性的看法時,賈揚清表達了對於基準測試數據的謹慎態度。基準測試得出的數據可以有意義,但也相當程度受到機器模型實現方式的影響。
「所有框架目前都有或多或少類似的可擴展能力,」賈揚清表示。「而我們確信 Caffe2 要比其他框架稍微領先一些。」
與 Facebook 論文間的爭論
Facebook 的論文引起的最大爭議之處在於忽視了上述 MXNet 的相關研究成果。在賈揚清 Facebook 時間線的留言中,《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour》論文的第二作者 Ross Girshick 表示,「我們並不知道你的論文,我們將會在我們論文的更新版本中加入引用。非常抱歉這個遺漏。但這裡要指出(我們的研究)存在兩個重要的不同之處:1. 我們展示的是一種基本規則,它的目的是避免對每一個 minibatch size 進行超參調節。上方的曲線圖是學習速率分別為 0.1,0.5 和 1(對應的 minibatch size 為 256,2560 和 5120)時的結果,同時在 minibatch 為 5k 的情況下改變了相應的衰減設定(decay schedule)。這看上去像是對每一個 minibatch size 進行超參搜索的結果,但是至少我沒有發現 4.5.3 那樣的一般方法。可能我漏掉了它?2. 8192 大於 5120,打破已有的限制一直很重要。」
最後,論文的另一作者何凱明也發表了自己的一些看法。
「我們曾經產生過一個內部的爭論,是關於是否應該發表一篇論文來描述我們如何實現這些結果的。我承認這篇論文沒有太多的新內容,因為這是我和我的同事在多年以前就完成的,包括我們怎樣改進 ResNets 和 Faster R-CNN。在和很多人討論後,這些人包括現在的和以前的一些來自微軟、Facebook、谷歌、百度和一些高校的科學家和工程人員,我們意識到並不是所有的細節都被從業者、工程師或科研人員所熟知。因此最終我確信我們應該撰寫這篇論文:我們希望它可以成為一個有用的手冊,特別是對那些可能在他們的系統里遺漏掉一些東西的人。」
「從我的經驗而言,『linear scaling lr』之所以出奇的有效是因為在過去幾年中,它大大地幫助了我們去建立和改進計算機視覺演算法,包括 ResNets, Faster R-CNN 和 Mask R-CNN,要知道過去當我們要調整基準的時候,當時並沒有足夠的 8-GPU 甚或是 4-GPU 機器供我們使用。由於它的『奇效』,我們並不需要重新選擇任何超參數——hyper-parameters(和通常那樣選擇特定的學習速率和相關設定形成對比)。這個線性比例學習速率(linear scaling lr)不是一個新內容:在我們的論文里(Sec. 2.1『Discussion』, p3)我們引用了 Leon Bottou et al. 的綜述論文【4】,它給出了線性比例學習速率(linear scaling lr)的理論內容(還有一些介紹)。通過和 Leon 本人的私下溝通我們發現這個理論太古老也太普通了,以至於我們無法追溯到它的創始人。我真的希望推廣這個線性比例學習速率 linear scaling lr 的『法則』(也可以叫做理論),因為我過去幾年從中獲益良多。」
「另一方面,我早就有了一些使用『開方』(『sqrt』)法則的成功經驗:實驗性的結果可以在我們的論文里的表格 2(a) 找到。也有一些關於『線性比例』(「linear scaling」)法則和『開方』(『sqrt』)法則的理論正確性的討論;但是我們在這篇論文里分享的是我們豐富的實驗性結果(包括 ImageNet/COCO, 預訓練 pre-training/精調 fine-tuning, 分類 classification/探測 detection/分割 segmentation),並且強力地支持了線性法則,因為我在過去幾年就已經有了相關經驗。」
「你提到了使用『linear scaling lr』法則的『不穩定』結果。這和我們提出 warmup 方法的動機是一致的,可以從【4】中找到相關的理論支持。在過去一年的研究中,我也從 warmup 策略中受益良多,它可以幫助我很簡單地進行擴展(scale out)並且讓我的生活更加輕鬆起來。我們希望這可以幫助到一些(可能不是所有)研究人員和工程人員。」
據悉,在論文引用爭議出現之後,各方經過充分交流。
※OpenAI提出強化學習新方法:讓智能體學習合作、競爭與交流
※南京大學周志華等提出DFOP演算法:無分布一次通過學習
※重磅,波士頓動力被軟銀收購,「被豐田收購」傳言告破
※CMU和谷歌聯手研製左右互搏的對抗性機器人
TAG:機器之心 |
※SteamVR測試「Motion Smoothing」功能,類似Ocul
※Chrome部署Material Design:標籤欄類似於Firefox早期版本
※即將發售!Air Jordan 12 「Michigan」 與 PSNY 聯名極為類似!
※Apple WatchS4將採用固態按鈕 類似於iP7 Home鍵
※適配於低規格PC,SteamVR頭顯新增類似ASW的「Motion Smoothing」功能
※FDA有望批准首款Rituxan生物類似物,由以色列Teva與韓國Celltrion合作開發
※iPhone X Plus最新消息 大小與8 Plus類似
※蘋果新款Beats Powerbeats無線耳機圖片泄露,與AirPods類似
※類似Bixby但比Siri全面!華為秘密自研AI語音助手:Mate 10或嘗鮮
※Kubernetes 會迎來類似 Hadoop 的結局嗎?
※Oculus Rift新專利:類似MagSafe的磁吸式介面
※iPhone XI Max配置類似華為P20 Pro?
※iTunes for Windows 10正式上架 類似桌面版
※安卓Fast Share曝光:可快速傳文件 類似iOS AirDrop
※紅米Note5Pro真機上手:類似蘋果iPhoneX
※與iPhone X採用類似設計的iPhone SE2能成嗎
※新一代iPhone XR或採用類似iPhone XI的三角後攝
※Android P有望獲得類似於iPhone X的手勢導航操作
※2018年蘋果iPad Pro可能類似於iPhone X
※類似Cardboard HTC申請新移動VR頭顯專利