1小時訓練ImageNet:Facebook賈揚清何愷明論文
在不犧牲生成模型質量的前提下,每秒使用 256 顆 GPU 訓練 40,000 張圖像
新智元編譯
來源:venturebeat.com,research.fb.com
VentureBeat 報道作者:Blair Hanley Frank
譯者:文強、張易
【新智元導讀】Facebook 人工智慧實驗室與應用機器學習團隊合作,提出了一種新的方法,能夠大幅加速機器視覺任務的模型訓練過程,僅需 1 小時就訓練完ImageNet 這樣超大規模的數據集。系統使用 Caffe 2 開源框架訓練,可以拓展到其他框架上。
Facebook 開發了一種新的方式訓練計算機視覺模型,能夠大大加速公司人工智慧工作。使用新技術,Facebook 可以在一小時內訓練圖像分類模型,同時保持其準確性。
在最高性能的情況下,Facebook 今天推出的新系統,在不犧牲生成模型質量的前提下,每秒使用 256 顆 GPU 訓練 40,000 張圖像。這項工作幫助數據科學家更快地測試假說,有助於提高未來研究的質量。
加速機器視覺訓練的時間對於 Facebook 來說十分重要,因為機器視覺是增強現實和機器學習的關鍵,這兩項都是 Facebook 未來業務的關鍵。
論文其中一位作者、FB 應用機器學習團隊的軟體工程師 Pieter Noordhuis 在接受 TechCrunch 採訪時表示,加速模型的生成(creation),意味著公司的數據科學家可以每天運行多個模型排列,而不必花一天時間進行單次測試。
Noordhuis 說,使用新系統,原本需要一周的 6 次試運行一天能夠完成。
Facebook 實現這一加速工作的方法是擴展訓練中處理的圖像小批量的(mini-batch)大小,從而在大量 GPU 運行加速學習的過程。然而,增加小批量的大小也需要增加學習率,這在過去會導致精度的降低。
Facebook 團隊提出的方法是增加一個新的預熱階段(a new warm-up phase),隨著時間的推移逐漸提高學習率和批量大小,從而幫助保持較小的批次的準確性。
確保模型擴展的有效性:上圖顯示了 ImageNet top-1 驗證錯誤率 vs 小批量(minibatch)大小,誤差範圍正/負 2 個標準差。我們提出一種簡單通用的技術,能夠將分布式同步 SGD minibatch 大小最多擴展到 8k 張圖像,同時保持 minibatch 訓練前 Top-1 位的錯誤率不變。對於所有大小的 minibath,我們將學習率設置為 minibatch 的線性函數,並對前幾個訓練時期(epoch)應用一個簡單的預熱(warm-up)。所有其他超參數保持固定。使用這種簡單的方法,我們的模型精度對於 minibatch 尺寸是不變的。這項技術使我們可以在線性拓展 minibatch 大小的情況下,以高達 90% 的 efficiency 減少訓練時間,在 1 小時內在 256 顆 GPU 上訓練出了精確的 ResNet-50 模型,minibatch 大小為 8k。來源:論文圖1。
如果剛才那張圖讓你覺得不夠漂亮,那麼再看一下這張。上圖顯示了在訓練 epoch 固定為 90 的情況下,ImageNet-5K top 1 驗證錯誤 vs minibatch 大小。從圖中可見,訓練數據量增加 5 倍對擴展的有效性(efficiency)沒有顯著影響。來源:論文圖6
用這種方法,他們能夠為一個小批量為 8192 張的圖像,保持小批量大小 256 圖像大致相同的錯誤率。
通過不斷更新,使 minibatch 為 8192 與 256 的錯誤率大致相同:上圖顯示了使用不同預熱策略時,miniibatch 大小為 256 張圖像(紅)與 8192 張圖像(藍)的訓練誤差曲線(驗證誤差為 5 次運行的平均值±標準差)。其中,minibatch 大小為 kn,推理學習速率為 η。來源:論文圖2
這項研究的好處並不局限於 Facebook 公司內。所有計算都使用開源 Caffe2 框架在伺服器上運行,使用其他伺服器和其他框架的人也可以根據論文中列出的技術,看到類似的增益。
話雖如此,目前尚不清楚這種技術對於不同的問題會產生什麼結果。Noordhuis 還表示,這項研究的另一大主要優點是,證明了 Facebook 的 AI 研究團隊(FAIR)的價值。
這一工作是由 Facebook 與人工智慧相關的兩個組織合作完成的。FAIR 提出了逐漸擴大批量大小和新增加預熱階段的想法,Facebook 的應用機器學習團隊(AML)則利用其專業知識,將相關係統應用於數據中心工作。
論文- 精確大規模小批量 SGD:1 小時內訓練完 ImageNet 數據集
摘要
深度學習受益於大規模神經網路和大規模數據集的蓬勃發展。然而,較大的網路和更大的數據集會導致更長的訓練時間,阻礙研究與開發進展。分布式同步隨機梯度下降( SGD)通過在一組並行工作的處理器中劃分 SGD 小批量,為這個問題提供了一個潛在的解決方案。然而,為了使這個方案有效,每次預處理的工作量必須很大,這意味著 SGD 小批量大小會產生顯著的增長。在本文中,我們通過實驗表明,在 ImageNet 數據集上,大型的小批量會引起優化困難,但當這一問題被解決時,訓練過的網路會擁有很好的泛化性能。具體來說,我們展示了使用最高達 8192 張圖像的大規模 minibatch 進行訓練時,不會造成準確性的顯著損失。為了實現這一結果,我們採用線性縮放規則調整學習率,作為 minibatch 的函數,並開發了一種新的預熱方案,在訓練早期克服優化困難。通過這些簡單的技術,我們基於 Caffe2 的系統可以在一小時內訓練在 256 顆 GPU 上運行的 ResNet-50(minibatch 大小為 8192),並使其精確度與小 binibatch 相匹配。使用市售硬體,從 8 顆 GPU 擴展到 256 顆 GPU 時,我們的實現了大約 90% 的精度保持。這一系統使我們能夠高效地對互聯網級規模的數據進行視覺識別模型的訓練。
方法:
為了克服 minibatch 過於巨大的問題,我們使用了一個簡單的、可泛化的線性縮放規則來調整學習率。雖然早期研究中已經開始使用這一指導方針,但其在實踐中的局限性並沒有被很好地理解,而起,我們發現它並不為研究界所知。為了成功應用這一規則,我們提出了一個新的預熱策略,即在訓練開始時使用較低學習率的策略[16],以克服早期的優化困難。重要的是,我們的方法不僅符合基線驗證誤差,而且還產生與了小型 minibatch 基準線匹配的訓練誤差曲線。
實驗:
我們的綜合實驗表明,與最近的一些研究相比,優化困難是大型 minibatch 的主要問題,而不是不好的泛化(至少在 ImageNet 上是這樣)。此外,我們展示了,線性縮放規則和預熱泛化到了更複雜的任務,包括對象檢測和分割等。我們通過最近開發的 Mask R-CNN 證明了這一點。我們注意到,以前的研究中還沒有一個強壯、成功的解決各種 minibatch 的指導方針。
我們的目標是在保持訓練和泛化精度的同時,使用大型的 minibatch 代替小型的 minibatch。這對分布式學習尤其有意義,因為它可以讓我們通過簡單的數據並行來擴展到多個工作者(本文中即為 GPU),也不會減少每個工作者的工作量,而不會犧牲模型的準確性。
正如我們將在綜合實驗中展示的,我們發現以下學習率縮放規則對於大範圍 minibatch 大小上都驚人地有效:
我們的策略適用性和框架無關,但是實現高效的線性縮放需要非平凡的通信演算法。我們使用了最近開源的 Caffe2 深度學習框架和 Big Basin GPU 伺服器,它們使用標準的 Ethnet 網路(而不是專門的網路介面)高效運行。
編譯來源
論文地址:https://research.fb.com/publications/ImageNet1kIn1h/
VB 報道:https://venturebeat.com/2017/06/08/facebooks-new-technique-trains-computer-vision-models-super-fast/
※波士頓動力幸遇最強接盤俠,軟銀收購兩家谷歌機器人公司
※「1小時訓練ImageNet」Facebook賈揚清+何愷明論文
※北大黃鐵軍:強AI的「模擬主義」和神經計算機的「五原則」
※中國國家超級計算廣州中心盧宇彤教授當選ISC Fellow
※蘋果發布:Core ML 幾行代碼構建智能APP(SDK下載)
TAG:新智元 |
※Before&After | 手刃店鋪通病,Paul Frank4小時大變裝
※24小時:EXO-iKON-Red Velvet-NCT-WekiMeki-Gugudan
※Facebook變Fakebook?小扎5小時鏖戰,本可避免!
※24小時:TWICE-Red Velvet Irene-鄭秀妍&鄭秀晶-Apink-少女時代 孝淵
※失戀179小時 Here Without You
※小伙1小時敲出AlexNet,深度學習tensorflow原創體驗,代碼可運行
※24小時:EXO-防彈-iKON-WINNER-允兒-RedVelvet-seventeen-譽恩&泫雅-《The Unit》
※Fenty Beauty粉底液8小時實測
※Covermark粉霜10小時測評
※24小時:VIXX車學沇-鄭秀妍-RedVelvet Irene&Wendy&澀琪-Bigbang勝利-MAMAMOO-NCT
※《Pac Tac Atac》,一款48小時內用Tilt Brush創作的完整VR遊戲
※Dariling in the Franxx13話劇情發熱議,02小時候萌炸了
※24小時:Justin&朱正廷-王嘉爾-《孝利家民宿2》-Red Velvet
※24小時不斷網!LTE版Surface Pro已開始預訂
※6小時+故事模式 RTS遊戲《Brass Tactics》現已上線
※24小時:iKON-允兒-IU-防彈少年團-hyukoh-Red Velve
※蘋果推出第二代iPhone回收機器人Daisy,一小時可拆200部iPhone
※歐盟委員會希望Facebook Google在一小時內刪除恐怖分子內容
※時尚設計女掌門Carla Sozzani的24小時
※Jasper與媽媽一起做瑜伽,應采兒小時候照片竟神似Angelababy