Facebook公布SGD,可在1小時內訓練ImageNet
GIF/1.7M
圖:pixabay
6月8日,Facebook在其facebook research網站上公布一份研究報告,該報告指出,精確、大型的Minibatch SGD可在1小時內訓練ImageNet數據集。
深度學習與大型神經網路和大型數據集正在蓬勃發展。然而,較大的網路和數據集會導致更長的訓練時間,阻礙其研發進度。分布式同步隨機梯度下降法(Stochastic gradient descent,SGD) 為此提供了一個潛在的解決方案,通過在一組並行池worker進程中劃分SGD minibatches。然而,為了使這個方法有效,每個worker的工作量必須很大,這意味著SGD minibatch大小增長異常。在本文中,我們的經驗表明,在ImageNet數據集上,大型的minibatches可能引起優化困難,而解決這些問題的神經網路表現出良好的泛化作用。具體來說,當使用大型minibatch尺寸達8192張圖像進行訓練時,則不會顯示準確性的損失。為了實現這一結果,我們採用線性縮放規則來調整學習率,作為minibatch的函數,並開發一種新的預熱方案,以便在訓練早期克服優化過程面臨的困難。通過這些簡單的技術,我們基於Caffe2的系統可以在一小時內對256個GPU的ResNet-50進行minibatch 為8192的訓練,同時匹配小的minibatch精確度。從硬體角度,當從8個GPU增長到256 個GPU後,我們能夠實現約90%的規模效益。該系統使我們能夠高效率地對互聯網規模的數據進行視覺識別模型的訓練。
更多內容請查看報告原文
作者:Priya Goyal, Piotr Dollar, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, Kaiming He
來源:facebook research
※新版Tensorflow 1.2RC0出爐,能get到哪些?
※AI致教育:我以一場數學PK賽,贈你一份高考四十年紀念禮
※如何在MNIST上構建和訓練條件生成式對抗網路?一文詳解!
※看蘋果手把手教你如何將訓練模型轉換至Core ML
TAG:機器人圈 |
※結束內測,Facebook Spark AR正式登陸Instagram
※Oculus Research更名Facebook Reality Labs,宣布OC3預言部分成真
※業界 | Facebook開源Mask R-CNN的PyTorch 1.0基準,比mmdetection更快、更省內存
※Facebook開源Mask R-CNN的PyTorch 1.0基準,比mmdetection更快、更省內存
※Facebook計劃整合Messenger、WhatsApp和Instagram,但今年內無望
※Altspace VR原創始人兼CEO入職Facebook;Epic Games宣布收購雲計算公司Cloudgine
※Facebook Mask R-CNN2Go已開源
※WhatsApp現在在內部可以播放Facebook和Instagram視頻
※Facebook、Instagram及WhatsApp同時出現故障
※Facebook為蘋果iPhone用戶推出Facebook Lite,大小僅5M
※Copy from China?Facebook 發布「克隆版抖音」Lasso | Global 24/7
※Palmer Luckey:Facebook收購Oculus是VR行業歷
※Facebook Marketplace將於本月在印度試水B2C交易模式
※Facebook將讓出30%的Instant Games應用內付費分成
※Facebook,Twitter,Snapchat三大社交網路同時登陸GMIC!
※Facebook公布開源DeepFocus VR研究!
※Facebook 全面癱瘓、包括 Instagram和WhatsApp
※Oculus Research更名Facebook Reality Labs
※Oculus Research更名為Facebook Reality Labs
※FacexWorm通過Facebook Messenger和Chrome擴展傳播