訓練史上最佳GAN用了512塊TPU,一作自述:這不是演算法進步,是算力進步
銅靈 編譯整理
量子位 出品 | 公眾號 QbitAI
最近,一場「大GAN(BigGAN)」浪潮讓機器學習界的行家沸騰了一次。看到這個生成圖片質量足以以假亂真的神經網路,網友齊聲稱讚「演算法好棒」。
這篇還在雙盲審中的ICLR 19論文一作現身,實名反對這種看法。
在接受外媒FastCompany採訪時,一作Andrew Brock表示,大GAN成功的關鍵,不在於演算法的改進,而是計算力的進步。
計算力
大GAN出自論文Large Scale GAN Training for High Fidelity Natural Image Synthesis,除了能生成128×128小圖之外,大GAN還能直接在256×256、512×512的ImageNet數據上訓練,生成更讓人信服的樣本。
效果如此超脫凡GAN,不止是因為大GAN模型參數多,更是因為訓練規模大。它的參數是前人的2-4倍,批次大小是前人的8倍。
「這些模型所需的主要不是演算法的改進,而是計算力的進步。當你增加模型容量並增大每步所顯示的圖像數量時,你就會得到雙重組合帶來的效果。」論文一作Andrew Brock說。
換句話說,通過增加更多節點增加神經網路的複雜性,Brock能夠創造出準確率更高的系統和模型紋理,然後將這些單獨的紋理結合起來生成更大的形狀,比如一隻完整的小貓或者小狗。
方法不錯,效果很好,兩者之中,需要的是怎樣的算力?
Brock說是512塊谷歌TPU。
在這場實驗中,Brock等人生成512像素圖像,需要的是512塊谷歌TPU,並且訓練時間會持續24到48個小時。
光有TPU加持可能還不夠,你還得找一個電量充足的地方。大致估算一下,如果每個TPU每個小時需要200瓦的電量,那麼在Brock的512像素實驗中,每個TPU將耗費2450到4915度電,相當於一個普通美國家庭大約半年內的用電量。
看來,普通人和機器學習高手的差距,可能不僅僅是幾個演算法之間的差距那麼簡單了……
別人家的實習生
雖然團隊在9月末版的論文中沒有署名,但能一口氣用512塊TPU用於研究,找遍全球也沒有幾家公司有這樣的經濟實力。
現在,團隊終於公布了三位研究人員分別為Andrew Brock、谷歌DeepMind研究員Jeff Donahue和Karen Simonyan。
在刀光劍影的機器學習界有句土話:別人家的實習生,從未讓我失望過。沒錯,大GAN團隊的一作,就是一位實習生。
Brock目前還就讀於赫瑞瓦特大學(Heriot-Watt University),量子位翻看了這位同學的推特,發現雖然還是學生,但已經被多方大牛關注著:
谷歌大牛Goodfellow、PyTorch之父Soumith Chintala、谷歌大腦東京網紅研究員hardmaru、特斯拉AI負責人Andrej Karpathy、《紐約時報》資深記者Cade Metz,都已經成為Brock的粉絲……
傳送門
最後,附論文地址:
https://arxiv.org/pdf/1809.11096.pdf
不過,要想復現這篇論文,可能難了點~
—完—
加入社群
量子位AI社群28群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
※CNCC2018:早鳥票倒計時兩周,7000人盛會日程搶先看!
※新美國安全中心報告:中國在量子技術中佔據了重要優勢
TAG:量子位 |