當前位置:
首頁 > 最新 > 比TensorFlow雲快46倍!IBM用Snap ML和Tesla V100秀肌肉

比TensorFlow雲快46倍!IBM用Snap ML和Tesla V100秀肌肉

AI 科技評論按:TensorFlow 的機器學習庫可以說大家都已經很熟悉了,但 IBM 的研究人員們表示這都是小意思。

今年 2 月的時候,谷歌的軟體工程師 Andreas Sterbenz 曾在谷歌官方博客撰寫文章,介紹如何使用谷歌雲機器學習(Google Cloud Machine Learning)和 TensorFlow 對大規模廣告投放和推薦系統做點擊率預測。根據介紹,他用了大小為 1TB、包含了 42 億條訓練樣本、一百萬個特徵的 Criteo Terabyte Click Logs 數據訓練了機器學習模型,用來預測未來顯示的廣告可能被點擊的概率如何。

在數據預處理之後,實際訓練過程用到了 60 台計算伺服器和 29 台參數伺服器。訓練模型花費了 70 分鐘,訓練損失最終降低到了 0.1293(訓練損失可以看作最終預測準確率的粗略近似)。

Sterbenz 也嘗試了不同的建模技術,看看能否繼續降低訓練損失。不過各種好方法基本都會帶來更長的訓練時間。最終他選用了深度神經網路,訓練時有 3 個 epoch,一共花費了 78 小時訓練完畢。

不過這種結果對 IBM 來說毫無吸引力,他們想要藉機證明自己的訓練框架有多麼高效。他們認為,自己的帶有 GPU 的 POWER9 伺服器同樣做前一項訓練任務的話,要比谷歌雲平台的這 89 台伺服器快多了。

Power9 伺服器架構特點

在蘇黎世 IBM 研究院工作的 Thomas Parnell 和 Celestine Dünner 也找來了同樣的 1TB 訓練數據,訓練的模型也是和前面 70 分鐘完成訓練的一樣的邏輯回歸模型。但不同的是,他們用的不是 TensorFlow 的機器學習庫,而是 Snap Machine Learning(https://arxiv.org/pdf/1803.06333.pdf)。

IBM 兩人用的伺服器是 Power System AC922,一共有八台 POWER9 伺服器,每台伺服器搭載兩塊 NVIDIA Tesla V100 GPU。訓練只經過 91.5 秒就結束了,比 Sterbenz 在谷歌雲機器學習平台上的 70 分鐘快 46 倍。

他們也把自己的結果和其它各個系統的結果做成了圖表進行對比:

可以看到,相比於運行在 TensorFlow 上,IBM 不僅通過 Snap ML 得到了很短的訓練時間,訓練損失也要稍低一些。

46 倍的速度提升畢竟不是一個小數目,那麼其中的改進具體有哪些呢?

根據 Thomas Parnell 和 Celestine Dünner 兩人介紹,Snap ML 中引入了許多不同層級的並行化計算設計,可以在同一個集群內的不同節點之間分配任務量、可以發揮出加速計算單元(比如 V100 GPU)的計算能力,而且在單個計算單元中也可以利用到多核心的並行計算能力。

其中的並行化設計可以概述如下:

首先把數據分配給集群內的各個計算節點

在單個節點中,數據一部分分配給 CPU、一部分分配給 GPU,CPU 和多張 GPU 可以同時進行計算

計算時,GPU 中的多個核心同時參與運算,CPU 的運算負載也是多線程的,可以更好利用多核心 CPU

Snap ML 中也有內置的層級化演算法,可以讓這各個級別的並行化手段高效協同運作。

IBM 的研究人員們並不是藉此指責 TensorFlow 中沒有好好利用並行化,但他們確實表示:「我們設計了專用的求解器,以便能夠完全利用這些 GPU 的海量並行計算能力;同時我們還保證了數據在 GPU 內存中的局部性,避免讓大量數據傳輸帶來額外的開銷。」

另外,AC922 伺服器和 V100 GPU 之間的連接匯流排是 NVLink 2.0,而傳統英特爾至強伺服器(比如使用 Xeon Gold 6150 CPU @ 2.70GHz)只能使用 PCI-E 匯流排連接到 GPU。前者的有效數據傳輸帶寬達到 68.1GB/s,後者僅有 11.8GB/s。看起來,PCI-E 匯流排速度可能也是系統性能的瓶頸之一,傳輸一個數據包需要 318ms,而 NVLink 2.0 只需要 55ms。

IBM 團隊還表示:「我們還為系統中的演算法設計了一些新的優化手段,可以更適合處理稀疏的數據結構。」

以上總總因素匯合起來,IBM 通過更好地利用 GPU 性能打敗了谷歌的雲伺服器似乎還挺合理。不過據我們所知,IBM 目前並沒有公開提供過任何 POWER9 與英特爾至強伺服器之間的直接性能對比。另一方面,關於 Snap ML 到底有多好也只有在同樣的硬體環境上運行 Snap ML 和 TensorFlow 才能知道。

(關於 Tesla V100 GPU,更多信息參見 AI 科技評論此前報道一文詳解英偉達剛發布的 Tesla V100 究竟牛在哪?)

viatheRegister,AI 科技評論編譯。

對了,我們招人了,了解一下?

限時拼團---NLP工程師入門實踐班

三大模塊,五大應用,知識點全覆蓋;海外博士講師,豐富項目分享經驗;

理論+實踐,帶你實戰典型行業應用;專業答疑社群,結交志同道合夥伴。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI科技評論 的精彩文章:

您有一份AI學術會議Deadline清單等待查收
NetSciX 2018講座學校回顧:四位青年科學家全方位解析網路科學研究前沿

TAG:AI科技評論 |