IBM稱其機器學習庫的速度比TensorFlow快了46倍

最新 03-22

AiTechYun

編輯：nanan

IBM聲稱POWER9伺服器和Beastly處理器（GPU）相結合，可以讓Google Cloud發生顛覆。

IBM宣稱，其POWER伺服器上的機器學習不僅比Google Cloud中的TensorFlow快，而且速度快了46倍之多。

今年2月，谷歌軟體工程師Andreas Sterbenz寫了關於使用Google Cloud Machine Learning和TensorFlow進行大規模廣告和推薦場景點擊預測的文章。

他訓練了一個模型來預測對Criteo Labs日誌的點擊率，這些日誌的大小超過1TB，並包含來自數百萬展示廣告的特徵值和點擊反饋。

數據預處理(60分鐘)之後進行實際學習，使用60台工人機器和29台參數機器進行訓練。該模型花了70分鐘進行訓練，評估損失為0.1293。我們知道這是結果準確性的粗略指標。

然後，Sterbenz採用了不同的建模技術來獲得更好的結果，降低了評估損失，這一切都花費了更長的時間，最終使用了具有三個時期的深度神經網路(測量了所有訓練矢量一次用來更新權重的次數的度量)，耗時78小時。

但IBM對此並不感興趣，他們希望證明在POWER9伺服器和GPU上運行的自己的訓練框架，可以在基本的初始訓練上，勝過Google Cloud 平台的89台機器。

位於蘇黎世IBM研究公司的Thomas Parnell和Celestine Dunner使用了相同的源數據——Criteo Terabyte Click Logs，擁有42億個訓練樣本和100萬個特性，以及相同的機器學習模型、邏輯回歸，但還有一個不同的機器學習庫。這就是所謂的快速機器學習。

他們使用運行在四台Power System AC922伺服器上的Snap ML運行會話，即8個POWER9 CPU和16個Nvidia Tesla V100 GPU。它以91.5秒的速度完成，整整快了46倍。

他們準備了一張顯示Snap ML，Google TensorFlow和其他三項結果的圖表：

TensorFlow的46倍速度改進是不可忽視的。他們把它歸因於什麼?

他們表示，Snap ML具有多層次的並行性，可以在集群中的不同節點間分配工作負載，利用加速器單元，以及單個計算單元的多核心並行性：

1.首先，數據分布在集群中的各個工作節點上

2.在節點數據上，主機中央處理器與CPU和GPU並行運行的GPU之間的分割

3.數據被發送到GPU中的多個內核，並且CPU工作負載是多線程的

Snap ML具有嵌套的分層演算法特性，可以利用這三個級別的並行性。

IBM研究人員並沒有聲稱TensorFlow沒有利用並行性，也沒有提供Snap ML和TensorFlow之間的任何比較。

但是他們說:「我們實施專門的解算器，旨在利用GPU的大規模並行架構，同時尊重GPU內存中的數據局部性，以避免大量數據傳輸開銷。」

該報告稱，採用NVLink 2.0介面的AC922伺服器比採用其Tesla GPU的PCIe介面的至強伺服器（至強金6150 CPU @ 2.70GHz）要快。「對於基於PCle的設置，我們測量的有效帶寬為11.8GB/秒，對於基於NVLink的設置，我們測量的有效帶寬為68.1GB/秒。」

訓練數據被發送到GPU，以在那裡進行處理。NVLink系統會比PCIe系統更快地向GPU發送塊，時間為55m/s，而不是318m/s。

IBM團隊還表示:「當我們應用於稀疏數據結構時，我們對系統中使用的演算法進行了一些新的優化。」

從總體上看，Snap ML似乎更能利用Nvidia GPU的優勢，通過NVLink更快地將數據傳輸到它們，而不是通過商用x86伺服器的PCIe鏈接。我們不知道POWER9 CPU與Xeons的速度相比如何;就我們所知，IBM還沒有公開發布任何POWER9與Xeon SP的直接比較。

我們也不能說Snap ML比TensorFlow好多少，直到我們在相同的硬體配置上運行兩個吸盤。

不管原因是什麼，46x的降幅都讓人印象深刻，並且給了IBM很大的空間來推動其POWER9伺服器，作為插入Nvidia GPU，運行Snap ML庫以及進行機器學習的場所。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章: