當前位置:
首頁 > 科技 > Nvidia與NetApp合作打造深度學習GPU伺服器晶元

Nvidia與NetApp合作打造深度學習GPU伺服器晶元

NetApp和Nvidia已經推出了一個組合式的AI參考架構系統,與Pure Storage和Nvidia 合作的AIRI系統相競爭。

這款系統主要針對深度學習,與FlexPod(思科和NetApp合作的融合基礎設施)不同,這款系統沒有品牌名稱。而且與AIRI不同的是,它也沒有自己的機箱封裝。

NetApp和Nvidia技術白皮書《針對實際深度學慣用例的可擴展AI基礎設施設計》定義了一個針對NetApp A800全快閃記憶體存儲陣列和Nvidia DGX-1 GPU伺服器系統的參考架構(RA)。此外還有一個速度慢一些的,成本更低的、基於A700陣列的參考架構。

高配的參考架構支持單個A800陣列(高可用性配對配置),5個DGX-1 GPU伺服器,連接2個思科Nexus 100GbitE交換機。速度較慢的A700全快閃記憶體陣列參考架構支持4個DGX-1和40GbitE。

A800系統通過100GbitE鏈路連接到DGX-1,支持RDMA作為集群互連。A800可橫向擴展為24節點集群和74.8PB容量。

據說A800系統可實現25GB /秒的讀取帶寬和低於500微秒的延遲。

Nvidia與NetApp合作打造深度學習GPU伺服器晶元

NetApp Nvidia DL參考架構配置圖

Pure Storage和Nvidia的AIRI有一個FlashBlade陣列,支持4個DGX-1。FlashBlade陣列提供17GB /秒的速度,低於3毫秒的延遲。這與NetApp和Nvidia合作的參考架構系統相比似乎較慢,但A800是NetApp最快的全快閃記憶體陣列,而Pure的FlashBlade則更多地是一款容量優化型快閃記憶體陣列。

和Pure AIRI Mini一樣,NetApp Nvidia DL RA可以從1個DGX-1起步,擴展到5個。 A800的原始容量通常為364.8TB,Pure的AIRI原始快閃記憶體容量為533TB。

AIRI RA配置圖如下所示:

Nvidia與NetApp合作打造深度學習GPU伺服器晶元

Pure Nvidia AIRI配置圖

NetApp和Pure都對他們的這兩個系統進行了基準測試,並且都包含Res-152和ResNet-50運行使用合成數據、NFS和64批量大小。

NetApp提供了圖表和數據,而Pure只提供圖表,所以對比起來有點困難。不過,我們可以通過將這些圖表放在一起做個粗略的估計。

合成的總圖表並不漂亮,不過確實提供了一些對比:

Nvidia與NetApp合作打造深度學習GPU伺服器晶元

NetApp和Pure Resnet性能對比

至少從這些圖表可以看出,NetApp Nvidia RA的性能優於AIRI,但讓我們吃驚的是,由於NetApp/Nvidia DL系統與Pure AIRI系統相比具有更高的帶寬和更低的延遲,分別是25GB/s的讀取帶寬和低於500微秒以下,後者分別17GB/s和低於3毫秒。

價格對比很好,但沒有人透露給我們這方面的數據。我們猜測Nvidia可能會宣布更多深度學習方面的合作夥伴關係,就像NetApp和Pure這樣的。HPE和IBM都是很明顯的候選對象,還有像Apeiron、E8和Excelero等NVMe-oF這樣的新興陣列初創公司。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 至頂網 的精彩文章:

違約風險的洞察者——鼎複數據 複眼·違約預警系統 新品發布
谷歌開發出一種能夠模仿大腦「雞尾酒會效應」的人工智慧

TAG:至頂網 |