Nvidia與NetApp合作打造深度學習GPU伺服器晶元

科技 06-07

NetApp和Nvidia已經推出了一個組合式的AI參考架構系統，與Pure Storage和Nvidia 合作的AIRI系統相競爭。

這款系統主要針對深度學習，與FlexPod（思科和NetApp合作的融合基礎設施）不同，這款系統沒有品牌名稱。而且與AIRI不同的是，它也沒有自己的機箱封裝。

NetApp和Nvidia技術白皮書《針對實際深度學慣用例的可擴展AI基礎設施設計》定義了一個針對NetApp A800全快閃記憶體存儲陣列和Nvidia DGX-1 GPU伺服器系統的參考架構（RA）。此外還有一個速度慢一些的，成本更低的、基於A700陣列的參考架構。

高配的參考架構支持單個A800陣列（高可用性配對配置），5個DGX-1 GPU伺服器，連接2個思科Nexus 100GbitE交換機。速度較慢的A700全快閃記憶體陣列參考架構支持4個DGX-1和40GbitE。

A800系統通過100GbitE鏈路連接到DGX-1，支持RDMA作為集群互連。A800可橫向擴展為24節點集群和74.8PB容量。

據說A800系統可實現25GB /秒的讀取帶寬和低於500微秒的延遲。

Nvidia與NetApp合作打造深度學習GPU伺服器晶元

NetApp Nvidia DL參考架構配置圖

Pure Storage和Nvidia的AIRI有一個FlashBlade陣列，支持4個DGX-1。FlashBlade陣列提供17GB /秒的速度，低於3毫秒的延遲。這與NetApp和Nvidia合作的參考架構系統相比似乎較慢，但A800是NetApp最快的全快閃記憶體陣列，而Pure的FlashBlade則更多地是一款容量優化型快閃記憶體陣列。

和Pure AIRI Mini一樣，NetApp Nvidia DL RA可以從1個DGX-1起步，擴展到5個。 A800的原始容量通常為364.8TB，Pure的AIRI原始快閃記憶體容量為533TB。

AIRI RA配置圖如下所示：

Nvidia與NetApp合作打造深度學習GPU伺服器晶元