迎接「異構超算」新時代：日本Cygnus超算GPU和FPGA雙硬體加持，TOP500榜單只此一台

新聞 04-19

新智元報道

來源：github

編輯：大明

【新智元導讀】異構超級計算機時代已經到來。近日，日本筑波大學上線的Cygnus超算成為第一台進入超算top500榜單的GPU、FPGA混合加速超級計算機。在如何讓CPU、GPU、FPGA多硬體協調、高效、同步提供算力上邁出了重要一步。

如果說「異構超級計算機」的時代已經到來，那麼本月早些時候在日本筑波大學上線的 CPU、GPU、FPGA混合硬體超算系統就是這個時代的首批探索者之一。

這台超算名為Cygnus，由NEC製造，目前在日本筑波大計算科學中心（CCS）運行，由Intel Xeon CPU，Nvidia Tesla GPU和Intel Stratix 10 FPGA共同提供硬體支持。

Cygnus系統架構：所有80個Cygnus節點都配備了兩個Xeon「Skylake」黃金 CPU和四個Tesla V100 GPU，同時在32個節點中，還和GPU搭載了兩個Stratix 10 FPGA。48個CPU-GPU專用節點稱為「Deneb節點」（以最亮的Cygnus A星命名），而32個CPU-GPU-FPGA節點稱為Albireo節點（以Cygnus A雙星命名）。

FPGA型號為Bittware 520N PCIe卡，供應商為Nallatech，這些「重型」FPGA卡可以提供10 teraflops的單精度性能，以及四組DDR4內存。尤其是，該卡配備了四個100G光纖網路埠，共提供400Gbps帶寬，可以通過自身結構直接與其他520N FPGA進行通信。在Cygnus中，可將8×8的2D環形網路中的64個FPGA相互連接。Bittware包括一個板級支持包（BSP），可供OpenCL開發人員使用。

每個Cygnus節點的雙精度浮點性能為30 teraflops，其中28個節點算力由四個V100 GPU提供。由兩個Stratix 10器件在配備FPGA的節點上提供20個單精度teraflops。整機可提供算力為2.4 petaflop（64位浮點）或5.12 petaflop（32位浮點）算力。

目前，Cygnus正在取代該機構之前使用的COMA，COMA是一款由Intel Xeon CPU和Xeon Phi協處理器驅動的Cray CS300計算機集群。它於2014年組建，今年3月底退役，為Cygnus讓位。

Mellanox HDR InfiniBand負責Cygnus上的系統互連，與獨立的FPGA網路一樣，系統設計人員確保了足夠的帶寬來進行節點間通信。每個節點使用四個100Gbps HDR通道，連接為全二分fat樹網路。InfiniBand網路還用於訪問託管在DataDirect Networks ES14KX設備上的2.5 PB Lustre文件系統。

儘管「雙加速硬體」的設定很新潮，但其實Cygnus並不是試驗機。其組建的主要用途是為宇宙學、粒子物理學、生命科學和人工智慧等領域科學研究提供生產力。通過CPUGPUFPGA的組合，力求在實際科學研究中最有效地發揮這些硬體各自的計算優勢。

具體來說，GPU負責提供粗粒度並行計算，主要擅長SIMD友好型計算，而FPGA提供細粒度並行計算，更適合應用於非SIMD演算法。而對於氣候模擬，生物信息學、分子動力學、地球物理學和線性代數中使用的一些特定演算法，FPGA已經證明能夠實現比CPU、GPU更快、更高效的運算。不過，在科學上可以通過代碼同時高效利用這兩種架構。

Cygnus系統架構圖

Cygnus的目標應用之一是模擬早期宇宙，模擬光源的輻射傳輸。模擬過程是在一個套為ARGOT的代碼中實現的，其中名為「ART」（真實輻射傳輸）的光線追蹤演算法是該模擬中的重要部分，ART部分更適合FPGA硬體平台上的大規模運行。

不過，ARGOT的其他部分在GPU上運行更合適，因此利用「雙硬體加速」成為最佳解決方案。該應用程序在GPU和FPGA之間使用基於PCIe的直接存儲器訪問來實現協調，避免了使CPU受到影響而出現延遲。

ART實現是使用相對較高級別的OpenCL實現的，這表明其他開發人員也可以這樣做。Bittware方面表示，使用OpenCL實現的用戶與嚴格使用硬體描述語言（HDL）實現的用戶進行對比發現，在許多情況下，OpenCL實現在性能方面與後者「足夠接近」。

過去幾年來，FPGA軟體開發的進展促使微軟、亞馬遜和百度等巨頭越來越廣泛地採用FPGA硬體，尤其是在機器學習和推理等應用上。

但是，在高性能計算平台中，使用FPGA的設備更少。筑波大學的這台Cygnus將是唯一一個進入超算TOP500榜單的採用FPGA加速的超級計算機。德國帕德博恩大學去年安裝了一台使用FPGA的超算，Cray CS500超級計算機，配備了32塊Bittware 520N卡，不過該機沒有配備GPU。

還有一些其他FPGA式的HPC集群遍布世界各地，包括美國佛羅里達州的CHREC（現改稱SHREC）的Nova-G＃系統，英國Hartree中心的Maxeler HPC-X以及Catapult 1和TACC的HARP v2計算機集群。

未來是否會有更多更強大的異構超級計算機誕生？這不僅取決於使用者的需求，更多還要取決於硬體廠商和開發者是否繼續從上到下推動生態系統建設。

從Bittware的角度來看，關鍵的推動力一定是來自中間層面的，同時有賴於對高級語言和更成熟的開發工具更充分的支持。目前的好消息是，業界最大的兩家FPGA製造商——英特爾和賽林思都在為開發人員提供更好的工具，並將這些工具與下一代FPGA產品整合在一起。

從這一點上看，我們似乎可以對異構超算的未來保持一份謹慎的樂觀。

參考鏈接：

https://www.nextplatform.com/2019/04/18/supercomputer-mixes-streams-with-cpu-gpu-and-fpga/

更多閱讀

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※中關村首鋼AI園發布首期創新英雄召集令：五大場景徵集AI示範項目
※論文遭質疑怎麼辦？大神何愷明現身教學

TAG:新智元 |