當前位置:
首頁 > 科技 > 黑科技:高性能計算BurstBuffer技術詳解

黑科技:高性能計算BurstBuffer技術詳解

Burst Buffer是什麼技術,它跟HPC有什麼關係?首先我們一起來了解一個美國超算中心NERSC(國家能源研究科學計算中心),然後通過NERSC超算系統和Burst Buffer應用來說說Burst Buffer技術。

NERSC一直與Cray(克雷)合作,為Cori (Cori 是 NERSC最新的大型計算系統) 的用戶和應用提供Burst Buffer技術。NERSC Burst Buffer是採用Cray DataWarp技術,其本質是使用快閃記憶體或SSD技術來顯著提高Cori的I/O性能。

NERSC致力於通過高性能計算和數據分析加速美國能源部科學探索,並向科學辦公室提供高性能計算服務。NERSC的使命是實現規模的計算科學,需要大量計算和廣泛建模。包括光合作用建模,全球氣候建模,燃燒建模,磁性融合,天體物理學,計算生物學等等,這些場景都存在浪涌型IO高性能訴求。

為什麼需要Burst Buffer

NERSC為了滿足用戶對更好的I/O性能的要求,已經在多個計算系統採用了Burst Buffer技術。採用Burst Buffer,可以改進兩個場景的I/O性能。

1.改善應用程序可用的總帶寬。帶寬越高,經過優化的應用程序可以在單位時間讀取/寫入大量數據越多,速度越快。

2.提升文件系統的OPS。HPC場景,有許多應用程序要執行大量的小型I/ O操作,在這種情況下OPS成為性能的限制因素。

另外,Burst Buffer技術通過更快的checkpoint restart提高應用程序可靠性;加快了小塊傳輸和分析的I/O性能;為核心外部應用程序提供快速臨時空間;為需要持久快速存儲的大量文件輸入或耦合模擬分析作業創建暫存區域

Burst Buffer架構

下圖說明了Burst Buffer的概念架構。Burst Buffer在物理位置上是處於計算和存儲節點之間,本質是一層Flash層。在Cray DataWarp方案中,它承載在專門的XC40計算硬體節點上,它是I/O計算節點(採用Aries互聯)和存儲Fabric的橋樑。SSD安裝在Burst Buffer節點中,通過Scheduler和DataWarp軟體堆棧來調動和支持HPC計算作業。

Burst Buffer節點內部的SSD通過PCIe連接,插入到計算刀片XC40中,並通過Aries HPC互連連接。DataWarp支持Lustre、GPFS和PanFS並行文件系統,給FS提供一個全局的Flash緩存層,通過智能調度演算法來從下層並行文件系統預取計算數據。

Cray DataWarp(BB)的快閃記憶體磁碟連接到XC40節點。每個Brust Buffer節點包含一個至強處理器64 GB DDR3內存,以及兩個3.2 TB NAND快閃記憶體SSD模塊,連接在兩個PCIe gen3 x8介面上。每個Burst Buffer節點通過PCIe Gen3 x16介面連接到Cray Aries網路互連。 每個Burst Buffer節點提供大約6.4 TB的可用容量和大約5.7 GB/s的順序讀寫帶寬的峰值。

DataWarp的軟體堆棧包括:創建掛載點服務、LVM卷,XFS和DataWarp文件系統。DataWarp中的多個SSD設備通過LVM管理起來,然後在創建Brust Buffer時創建XFS組成Brust Buffer空間,DataWarp File System (DWFS)配合安裝在計算節點的Client來協調數據在Brust Buffer上換入換出,並且向計算節點提供統一命名空間來進行數據訪問

這種架構提供了許多適合NERSC的科學Workload的特性。在技術上主要體現在以下幾個方面。

調度程序集成。對Burst Buffer資源的訪問與系統的調度程序集成。 調度程序提供了調配一組用戶或作業共享的BurstBuffer資源的功能。它還可以處理自動數據遷移到BurstBuffer,或從BurstBuffer存儲遷移到後端存儲。

緩存模式。BurstBuffer還可以提供緩存模式,其中快閃記憶體資源用作大型Lustre文件系統的緩存層。這種模式對用戶程序代碼是透明的,無需修改代碼便可提供高性能I / O。

過濾分析。允許在BurstBuffer節點上處理和過濾數據。

NERSC的Burst Buffer路標

Burst Buffer軟體堆棧預計將分四個階段交付(如下所示):Burst Buffer軟體的第一階段是在2015年秋季與Cori系統的第一階段一起交付的。

第一階段,Burst Buffer為每個計算任務分配持久存儲預留;

在第二階段才能實現Cache模式;

到了第三階段,BurstBuffer才能真正實現基於演算法的冷熱數據自動換入換出加速。

在2015年8月完成了對Burst Buffer Early Access計劃的建議徵集。

DataWarp軟體在第1階段提供了使用Burst Buffer的API。用戶通常通過批處理系統(即slurm)與此介面以定義突發緩衝區分配,例如大小和訪問模式(條帶化),並指定預留是否應該是持久的。Burst緩衝區可用於所有Cori用戶,BurstBuffer在Cori系統上,可以提供大約1.7 TB/秒的峰值I/O性能,具有28M IOP和大約1.8PB的存儲容量

Cray的HPC方案

Cray也是HPC領域的領頭羊,他和DDN、Xyrate和PanaSas等並駕齊驅。Cray的XC40和CS400超級計算機使用Haswell處理器和DataWarp BurstBuffer技術,採用並NVIDIA Tesla GPU加速器和英特爾至強融核協處理器,以帶來更強的圖形處理能力。

Cray XC系列計算伺服器包含XC40計算、XC50 GPU節點和XC40-AC製冷系統,XC40基於Intel Aries ASIC系統連接XC40基本刀片上的計算和I / O節點,使用PCIe Gen3主機介面,所有處理器採用Aries網路都彼此相連。

XC40可以擴展到超過一百萬個內核。該架構針對每個計算節點實現兩個處理器引擎,每個刀片具有四個計算節點。刀片以8對(16個機箱)堆疊,每個機櫃最多可以安裝三個機箱,每個機櫃384個插座。

CS400集群超級計算機使用行業標準刀片式或機架式伺服器,並分別在CS400-AC和CS400-LC系統上提供空氣或液體冷卻。它們可擴展到11,000個計算節點和40個峰值Peta Float/s。

Cray CS400集群提供兩個關鍵的能力,即可定製的HPC集群軟體堆棧和Cray的高級集群引擎(ACE)系統管理軟體

HPC群集軟體堆棧包括經過驗證和測試的軟體工具、操作系統、中間件應用程序和HPC編程工具。這些工具與大多數開源和商業編譯器,調試器,調度程序和庫兼容。Cray編程環境,Cray科學和數學庫以及Cray性能測量和分析工具也可作為軟體堆棧的一部分。

Cray Sonexion 3000 scale-out Lustre存儲系統提供了Scrach存儲空間,用來存儲大量初始數據和計算結果數據,DataWarp Brust Buffer是一個應用程序IO加速器,使用PCIe快閃記憶體直接連接到XC40計算節點。它從存儲中獲取數據,滿足最糟糕的數據I/O浪涌臨時高速緩存需求

其他的Burst Buffer產品

除了Cray外,DataDirect NetWorks、IBM和EMC都在研究Burst Buffer技術

DDN的IME Burst Buffer方案是IME (Infinite Memory Engine)。通過IME設備智能緩存或預讀數據,可以提供計算峰值業務負載要求,分離峰值和平穩業務性能需求,降低存儲在滿足峰值業務訴求的投資。

IME交付方式包含IME14KX、 IME240和純軟體產品和基於存軟體方式(DDN提供了一種軟體定義防止廠商鎖定的交付模式)。

關於EMC,我們知道Isilon一直活躍在HPC和大數據處理領域,推出Isilon All-Flash節點作為其他節點的高速緩存,針對一般的HPC計算已經遊刃有餘。

EMC的Burst Buffer方案採用專用硬體設備,叫做Active Burst Buffer Appliance(aBBa),從EMC的測試來看,採用Burst Buffer後,不但均衡分擔了系統性能,而且在整體計算性能上可以提升30%。aBBa支持的並行文件系統比較廣泛,包括了Lustre, Isilon, PanFS, HDFS和VNX等。

EMC Burst Buffer架構(Fast Forward IO)和Cray DataWarp以及DDN的IME在架構上類似,伺服器計算節點安裝IO Forwarding Client和aBBa交互,智能的根據演算法加速或預取數據,並存儲臨時計算數據;在aBBa上IO Dispatcher處理數據分布,並且把aBBa上的NVMe磁碟進行管理,由IO Forwarding Server統一呈現給IO Forwarding Client

在aBBa上需要安裝Lustre客戶端用來讀取並行文件系統上的數據,並根據數據模型和預取演算法把數據加速到aBBa,或淘汰數據到後端並行文件系統。

針對浪涌型計算業務,Burst Buffer更好的平衡存儲投入成本和性能要求,採用較少的SSD提供高峰時的計算性能,當業務在波谷時,則可以由並行文件系統來提供帶寬服務。隨著SSD NAS在HPC行業的大規模使用,也預示著SSD除了在OLAP、OLTP資料庫、VDI等IOPS型關鍵業務應用外,也在迅速的滲透到其他水平行業,如帶寬型業務,標誌著SSD未來在大容量和高性能(IOPS、OPS和帶寬等)NAS應用有著廣闊的前景。

第1章 HPC行業和市場概述1

1.1 HPC主要場景和分類2

1.2 HPC系統主要組成11

1.3 HPC IO業務模型12

1.4 HPC系統架構演變13

1.5 HPC市場的主流玩家14

1.5.1 HPC存儲廠商分類15

1.5.2 Burst Buffer介紹15

1.5.3 Panasas和Seagate介紹17

1.5.4 主流並行文件系統17

1.6 HPC對存儲的主要訴求19

1.7 HPC系統的衡量標準20

1.8 HPC未來的技術趨勢22

第2章 HPC場景的存儲形態23

2.1 HPC為何是NAS存儲23

2.2 本地存儲引入的問題23

2.3 HPC主要的存儲形態25

第3章 Lustre文件系統解析26

3.1 Lustre文件系統概述26

3.2 Intel Lustre企業版開源策略26

3.3 Lustre文件系統架構27

3.4 Lustre Stripe切片技術30

3.5 Lustre 的IO性能特徵34

3.5.1 寫性能優於讀性能34

3.5.2 大文件性能表現好35

3.5.3 小文件性能表現差35

3.6 Lustre小文件優化36

3.7 Lustre性能優化最佳實踐38

第4章 GPFS文件系統解析39

4.1 GPFS文件系統概述39

4.1.1 GPFS文件系統架構40

4.1.2 GPFS文件系統邏輯架構41

4.2 GPFS文件系統對象42

4.2.1 網路共享磁碟NSD42

4.2.2 集群節點及客戶端節點43

4.2.3 仲裁Node和Tiebreaker磁碟43

4.3 GPFS集群仲裁機制43

4.3.1 仲裁節點機制44

4.3.2 仲裁磁碟機制44

4.4 GPFS Failure Group失效組44

4.5 GPFS文件系統伸縮性45

4.6 GPFS文件系統負載均衡45

第5章 Spectrum Scale架構詳解46

5.1 Spectrum Scale雲集成48

5.2 Spectrum Scale存儲服務49

5.3 Spectrum Scale交付模型50

5.4 Spectrum Scale架構分類51

5.5 Spectrum Scale企業存儲特性52

5.5.1 Spectrum Scale數據分級至雲52

5.5.2 Spectrum Scale RAID技術53

5.5.3 Spectrum Scale Active文件管理53

5.5.4 Spectrum Scale快照技術53

5.5.5 Spectrum Scale Cache加速54

5.5.6 Spectrum Scale分級存儲管理55

5.5.7 Spectrum Scale文件和對象訪問56

5.5.8 Spectrum Scale加密和銷毀57

5.6 Spectrum Scale虛擬化部署57

5.7 Spectrum Scale LTFS帶庫技術58

5.8 Elastic Storage Server61

第6章 BeeGFS文件系統解析62

6.1 ThinkParQ介紹62

6.2 BeeGFS操作系統兼容性63

6.3 BeeGFS系統架構63

6.3.1 管理伺服器介紹64

6.3.2 元數據伺服器介紹65

6.3.3 對象存儲服務介紹66

6.3.4 文件系統客戶端67

6.4 BeeGFS安裝和設置68

6.5 BeeGFS調優和配置69

6.6 BeeOND Burst Buffer69

6.7 BeeGFS配額特性72

6.8 BeeGFS的Buddy鏡像73

6.9 BeeGFS支持API概述75

6.10 BeeGFS系統配置要求75

6.10.1 存儲伺服器配置76

6.10.2 元數據伺服器配置77

6.10.3 客戶端伺服器配置77

6.10.4 管理守護進程配置78

6.11 BeeGFS支持的網路類型78

6.12 通過NAS導出BeeGFS78

6.13 BeeGFS生態和合作79

第7章 主流HPC產品和解決方案82

7.1 DDN存儲解決方案和產品82

7.1.1 DDN S2A平台和產品83

7.1.2 DDN SFA平台和產品85

7.1.3 DDN WOS平台和產品86

7.1.4 DDN Scaler系列網關產品87

7.1.5 Burst Buffer加速產品91

7.1.6 FlashScale全快閃記憶體產品93

7.2 希捷存儲解決方案和產品96

7.2.1 ClusterStor產品架構99

7.2.2 ClusterStor Manager介紹100

7.2.3 ClusterStor配置擴展方式101

7.2.4 ClusterStor存儲軟體集成架構104

第8章 Burst Buffer技術和產品分析107

8.1 Cray DataWarp技術和產品107

8.1.1 Burst Buffer場景匹配109

8.1.2 Burst Buffer技術架構110

8.1.3 Cray技術演進藍圖113

8.1.4 Cray HPC方案和產品114

8.2 DDN Burst Buffer產品117

8.2.1 IME產品架構117

8.2.2 IME14KX產品介紹120

8.2.3 IME240產品介紹121

8.3 EMC Burst Buffer產品122

8.3.1 aBBa產品架構123

8.3.2 aBBa軟體堆棧124

第9章 HPC主流網路和技術分析126

9.1 InfiniBand技術和基礎知識126

9.1.1 IB技術的發展126

9.1.2 IB技術的優勢127

9.1.3 IB網路重要概念129

9.1.4 IB協議堆棧分析130

9.1.5 IB應用場景分析134

9.2 InfiniBand技術和架構135

9.2.1 IB 網路和拓撲組成135

9.2.2 軟體協議棧OFED139

9.2.3 InfiniBand網路管理140

9.2.4 並行計算集群能力141

9.2.5 基於socket網路應用142

9.2.6 IB對存儲協議支持142

9.2.7 RDMA技術介紹143

9.3 Mellanox產品分析143

9.3.1 Infiniband交換機145

9.3.2 InfiniBand適配器148

9.3.3 Infiniband路由器和網關設備149

9.3.4 Infiniband線纜和收發器150

9.4 InfiniBand和Omni-Path之爭151

9.4.1 Intel True Scale Fabric 軟體架構152

9.4.2 Intel InfiniBand產品家族154

9.4.3 Intel Omni-Path產品介紹155

9.4.4 Omni-Path和InfiniBand對比156

第10章 HPC超算系統排名和評估160

10.1 TOP500基準介紹和排名規則162

10.2 Green500基準介紹和排名規則165

10.3 HPC超算系統其他評估基準167

10.3.1 GTC-P應用基準173

10.3.2 Meraculous測試基準173

10.3.3 MILC測試基準174

10.3.4 MiniDFT測試基準174

10.3.5 MiniPIC測試基準174

10.3.6 PENNANT測試基準175

10.3.7 SNAP測試基準175

10.3.8 UMT測試基準175

10.3.9 Crossroads/N9 DGEMM基準175

10.3.10 IOR BenchMark基準176

10.3.11 Mdtest測試基準176

10.3.12 STREAM測試基準176

溫馨提示:

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 架構師技術聯盟 的精彩文章:

詳解Kafka:大數據開發最火的核心技術
邊緣計算,關鍵技術是什麼?

TAG:架構師技術聯盟 |