高性能計算Lustre性能優化方案

最新 08-09

談起HPC時，似乎繞不開Lustre。Lustre是HPC的代名詞，它是開源HPC並行文件系統市場佔有率最高的文件系統，並得到了如Intel和DDN等廠商的大力支持。目前，Intel與Lustre相關的業務已經被DDN所接手。

鑒於Lustre在HPC行業的知名度和認可度，今天，給讀者分享一篇關於Lustre調優的文章，目的是給Lustre學習者和愛好者提供些學習參考。

1 Lustre性能優化參考

1.1 網路帶寬

網路帶寬往往決定著lustre文件系統的聚合帶寬。Lustre是通過多個OSS同時讀取數據來提高系統整體的讀寫性能，然而，如果網路傳輸的性能過低，則無法發揮lustre文件系統的性能優勢。從以下幾點考慮網路帶寬對性能的影響：

網路類型(TCP/IP網路及Infiniband網路)

網卡類型(千兆網/萬兆網)

網卡數量及綁定方式(網卡綁定一起)

網卡綁定模式

補充：

通常情況下Infiniband網路性能遠遠高於TCP/IP網路，但成本較高

萬兆網比千兆網性能高

網卡綁定模式一般為6。

1.2 Lustre自身設置

Luster自身設置主要是條塊數（即OST的個數）及如何條塊化，這兩方面也是lustre實現I/O並發的關鍵。條帶化能夠使系統達到並發的目的，從而影響了系統的性能。Luster自身設置對系統性能的影響主要從以下幾個方面：

條塊大小（stripesize，min=64KB）

條塊數（stripecount）

起始塊數（start-ost，即條塊起始位置）

補充：

通常情況下start-ost默認為-1，不需要進行修改，該設置即不指定初始位置，能夠很好達到負載均衡的目的

通常情況下lustre條塊的大小的增加，聚合帶寬總體呈下降趨勢，當條塊過大時，某一時間內的多個I/O發生在同一個OST上，造成I/O等待，通常設置為64KB

通常情況下，隨著條塊數增加，聚合帶寬總體呈上升趨勢，在一定的環境下，合理的配置OST可以良好的發揮lustre的系統性能。

1.3 客戶端設置

Lustre文件系統中，客戶端生成一個全局存儲空間，用戶數據通過客戶端存入lustre文件系統中，所客戶端的設置也會影響系統的性能。

主要從以下幾點：

單個客戶端進程數(連接數)

讀寫塊大小

客戶端數量

補充：

隨著連接數(進程數)的增加，聚合帶寬開始呈上升趨勢，到一定程度後穩定(此時系統性能尚未達到飽和)，隨著連接數的增加，帶寬開始下降

隨著I/O讀寫塊的大小增加，聚合帶寬開始呈現上升趨勢，到一定程度後穩定，隨後增加塊大小聚合帶寬反而下降，當64KB~64MB大小時，保持穩定

隨著客戶端數目的增加，讀模式下的聚合帶寬明顯提高，而寫模式下的聚合帶寬則變化不明顯。

1.4 存儲RAID

Luster底層存儲設備採用通用存儲設備，可以是單磁碟，也可以是RAID，也可以是LVP，大部分採用RAID方式，既能保證聚合存儲容量，又能提供數據保護。主要從以下幾點說明：

RAID方式(硬RAID/軟RAID)

RAID模式(RAID0/1/2/3/4/5/6/10/01)

硬RAID卡類型

做RAID的磁碟類型(SATA、SAS、SSD)

補充：

通常情況下，lustre文件系統底層採用硬RAID的方式進行底層存儲，性能遠遠大於軟RAID，但成本高

Luster通常做RAID6，提高數據保護

OST磁碟一般採用低成本的SATA盤，而MDS則一般採用SSD盤

2 Lustre小文件優化

2.1 整體設置

1、通過應用聚合讀寫提高性能，比如對小文件進行Tar，或創建大文件或通過loopback mount來存儲小文件。小文件系統調用開銷和額外的I/O開銷非常大，應用聚合優化可以顯著提高性能。另外，可以使用多節點、多進程/多線程儘可能通過聚合來提高I/O帶寬。

2、應用採用O_DIRECT方式進行直接I/O，讀寫記錄大小設置為4KB，與文件系統保持一致。對輸出文件禁用locking，避免客戶端之間的競爭。

3、應用程序盡量保證寫連續數據，順序讀寫小文件要明顯優於隨機小文件I/O。

4、OST採用SSD或更多的磁碟，提高IOPS來改善小文件性能。創建大容量OST，而非多個小容量OST，減少日誌、連接等負載。

5、OST採用RAID 1+0替代RAID 5/6，避免頻繁小文件I/O引起的數據校驗開銷。

2.2 系統設置

1、禁用所有客戶端LNET debug功能：預設開啟多種調試信息，sysctl -w lnet.debug=0，減少系統開銷，但發生錯誤時將無LOG可詢。

2、增加客戶端Dirty Cache大小：預設為32MB，增大緩存將提升I/O性能，但數據丟失的風險也隨之增大。

3、增加RPC並行數量：預設為8，提升至32將提高數據和元數據性能。不利之處是如果伺服器壓力很大，可能反而會影響性能。

4、控制Lustre striping：lfs setstripe -c 0/1/-1 /path/filename，如果OST對象數大於1，小文件性能會下降，因此將OST對象設置為1。

5、客戶端考慮使用本地鎖：mount -t lustre -o localflock，如果確定多個進程從同一個客戶端進行寫文件，則可用localflock代替flock，減少發送到MDS的RPC數量。

6、使用loopback mount文件：創建大Lustre文件，與loop設備關聯並創建文件系統，然後將其作為文件系統進行mount。小文件作用其上，則原先大量的MDS元數據操作將轉換為OSS讀寫操作，消除了元數據瓶頸，可以顯著提高小文件性能。

這種方法應用於scratch空間可行，但對於生產數據應該謹慎使用，因為Lustre目前工作在這種模式下還存在問題，操作方法如下:

3 文檔說明

Lustre文件系統的性能優化研究2011(王博，李先國，張曉)

基於軟RAID的lustre性能影響要素簡析2008(張丹丹，姚繼峰)

Luster I/O性能最佳實踐

Luster文件系統I/O性能的分析和改進(林松濤，周恩強，廖湘科)

溫馨提示：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 架構師技術聯盟 的精彩文章:

※詳解SSD可靠性影響因素、原理和解決方法
※詳談微服務與容器技術發展史

TAG:架構師技術聯盟 |