伺服器不宕機的秘密！

科技 08-27

一個平靜周末，我正在看書，微信突然震動了起來。原來是我發小，「暴發戶」吳知，高中輟學在電腦城做組裝電腦學徒工，多年後成了IT設備代理商老闆。

伺服器不宕機的秘密！

頻繁重啟、降頻

都是GPU伺服器DIY惹的禍

到了老吳的公司——智慧公司後，經過開會和之前的現場檢測材料，我發現了一些問題：

■背景:

用戶計劃開展一個AI項目，需要大批量伺服器支持以實現機器深度學習，其中用戶要求應用3種不同的伺服器：

◆ 2路高性能伺服器：要求具備高性能CPU，例如：使用Intel至強鉑金8180；

◆ 2路GPU伺服器（訓練）：使用在深度學習的訓練階段，要求具備較高的單/雙精度浮點運算能力，例如：NVIDIA P100 、V100；

◆ 2路GPU伺服器（推理）：使用在深度學習的推斷階段，要求具備一定的浮點運算能力外，還要具備一定的整數能力，例如：NVIDIA P4 、 P40。

■智慧公司解決方案：

◆ 2路高性能伺服器：某知名品牌的2路機架式伺服器；

◆ 訓練伺服器：（分為2部分機器）

- 使用DIY工作站 +外購GPU P100；

- 使用某知名品牌伺服器+外購GPU P100；

◆ 推理伺服器：（分為2部分機器）

- 使用DIY工作站 +外購GPU P40；

- 使用某知名品牌伺服器 +外購GPU P40；

■故障現象：

◆ 2路高性能伺服器未見故障現象；

◆ 訓練伺服器：

- DIY工作站不定時重啟；

- 伺服器不定時重啟或發現性能下降；

◆ 推理伺服器：

- DIY工作站會不定時重啟；

- 伺服器發現性能下降；

經過上面的總結，我心裡總算有數了。於是問了當時在現場的檢測工程師兩個問題：

◆ 如何發現伺服器性能下降的？

◆ 當時是否檢了測伺服器和工作站的溫度？

工程師回答說，用戶投訴的其中一個地方就是運行一段時間後，應用明顯感覺過慢，隨後工程師通過軟體監控發現部分設備的CPU和GPU發生降頻。當時檢測了CPU和GPU的溫度，基本上溫度都超過了85℃。所以，他們嚴重懷疑溫度導致了上述情況發生。然而他們也發現，有一小部分CPU或GPU溫度的並沒有那麼高，但是也發生了重啟。

伺服器不宕機的秘密！

針對上述情況，我建議工程師通過下面的測試方法，再次現場檢測溫度的問題：

◆ 嘗試將目前GPU伺服器的多GPU先後分別拔出來，觀察其運行的狀態；（原GPU伺服器有2~4塊GPU不等）

◆ 監測那些溫度沒有太高，而有故障發生的CPU和GPU設備的出風口溫度是多少？同時記錄該類設備是什麼類型的？

沒過多久，結果出來了。首先，當GPU伺服器的GPU數量較少後，伺服器重啟的現象大大減少了，特別是單塊GPU運行的時候，重啟現象沒有了，但CPU和GPU降頻的現象還在部分機器中存在。至於那些CPU或GPU溫度顯示沒有那麼高（≥85℃）的設備都是DIY的工作站，而且出風口的溫度比其它所有伺服器的溫度都高！

有GPU的伺服器

可不等於GPU伺服器

找到問題後，我馬上跟老吳說。你兩兄弟真的是吳知吳畏啊！所有這些現象綜合起來看，明顯就是設備的散熱能力不足，導致了關鍵元件（CPU和GPU）溫度過高，從而致使設備重啟或降頻。那些DIY工作站的出風口溫度比其它設備都高，在負載與其它設備一樣的情況下，正常來說設備裡面的CPU和GPU的溫度不可能比其它設備低。因為是DIY工作站的關係，其元件的溫度檢測機制或感測器非常可能與品牌伺服器不同，所以檢測結果並不一定準確。從出風口的溫度對比可以判斷，DIY工作站中的CPU和GPU的實際溫度可能也是過高的！

伺服器不宕機的秘密！

聽過了我的解釋，老吳馬上詢問解決方法。我半開玩笑的說，首先你需要多送幾台機房專用的精密空調，最好是將機房變成冷庫；之後你將伺服器和DIY工作站更改成更好的散熱方式，例如：CPU和GPU都更改成液冷的方式。

老吳說：「你別埋汰我了，先不說成本。這個我們根本做不來了啊！」我呵呵幾聲「你們連GPU伺服器都能DIY出來，還有什麼不能DIY的啊！？」。

吳知哭喪著臉說「先不說成本，我們即將跟客戶簽訂了更大批量的設備了，這個只是剛開始試行的小批量。」

看著老吳的臉，我還是不由自主地講出了我的解決方案：

◆ 將目前的伺服器和工作站都換給客戶或其他客戶當做圖形工作站使用，而且只能使用單個GPU。另外，建議只使用功耗較低的GPU，因為這樣可以使設備的散熱能力保障CPU和GPU溫度不會過高；

◆ 換成專業的GPU伺服器；

吳知聽後，馬上問我：「什麼叫專業的GPU伺服器？不就是伺服器插上GPU嗎？！」。我聽後哈哈大笑，說：「武松和武大也都是出自同一個平台的哦，你覺得是否一樣的呢？再說了，你和你兄弟吳畏也是來自同一平台的，你覺得呢？！」。吳知聽後也感覺哭笑不得！

其實，專業的GPU伺服器，特別是多GPU伺服器其中的散熱機制是完全不同的。舉個例子：Dell EMC普通的伺服器R740，也可以變身為GPU伺服器。因為R740可以支持3張雙寬度GPU或6張單寬GPU。但是你絕對不能認為帶GPU的R740和不帶GPU的R740隻是GPU的區別，其它都是一樣的！這個絕對不是！下面就是兩者之間的區別！

伺服器不宕機的秘密！

戴爾易安信GPU伺服器多態共生

散熱是關鍵

吳知看到了後說：「哦，我明白了。原來GPU伺服器的整套散熱套件的設計和零件都不同的，而且Dell EMC的設計還非常人性化和考慮周到，連防止GPU鬆動的固定件和保護的泡沫都考慮到了！」

伺服器不宕機的秘密！

我說這個還不止，因為R740這類型的伺服器在設計的當初就是一款可以安裝GPU的伺服器，所以在設計的時候，各個元件的分布都是經過精心考慮而布局的，而且通過散熱風流實驗驗證的。所以你第一眼看到各個元件，甚至是線纜，它們的分布和擺放都是均勻對稱整齊的。整個設計都是經過Dell EMC Fresh Air 2.0（新風技術2.0）標準認證。同時當你使用上了GPU伺服器，你還必須考慮用戶的環境！目前R740之類的2U空間GPU伺服器還好一點，在一般機房的環境可以運行。但是，當你使用業界密度最高的Dell EMC C4140的GPU伺服器時候，因為在1U空間內可以裝載4個雙寬GPU，並且支持NVLINK的GPU通訊技術，因此必須考慮適合的機房溫度。Dell EMC會根據C4140的不同配置給出建議的工作環境溫度。最後，還必須考慮電源功耗，因為上了GPU後，功耗大大上升。這樣的話，伺服器要選擇高功率的電源，整機櫃的功耗非常高，需要考慮數據中心供電的問題。

伺服器不宕機的秘密！

所以，總結一下，GPU伺服器並不是隨便可以DIY的，或許你真的可以安裝軟體和運行，但是誰也不能保證一段時間後會出現什麼問題，例如：重啟和降頻。另外，伺服器內部的GPU和GPU之間，CPU和GPU之間的IO如何要求，這個也是需要上層的軟體演算法類型定義的，從而選擇具備PCI switch，還是NVLINK，還是GPU直連CPU的連接技術，都需要用戶和產品工程師探討確認，並不是一般人認為的是使用標準普通X86伺服器，然後自己插上GPU就是真正的GPU伺服器了！

最後，我跟吳知重申了那句網路名言：武大和武松也是出自同一平台的，但是並不代表就是一樣的東西。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 至頂網 的精彩文章:

※企業數字化轉型需要全新的「混合雲」定製戰略
※數據分析外包的利與弊

TAG:至頂網 |