當前位置:
首頁 > 新聞 > 訪中科曙光智能計算技術總監許濤:重新認識面向未來的AI伺服器和雲計算中心

訪中科曙光智能計算技術總監許濤:重新認識面向未來的AI伺服器和雲計算中心

雷鋒網消息,2018年11月20日,NVIDIA在蘇州召開了GTC China 2018大會。與會者對這場技術大會的期待不僅在於NVIDIA本身,對於其產品和技術在國內的具體應用也倍加關注。

在本次大會上,國內高性能計算領軍企業中科曙光推出了全新的XMachine系列AI伺服器,基於Intel Skylake CPU,最多可通過NVLink支持8塊NVIDIA GPU、10卡訓練GPU、20卡推理加速卡。底板採用CPU主板和GPU解耦合設計,可根據CPU和GPU的發展各自獨立升級,降低用戶更新換代成本。

發布會後,雷鋒網與中科曙光智能計算技術總監許濤進行了深入的交流對話,獲悉中科曙光在產品和市場上的一些思考。

重新認識高性能AI伺服器

對於大多數人來說,高性能計算(HPC)產品和傳統的伺服器似乎沒什麼區別,都象徵著「專業級」、「企業級」等高大上的定位。不過在談話中我們了解到,以高算力為需求的產品,已經從傳統伺服器中獨立出來了,其設計方式和傳統伺服器有很大不同。

許濤向雷鋒網介紹,二者首要的區別在於傳統伺服器的功耗密度相對較低,而AI伺服器等高性能計算產品的功耗非常高,目前發售的AI伺服器額定功率已達到3200瓦,下一代HGX產品給出的參考功率更是高達單台10千瓦,遠遠超過傳統機架式和刀片式伺服器。而功耗高也帶來了發熱量大的新挑戰,這是AI伺服器和傳統的伺服器最大的區別。

設計AI伺服器時,供電和散熱是需要重點考慮的問題,相應的對兼容性和穩定性的要求也都不太一樣。在GPU加速卡剛出現的時候,單卡功耗不超過250瓦,而現在已經達到300瓦,按照目前的趨勢,加速卡功耗還會隨著時間推移變得更高,當單塊加速卡功耗達到350瓦以上的時候,傳統的伺服器結構就很難滿足了。

「在這麼高的壓力下,單個機櫃里能擺放的伺服器數量是非常有限的。」許濤給我們算了筆賬,「3200瓦的AI伺服器,一般的電信機房單櫃只能放2台,即便是20千瓦容量的高端水冷機房也只能放6台。綜合考慮實際部署情況之後,我們發現4U是非常合理的AI伺服器尺寸。XMachine的GPU倉高度為3U,不僅散熱空間大,也為未來的維護預留了很大的空間。」

而對於個人工作站,中科曙光在最新的W560-G30產品上也採用了改進設計的3段式散熱方案:

GPU區域:RTX6000顯卡功耗達300瓦,擁有專門的散熱空間,並且使用IPMI功能精準讀取顯卡狀態狀況並管理顯卡功耗和風扇散熱,控制相應的風扇風量,在保證顯卡散熱的同時將辦公環境下的噪音壓縮至最低,最高可支持2塊顯卡全速運轉。

CPU區域:支持2顆共56個物理核心的至強鉑金CPU,每顆CPU的功耗達205瓦;2顆CPU風道互相隔離,每顆CPU均有獨立進風,保證CPU在高功耗下穩定工作,並可支撐進一步的超頻空間。

電源區域:使用可7*24小時穩定提供1250瓦供電能力的鉑金電源,並設計有電源的獨立風道;時在放置於數據中心使用時,可支持冗餘電源和基於BMC的遠程管理功能,變身成為高性能GPU伺服器。


靈活應對百花齊放的推理端市場

隨著異構計算越來越流行,現在HPC Top 500里排名靠前的超高算力伺服器基本上都用到了GPU加速卡或者其他加速部件。據雷鋒網了解,目前NVIDIA已經基本壟斷了AI計算的訓練端市場,但在與用戶應用貼合特別緊密的推理端,由於需要進行具體的應用部署,GPU作為一種通用計算單元的優勢就會被削弱。

NVIDIA雖然面向推理端市場發布了T4計算卡,但是像Intel、賽靈思和寒武紀等公司,依然在積極開拓這一領域。根據介紹,XMachine系列AI伺服器在設計上可以兼容多種加速器產品,這些晶元在市場中是互補的,中科曙光未來會針對不同應用場合推出使用不同加速晶元的伺服器,就看終端用戶的訴求是什麼。

「在文字處理或信息導流等業務中,傳統CPU的運算效率也很好;如果是需要捕捉黃金窗口期的商業化公司,那麼NVIDIA T4這樣的GPU加速產品可以讓公司迅速上線項目。」 許濤為我們詳細分析著幾種不同的情況,「而對那些擁有特殊業務需求的定製化客戶來說,他們需要經常迅速改換業務邏輯,這種情況下顯然FPGA更適合。」

隨後,許濤特別提到了寒武紀科技今年5月3日發布的首款雲端智能晶元MLU100及對應的雲端AI計算卡,並糾正了我們對國產AI晶元的一些認識誤區。他表示,寒武紀MLU100晶元與NVIDIA P4/T4加速卡的設計理念大相徑庭,二者在計算能力上並不能直接進行對比。

「寒武紀MLU100晶元所使用的AI框架和技術非常專一,可以快速實現CNN、RNN等各種各樣的卷積過程,達到非常好效果,在特定的推理市場上給用戶提供更好的加速。如果是與應用貼合非常緊密的研究型用戶,寒武紀MLU100晶元可以在其特定環境下將算力發揮到極致。」


不擔心被模仿

中科曙光此次發布的XMachine系列AI伺服器,採用了CPU底板和GPU底板解耦的設計,未來可通過模塊化組合的方式進行獨立升級,以降低用戶更新換代成本,最大限度保護投資。

為此我們不免擔心,這種彈性靈活的創新設計,會不會慢慢被其他伺服器廠商效仿?

對於這一問題,許濤很是自信:如果其他公司真的模仿我們的機器,說明我們引領了這個市場。

據悉,之前國內的GPU伺服器來源基本都是OEM或ODM,但隨著時間的推移,技術輸入越來越困難,這些產品很難適應國內形形色色的定製化需求。

許濤坦言,中科曙光並不是國內第一家推出GPU伺服器的廠商,但是他們希望可以做到最好,或者說可以在某些擅長的行業裡面做到最好。而想要讓產品始終保持先進的架構或結構,就要不停進行技術演進,一款產品成熟的過程就是一個反覆迭代的過程。

「從我們自己的角度來看,現在的產品不應該是完美的,應該有新的版本不停迭代,讓它變得越來越適用於用戶應用場景,或者越來越適用於新技術的發展。」許濤解釋道,「模仿是沒有辦法避免的,但在其他公司模仿的過程中,我們自身也在不停演進,所以我們並不擔心產品被模仿。」

同時他還指出,隨著技術的不斷更新,很多技術要素想要模仿也是很困難的。中科曙光除與NVIDIA建立合作外,還與寒武紀等其他國產晶元合作,合作過程中需要投入大量技術資源和測試資源,這些投入都不是簡單的模仿機器硬體可以實現的。

「從這個層面來講,我們希望他們能模仿。如果其他公司真的模仿我們的機器,說明我們引領了這個市場。」


面向未來的雲計算中心和先進計算平台

現在雲計算已經不再像過去那樣只停留在各種文章裡面,隨著認可度的逐漸提升,不管是專用雲平台還是通用雲平台都在慢慢落地,各種企業都越來越願意為這份資源去花錢。

中科曙光的AI戰略規劃很大,一方面中科曙光有AI伺服器自己的底層硬體產品,另一方面也在硬體產品的基礎上設計配套軟體,並擁有自己的雲計算中心和先進計算平台。雲計算中心既可以給用戶提供計算資源,也希望能夠通過虛擬化的技術,幫助那些有獨特見解的用戶實現他們的創意。

雷鋒網了解到,中科曙光在雲計算領域的起步其實非常早,在成都、無錫、南京、包頭等地都有為政府提供服務的城市雲計算中心。但許濤清楚地知道,雲計算中心也需要隨著時代前進而不停演進,隨著普及程度的提高,如果只停留在傳統的發展模式下,未來的競爭力會越來越弱。

「從我們的角度來看,更希望能在某些特殊領域或行業里供專業的雲服務。」許濤解釋道,「中科曙光的體量是無法和BAT這種通用雲平台抗衡的,他們的構架非常龐大,可以把很多業務都牽進去,但是對我們來講,想要保持業務的先進性,只能在一些特殊領域或行業里做到最尖端。」

「為用戶提供特異化的服務,使我們的優勢很難被通用雲平台模仿,這才是正確的發展方向,也是我們眼中未來的雲計算市場。」許濤如是說。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

NB-IoT晶元戰即將爆發,華為和高通誰會獲勝?
北京銀行半年報:凈利潤119億元;總發卡量破2500萬張

TAG:雷鋒網 |