選擇GPU伺服器的基本原則
不同類型AI伺服器之比較分析,通過下面這張二維圖中我們可以對不同架構的伺服器進行簡單的比較。
首先看下不同類型AI伺服器的比較,從左上方到右下角依次是CPU、GPU、FPGA、TPU、ASIC,從橫軸來看,越往右性能(Performance)越好。
縱軸Programmability/Flexibility是指伺服器的可編程性和靈活性, ASIC的性能最好,因為它是將演算法固化在晶元上,演算法是比較固定的,所以它的性能最好的,但是它的編程性和靈活性就相對比較弱。而CPU的靈活性和編程性最好,但性能最弱。
總的來說,GPU的靈活性比CPU弱,但它的性能更好。往下依次是FPGA、TPU以及ASIC。
在實際選擇時需要考慮到功耗、成本、性能、實時性等各方面因素,尤其是一些具有專用目的的處理器,如果演算法已經固化並且很簡單,可以考慮ASIC,因為ASIC性能好且功耗低。如果是在訓練或者通用情況下,GPU則是更好的選擇。
選擇GPU伺服器的基本原則
在介紹選擇GPU伺服器的基本原則之前,先來跟大家介紹下常見的GPU和GPU伺服器。
常見的GPU,按匯流排介面類型可以分為NV-Link介面、傳統匯流排介面以及傳統PCI-e匯流排三種。
NV-Link介面類型的GPU典型代表是NVIDIA V100,採用SXM2介面,在DGX-2上有SXM3的介面。
NV-Link匯流排標準的GPU伺服器可以分為兩類,一類是NVIDIA公司設計的DGX超級計算機,另一類是合作夥伴設計的NV-Link介面的伺服器。DGX超級計算機不僅僅提供硬體,還有相關的軟體和服務。
傳統匯流排介面的GPU,目前主流的有這幾款產品,比如採用了PCI-e介面的V100、 P40(P開頭指的是上一代PASCAL架構)和P4,以及最新的圖靈架構T4等。其中比較薄和只佔一個槽位的P4和T4,通常用於Inference,目前也已經有成熟的模型進行推理和識別。
傳統PCI-e匯流排的GPU伺服器也分為兩類,一類是OEM伺服器,比如曙光、浪潮、華為等其他國際品牌;另一類是非OEM的伺服器,也包括很多種類。
選擇伺服器時除了分類,還要考慮性能指標,比如精度、顯存類型、顯存容量以及功耗等,同時也會有一些伺服器是需要水冷、降噪或者對溫度、移動性等等方面有特殊的要求,就需要特殊的伺服器。
選擇GPU伺服器時首先要考慮業務需求來選擇適合的GPU型號。在HPC高性能計算中還需要根據精度來選擇,比如有的高性能計算需要雙精度,這時如果使用P40或者P4就不合適,只能使用V100或者P100;同時也會對顯存容量有要求,比如石油或石化勘探類的計算應用對顯存要求比較高;還有些對匯流排標準有要求,因此選擇GPU型號要先看業務需求。
GPU伺服器人工智慧領域的應用也比較多。
在教學場景中,對GPU虛擬化的要求比較高。根據課堂人數,一個老師可能需要將GPU伺服器虛擬出30甚至60個虛擬GPU,因此批量Training對GPU要求比較高,通常用V100做GPU的訓練。模型訓練完之後需要進行推理,因此推理一般會使用P4或者T4,少部分情況也會用V100。
當GPU型號選定後,再考慮用什麼樣GPU的伺服器。這時我們需要考慮以下幾種情況:
第一、在邊緣伺服器上需要根據量來選擇T4或者P4等相應的伺服器,同時也要考慮伺服器的使用場景,比如火車站卡口、機場卡口或者公安卡口等;在中心端做Inference時可能需要V100的伺服器,需要考慮吞吐量以及使用場景、數量等。
第二、需要考慮客戶本身使用人群和IT運維能力,對於BAT這類大公司來說,他們自己的運營能力比較強,這時會選擇通用的PCI-e伺服器;而對於一些IT運維能力不那麼強的客戶,他們更關注數字以及數據標註等,我們稱這類人為數據科學家,選擇GPU伺服器的標準也會有所不同。
第三、需要考慮配套軟體和服務的價值。
第四、要考慮整體GPU集群系統的成熟程度以及工程效率,比如像DGX這種GPU一體化的超級計算機,它有非常成熟的從底端的操作系統驅動Docker到其他部分都是固定且優化過的,這時效率就比較高。
來源:智東西(zhidxcom)
導師:吳強、易成
溫馨提示:
求知若渴, 虛心若愚
※談談OpenStack的八年之癢
※數據中心,一種名為機櫃的設備是如何存在的?
TAG:架構師技術聯盟 |