當前位置:
首頁 > 科技 > 以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

來源:本文由公眾號半導體行業觀察(ID:icbank)翻譯自「nextplatform」,作者Timothy Prickett Morgan,謝謝。

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

打開今日頭條,查看更多圖片

增量變化是人類成功的秘訣,在某些方面也是最困難的。我們需要推動事情向前發展,但與此同時,我們不能打破先前行之有效的做法。這就是我們如何從各種各樣的系統中得到越來越多華麗的架構,從CPU插槽內部到超大規模數據中心,再到融入地球的政治、經濟和文化網路。

英特爾Pentium和Xeon伺服器處理器中包含的X86架構非常複雜,並且不斷進行調整,以適應越來越多的應用程序的處理需求,而這些應用程序本身的複雜性也在不斷增加。如今,沒有多少企業是容易的,但要找到一家比設計CPU並讓CPU製造工藝不斷發展的企業,或是找到一家比一代代地實現這一工程壯舉的企業更有經濟回報的企業,則更加困難。

隨著兩周前推出的「Cascade Lake」Xeon SP處理器,英特爾再次將其架構向前推進了很多,因為它目前使用的是14nm晶圓蝕刻技術。但是英特爾在處理器上的改變和它的「Apache Pass」Optane內存模塊的交付,以及將3D XPoint帶入DDR4主內存,這些都是使處理器吸引客戶的重要方面,即便「Cooper Lake」Xeon SP針對機器學習工作負載進行了一些調整,採用了新架構,以及備受期待的10nm晶圓工藝的「Ice Lake」Xeon SP將於今年年底推出,2020年上路。

自從英特爾推出「Nehalem」Xeon 5500處理器以來,數據中心發生了很大變化,因為AMD仍在激烈競爭,坦率地講,公共雲業務規模很小,超大規模用戶對系統業務的影響不像今天這樣大。

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

Ian Steiner是英特爾首席工程師、處理器首席架構師,以及自Nehalems以來Xeons所有產品的功率和性能架構師,他在一次關於Cascade Lake Xeon SP細節的演示中,把架構比較基準線畫在了2012年3月推出的「Sandy Bridge」Xeon E5-2600處理器上,這是英特爾架構上的一個重要飛躍,順便說一下,由於設計和32nm製造工藝的問題,該器件的高端產品有22.6億個晶體管和核心,因此出現了一些延遲。Skylake和Cascade LakeXeon SP處理器,以及那些經過改進的14nm處理器,內置28個內核,以及大量「非核」電路,總共80億個晶體管。但市場上的差異比這些基本的「進料和速度」所暗示的更為深刻,正如Steiner所示:

Steiner在一次關於Cascade Lake處理器架構的簡報中解釋說:「從那時起,情況發生了很大的變化。公共雲才剛剛開始。我們有很多客戶真的很擔心節能、規格和其他測量指標,但今天客戶真正困擾我們的是我們如何才能提高他們系統的吞吐量,並真正利用我們正在進行的一切投資。因此,我們在系統中添加的很多功能與運行傳統基準測試以及如何將系統使用到其峰值無關。我記得我在2010年讀過一些關於數據中心以20%的利用率運行的文章,如果我是一個財務人員,那麼會讓我非常生氣。如果客戶真的以20%的利用率使用我們的系統,我們想知道如何使他們達到50%、60%、甚至70%、80%。這一直是我們關注的重點之一。」

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

Steiner還說,在這七年里,高性能計算的本質也發生了很大變化。「我們在市場的其他部分看到了更多的計算量,隨著AI和其他一些分析工作負載的增加,許多高性能的計算特性正在擴展到其他用例。這只是剛開始,但我們認為這在未來將會繼續發展。」在客戶的敦促下,英特爾在CPU市場引發的另一個重大變化是定製化。第一個定製的英特爾CPU是在Sandy Bridge時代,就像Steiner所言,現在英特爾有「成堆」的定製CPU。對Cascade Lake生產線的快速回顧顯示了大規模定製是如何進行的,英特爾在處理器上進行各種調節來激活或禁用處理器特性,並調高或降低時鐘速度來調整特定工作負載的性能,這是一種常態。下圖是一個簡易的圖表,展示了Cascade Lake產品線中主要SKU的散點圖,英特爾將其稱為可擴展處理器(Scalable Processor):

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

標準的Cascade Lake Xeon SP部件有53個,包括Platinum系列的中型和大型內存變體,其中不包括英特爾仍在為企業、HPC、雲和超級銷售部門的終端用戶客戶為OEM和ODM生產的定製部件。正如我們之前所指出的,Skylake和Cascade Lake Xeon SP處理器實際上有三種不同版本——低核心數(LCC)、高核心數(HCC)和極限核心數(XCC)變體,它們分別有10、18和28個核心。

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

相比之下,2009年的Nehalem Xeons來自相同的晶元設計,它們都有4個核心,都有8MB的L3緩存,它們的主要區別在於時鐘速度,從2.26 GHz到2.93 GHz不等。由於登納德縮放比例定律(Dennard Scaling)的結束,時鐘速度沒有太大變化,在2006年左右開始崩潰。我們可以想像,由於核心流水線、緩存結構和其他調整的變化,整數工作負載的每個時鐘周期所執行的指令數(IPC)在Nehalem和Skylake代之間增加了41%,並且考慮到Cascade Lake core是Skylake設計的衍生產品,具有針對Spectre/Meltdown的安全措施,調整向量引擎以運行用於機器學習推理的8位整數指令(INT8),以及允許Optane PMM內存在系統上運行的更改,我們不認為英特爾已經改變了通過從Skylake遷移到Cascade Lake的核心算術邏輯單元(ALU)運行的整數工作的IPC。這就是英特爾從2009年的4核Nehalem處理器轉向2011年的6核Westmere處理器時所發生的情況。但英特爾確實把核心計數、時鐘速度、溫度和價格混在了一起,從Westmere Xeons開始,這個過程一直在擴大Xeon產品線中SKU的數量。

英特爾一直在逐步提高每個插槽的內存帶寬,方法是通過向系統中添加更快的DDR3和DDR4內存,以及增加每個插槽的內存控制器,就像其他晶元製造商一直在做的那樣。

Nehalem Xeons在晶元上集成了一個內存控制器(在此之前,AMD在Opterons上也是這樣做的),支持兩個或三個DIMM用於雙插槽伺服器。對於Westmere Xeons,雙插槽機器具有相同的內存控制器,但在四插槽的變體中,內存控制器可以在每個插槽上驅動四個內存插槽。對於Sandy Bridge Xeons,四插槽機器和一些雙插槽機器在集成在晶元上的單個控制器上有四個內存插槽,而另一些則有三個內存插槽,這種內存方案仍然適用於後續的「Ivy Bridge」 Xeons(2013年),但英特爾將晶元上12個內核的環形互連增加了一倍,因此每個晶元的內存控制器翻了一倍(每個內存控制器有兩個通道)。在2014年的「Haswell」Xeons中,更多的核心掛在連接晶元上的核心和緩存的一對環路上,但內存控制器和存儲通道的數量與Ivy Bridge相同;內存速度略有加快。隨著2016年的「Broadwell」Xeons的推出,環路再次變大,但內存保持在兩個控制器和每個控制器兩個通道,總共四個通道,每個通道可選擇三個DDR4 DIMM,運行頻率為1.6GHz;或兩個每個通道的DIMM以2.4GHz的較高時鐘速度運行。憑藉2017年的Skylake Xeon SP,英特爾在晶元上的網狀互連中有兩個DDR4內存控制器,每個都有三個通道,客戶可以以高達2.67 GHz的頻率運行內存,理論上這對Xeon處理器來說應該是一個很大的內存帶寬提升,但每個通道只有兩個DIMM,而Broadwell最多有三個DIMM。這一代的所有其他晶元——IBM Power 9、AMD Epyc和Marvell ThunderX 2——每個插槽有8個DDR4內存通道,因此在相同的內存速度下,Broadwells和Skylakes的帶寬優勢為33%。

隨著Cascade Lake Xeon SP晶元剛剛推出,英特爾對於庫存晶元仍然使用每插槽6個內存通道,但在雙倍Cascade Lake-AP中,它將兩個完整的Cascade Lake晶元塞到同一個BGA表面貼裝封裝上(像一個巨大的嵌入式晶元,而不是用於伺服器處理器的更標準的LGA插槽)。通過這樣做,英特爾可以把它放入插槽的內容加倍,但每個人都知道,雙插槽伺服器實際上是一個時髦的四插槽伺服器。

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

如果在不必重新調整整個晶元布局和插槽設計的情況下為插槽添加更多電源引腳並不困難,那麼英特爾就會在Skylake或Cascade Lake代際中添加更多或更強大的內存控制器,似乎我們必須等到Ice Lake這一代才能看到這一點。人們期待的是一對內存控制器,每個插槽可提供8個通道,每個通道最多可提供兩個DIMM,但英特爾尚未對Ice Lake提供任何承諾。據我們所知,在2020年之前,沒有人會比這做得更好,但如果所有人都不增加更多內存,那麼內存與核心比率將會失控。這就是為什麼英特爾一直寄希望於使用3DXPoint內存擴展每個DIMM的內存容量,這可以從目前使用昂貴的128 GB DDR 4 DIMM(最高768 GB)內存通過Cascade Lake Xeon SP插槽提升到L內存擴展的Platinum 版本處理器的4.5 TB。這種FAT配置使用DDR 4和OPTAN PMM內存的混合。順便說一下,該配置使用了四個128 GB的DDR 4 DIMM和8個512 GB的光學PMMS。

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

擴展和更精細的粒度矢量引擎

由於受到GPU的威脅,以及在較小程度上採用卸載方式的FPGA加速,英特爾受到傳統HPC空間以及從Westmere產品線開始的超大規模用戶和雲建設者空間的威脅,英特爾的回應是通過連續的Xeon代際增加更強大的浮點能力。

過去十年,英特爾一直致力於在Xeon產品線上擴展單精度和雙精度浮點運算。Steiner承認,英特爾對增強這些矢量單元的整數運算能力並不十分感興趣——直到機器學習訓練演算法的興起,隨著時間的推移,這些演算法正在使用越來越小的INT數據格式。

Haswell Xeons在其AVX 2矢量單元中有INT的運算支持,但乘法累加(MAC)操作不是焦點,因為8位INT 8格式的動態範圍很小,只有256個數值,而單精度FP32格式表示的是2128個可能的數值。但是,INT 8的精度和動態範圍(有些人甚至會認為INT 4)對於某些機器學習訓練推理常式來說已經足夠了,因此英特爾將其添加到Cascade Lake Xeon SP處理器中的AVX-512矢量引擎中。我們進入了矢量神經網路指令(VNNI)的架構,有時稱為深度學習增強(DL Boost),它於2018年8月隨Cascade Lake首次亮相,但下圖更好地概括了它:

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

利用Skylake架構,對8位整數進行矩陣乘法,並將它們累加到32位整數寄存器中(這是為了避免因8位數字範圍有限而導致溢出,FP16或FP32由於這些數據格式的動態範圍很大而很容易處理)。這在過去需要三個步驟,現在Cascade Lake只需要一步,完整的AVX-512單元(意味著兩個埠都被激活)可以在每個時鐘周期完成128個這樣的步驟。這比ALU中的整數單元(每次64位)所能處理的多很多。

Steiner表示:「實際工作負載可能無法通過DL Boost獲得3倍的性能,但這沒關係。我們的目標並不是要在所有方面最大化TOPS峰值。我們正在嘗試將正確的基元構建到硬體中,以便更複雜的軟體能夠獲得儘可能多的性能提升。這就是我們追求的很多『2X』的地方。」

這意味著在矢量整數格式上獲得類似的擴展,就像過去十年矢量浮點格式發生的情況一樣,下面是一張簡易的圖表,展示了隨著時間的推移,Xeon系列的SIMD引擎中的浮點和整數在架構上的飛躍:

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

雖然客戶並不像過去那樣痴迷於功耗,但設計Cascade Lake的團隊仍然關注當前常用的各種推理基準測試中功耗和性能的相互作用,這張圖表展示了DL Boost是如何在Skylake Xeons中使用FP32和傳統INT 8方法實現的:

根據Steiner的說法,在Skylake Xeon SP晶元上,從FP32到INT 8,每個時鐘周期峰值Mac的性能提高了大約33%,而且由於數據量較小,處理器的緩存和內存帶寬壓力也有所緩解。與FP32相比,Skylake上的INT8計算效率更高。現在,從Skylake晶元中的傳統INT8轉移到Cascade Lake晶元中的DL Boost指令導致每個時鐘周期峰值MAC增加3倍,並且對緩存或內存帶寬沒有影響(數據格式相同,處理器上的緩存層次結構相同),此外INT8操作的功率效率再一次得到了提升。

這是一般性陳述,但如果使用真正的推理工作負載,對照的結果則是下圖的樣子:

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

如圖所示,傳統的INT8方法使用的功率要低得多,性能也有所提升,但是DL Boost的重點是用相同的功率提供更高的吞吐量,就像在FP32模式中進行相同的推理一樣。可能還有其他工作負載可以使用此INT 8及其配套的INT 16功能,但到目前為止還沒有出現。但是現在硬體已經在這裡了,也許有人會想出聰明的方法來使用它。

如下圖所示,與FP32相比,使用DL Boost時L2緩存的性能要好得多:

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

也許同樣重要的是,當運行推理工作負載時,系統的內存帶寬壓力從FP32轉移到DL Boost:

以管窺豹,X86伺服器晶元將走向何方?|半導體行業觀察

這又回到了超大規模用戶和高頻交易商以及超級計算機客戶甚至在他們告訴系統製造商很長一段時間之前的老生常談的觀點:在實際工作負載上,可預測的延遲和一致的性能比某些理論工作負載上的一些峰值吞吐量重要得多。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 半導體行業觀察 的精彩文章:

實錘!華芯通公司將於4月30日關閉|半導體行業觀察
紫光展銳首款「虎賁」晶元正式發布|半導體行業觀察

TAG:半導體行業觀察 |