64核Zen 2處理器解析:AMD正在改變X86市場遊戲規則
X86處理器是英特爾發明的,長期以來在X86市場上英特爾都是有絕對優勢的,最新統計顯示AMD在今年Q3季度的整體CPU市場份額上首次突破10%,這統計的大概是最近幾年的份額,縱觀歷史AMD在CPU市場上份額最高也就是20%左右,X86長期以來都是英特爾獨大。雙方實力一邊倒的情況下,最不容易出現的現象就是弱勢的一方掌握主導權,AMD贏過英特爾的一次重大勝利就是64位指令集,但在那次之後,AMD鮮有讓英特爾吃癟的時候。2007年AMD搶先英特爾推出了SSE5指令集,但是英特爾大手一揮表態不會支持SSE5,轉而推出了AVX指令集,AMD之後也只能順從,再也沒無法跟英特爾爭奪X86發展的話語權了。
打開今日頭條,查看更多精彩圖片這種情況持續了至少10年,K8之後AMD推出的K10、推土機等架構雖然不乏新意,但是製程工藝、架構設計方面的雙重落伍使得AMD再也不能跟英特爾叫板,實際上過去的幾年中AMD自己的生存都很成問題。去年初Zen架構的Ryzen銳龍、EPYC霄龍處理器問世,AMD的X86處理器才算重回正軌,性能也足以跟英特爾同級別處理器叫板,而多核心方面還有優勢。雖然AMD的市場營銷依然走的是過去多年一直在用的田忌賽馬策略,但是Zen及Zen+架構的處理器整體性能上來了,再加上超高的性價比,對著AMD說「真香」的玩家也就多起來了。
銳龍一代及二代處理器大大改善了AMD的財務狀態,到上個季度為止AMD已經連續5個季度實現營收增長了,可以說第一代Zen架構及改進型讓AMD在X86市場上有了飯吃,而今天宣布的Zen 2架構則有可能讓AMD實現更高的目標——跟英特爾爭奪X86市場上的遊戲規則。
上一代的推土機架構也可以說是AMD跟英特爾爭X86話語權的一次嘗試,可惜失敗了,現在的Zen處理器再一次發起挑戰,而且這兩者之間還有很多相似性,比如都使用了模塊化設計、都強調多核性能等等,不過二者更多的還是不同,至少Zen比推土機成功得多。
說了這麼多,還是回到主題上,對於Zen 2架構我們可以簡單先定個性——很可能是X86處理器規則改變者。從AMD公布的信息來看,首發Zen 2架構的Rome羅馬EPYC處理器變化相當大,設計上有很多大膽創新之處,不過現在一切信息還是紙面上的,它能不能做好這個改變X86規則的處理器,現在還沒有明確的結論。
Zen 2處理器首發7nm工藝:5GHz頻率可期?
對CPU這種東西來說,再NB的架構也要服從於製程工藝,沒有先進工藝就無從談及性能、能效,英特爾制霸X86四十年很大程度上都是因為英特爾過去掌握著最先進的半導體工藝,特殊是在Tick-Tock周期還有效的那幾年,搞的AMD疲於拚命,最終賣掉了晶圓廠,轉向無晶圓半導體公司,但是代工廠Globalfoundries的32nm、28nm工藝並不成熟,直到14nm節點全套使用三星技術才算穩定下來,這也是AMD Zen處理器能夠成功的一個原因。
在7nm節點,GF退出了,AMD宣布將7nm CPU/GPU晶元全部交給台積電代工,現在的Zen 2架構羅馬處理器就是台積電7nm HPC高性能工藝生產的,而英特爾這幾年面臨著10nm工藝延期的難題,只能不斷打磨14nm工藝,迄今有14nm、14nm+及14nm++三個版本了,直到明年底才有可能推出10nm處理器。
正是這個變故,讓AMD在7nm Zen2處理器上實現了製程工藝優勢的逆轉,這也是多年來AMD首次在處理器工藝上超越英特爾。這個話題實際上早就不新鮮了,過去幾個月中AMD被分析師看漲、英特爾被看衰幾乎都跟AMD 7nm工藝上的領先有關。
根據AMD公布的信息,7nm工藝實現了兩倍的晶體管密度、同性能下功耗降低50%或者同功耗下性能提升25%的變化,只不過這些數據還是官方紙面上的,具體情況如何呢?
7nm Vega的工藝
Zen 2架構的羅馬處理器現在沒有任何具體的核心面積、頻率、功耗等數據,但是AMD在7nm Vega上公布了很多具體數據——7nm Vega 20 GPU核心面積331.46mm2,晶體管數量132億,GPU核心頻率1.8GHz,顯卡功率300W,而14nm工藝的Vega 10 GPU核心面積494.8mm2,晶體管125億,GPU核心頻率1.5GHz,顯卡功率300W。
通過這些數據可以算出晶體管密度——14nm節點是0.2526億/mm2,7nm節點是0.3982億/mm2,提升不過58%而已。至於頻率,同樣300W功耗下,從1.5GHz提升到了1.8GHz,提升20%,基本上符合AMD所說的性能提升25%的說法。
雖然GPU跟CPU的情況不一樣,但是從7nm GPU的情況來看從14nm到7nm或許可以大幅降低功耗,不過性能上的提升並不算樂觀,即便真的提升了25%,考慮到7nm與14nm節點之間還隔了一個10nm節點,兩代提升25%的性能並不能讓人很滿意。
當然,這個事也不怨AMD,元兇是摩爾定律早就失效了,只是很多人不肯承認這一點,真正意義上的摩爾定律早就不適用了,ARM早前也提到過在製程工藝進入16nm節點之後,性能已經沒什麼實質性提升了。
有意思的是,儘管GF已經退出了7nm節點競賽,AMD在Zen 2架構發布的官方新聞中還是列舉了GF公司的7nm工藝,與台積電7nm工藝並列。相比台積電,GF在7nm工藝上的宣傳更強大一些,功耗降低60%或者性能提升40%,而且GF之前提到了高性能7nm工藝可以實現5GHz的頻率,而能不能上5GHz頻率正是廣大A飯對AMD Zen 2處理器最大的期待。
對於Zen 2架構上7nm工藝這事,AMD及A飯值得高興,在製程工藝數字上AMD確實做到領先了,不過具體到處理器上,25%的性能提升、50%的功耗降低這些數據看看就好,因為工藝上的性能提升、功耗降低跟處理器性能、功耗並不是一回事。對於這一點,AMD自己也是心知肚明的,之前的PPT中就提到了AMD 7nm工藝與競爭對手10nm工藝的對比,AMD是縮小了差距,談不上超越。
當然,也不能光滅AMD自己的威風,台積電的7nm工藝儘管性能不一定多厲害,但英特爾那邊的10nm工藝也早就變了, 前兩年展示的10nm指標上是很強大,但是量產難度也大,導致一直延期,而英特爾明年底量產的10nm工藝被曝是縮水版的,性能、功耗等指標肯定會有妥協,這對AMD來說也是好事。
即便Zen 2在工藝上無法超越英特爾的10nm,後面還有機會,因為AMD的路線圖比英特爾的更快,2020年還會有Zen 3架構,製程工藝升級到7nm+,也就是上EUV工藝的7nm改良版,單純的EUV工藝不會提升工藝性能,但台積電還會繼續改良7nm+工藝,到英特爾大規模量產10nm工藝的2020年,AMD進度快的話可能會有7nm+工藝的Zen 3處理器了。
Zen 2架構改進:吞吐量翻倍,前端到浮點全線改進
提升性能除了依賴先進工藝之外,CPU架構也是最重要的一環。在Zen架構上,AMD帶來了CCX單元、SMT多線程、Infinity Fabric匯流排等設計,如今的Zen 2也沿用了這些設計,但在CPU內核上從前端預取單元到緩存再到浮點單元都做了改良,官方定性是實現了「吞吐量兩倍」。
AMD Zen架構的CPU內核設計
AMD在官方資料中介紹了Zen 2架構在CPU內核上的改進,不過這些內容還沒有具體的數據,比如L1緩存、L2緩存、L3緩存等等,所以這部分內容就簡單看看官方資料,後面有了具體信息再說。
值得一提的是,浮點架構上,目前的AMD銳龍、霄龍處理器支持到了AVX2,Zen 2上AMD翻倍了浮點單元位寬,從2x128bit提升到2x256bit,但它並不支持最新的AVX512,估計要到Zen 3架構上才有可能。
架構設計上另一個值得注意的是安全——2018年讓英特爾焦頭爛額的一件事就是各種X86漏洞,主要包括熔斷Meltown、幽靈Spectre及下半年才爆出的Foreshadow預兆,它們又衍生出多個版本。這些漏洞對英特爾處理器影響較大,熔斷是英特爾獨享的。雖然AMD在漏洞事件中受到的影響較小,但是Spectre幽靈漏洞是影響所有現代處理器的,因此在Zen 2架構上AMD也針對幽靈漏洞做了硬體防護。
在具體的技術指標上,Zen 2架構還支持率先支持PCIe 4.0、8通道DDR4內存等等,雖然沒有DDR5內存支持,不過這樣做也是很明智的商業策略了,畢竟DDR5還比較遙遠。
此外,AMD表示羅馬EPYC處理器相比之前的產品,能夠在單路插槽上帶來2x的整體性能、4倍的浮點性能,同時還能保持插槽兼容。
Zen 2最大膽的創新:8+1核架構,CPU、IO分離
AMD在7nm工藝及CPU內核上的升級、改良還是常規操作,而Zen 2處理器上最大膽的一項創新就是AMD真的做了8+1核,將CPU內核與IO核心分離出來,這種設計看起來跟近年來CPU單元整合更多I/O單元的路線相反,有利有弊,雖然AMD很有自信,但是這麼大膽的設計還是讓人為AMD捏了一把汗。
AMD這麼改顯然是為了容納更多的CPU核心——在Zen架構中,AMD設計了CCX單元及IF匯流排,通過這種模塊化的結構來堆砌多核處理器,桌面的8核處理器是2個CCX單元,一個模塊即可,EPYC之前是32核64線程,需要4個模塊。但是要想做64核,按照之前的設計就需要8個模塊,而8個模塊之間要是繼續使用IF匯流排互聯,那麼複雜性就會大增,延遲等問題愈發嚴重。
AMD在Zen 2上的做法就是將IO單元與CPU核心單元分離,AMD稱這種設計為Chiplets,而且CPU核心使用的工藝跟IO核心的工藝也是不同的,具體來說就是——8個CPU模塊使用的是7nm工藝,每個模塊有8個CPU內核,總計64個核心128線程,而IO核心是14nm工藝,整合了DDR、PCIe 4.0/3.0、Infinity Fabric等IO單元。
AMD現場展示了Zen 2架構的羅馬處理器實物,就是8個CPU模塊圍繞1個IO核心,而且這個14nm IO核心的面積相當大,差不多要6組CPU核心那麼大了——可以簡單算下,銳龍8核的模塊的核心面積是213mm2,前面提到實際核心面積是1.58x縮放,那麼Zen 2的8核模塊應該是133mm2左右,但這個核心是整合了IO單元的,純核心簡單算作100mm2吧,那麼Zen 2上那個14nm IO核心面積至少是600mm2,AMD付出的代價不小。
即便如此,AMD還是這麼做了,在AMD看來這個方案是64核的最優選擇——目前的32核EPYC處理器核心面積是777mm2,理論上核心翻倍後面積至少1500mm2,而現在的方案中Zen 2 64核配置的核心面積也要1500mm2左右,但是分散成8+1核心顯然有利於提高單品的良率,況且核心面積最大的那部分還是14nm工藝製造的,成本比7nm工藝更低。
從AMD官方的解釋來看,這樣的設計也是為了簡化生產難度、提高良率,並且增強了CPU核心配置型,有了IO核心樞紐,以後增加CPU核心就可以只考慮CPU內核了。
AMD這種8+1核的設計最不好的地方大家也猜得到,那就是核心之間的延遲問題,銳龍/EPYC在延遲上就被人詬病了很久,現在的架構設計就更不好說了——由於缺少確切的資料,現在說它的延遲高或者低都沒有證據支撐,這取決於AMD具體的設計。
不過有一點,AMD在Zen 2上的設計不只是他們一家想到了,英特爾實際上也有這樣的技術路線,那就是EMIB,其本質也是將不同的核心單元使用不同的工藝生產,然後封裝到一起,這種設計看起來跟大家調侃的膠水多核很相似,但實際上英特爾的EMIB封裝不同於傳統的2.5D封裝,在良率、製造難度及性能方面都有可取之處。
從AMD的Zen 2架構來看,AMD這一次在處理器封裝技術上也實現了進步,如果能控制好外置的IO核心與CPU內核之間的延遲問題,那麼這種設計未來只會越來越多。
總結:AMD不走尋常路
在金庸的《倚天屠龍記》中,九陽神功可以說是最厲害的武功之一了,該武功的口訣就是「他強由他強,清風拂山崗;他橫由他橫,明月照大江。」,說開了就是敵人再強就隨他強,他打他的,你做你的。這句話用來形容現在的AMD再合適不過了,英特爾在CPU上有極強的積累,AMD如果照著英特爾的強項去打,那沒有獲勝的可能,唯一的希望就是自己主導規則,不走別人的套路。
從2017年到2018年的CPU市場競爭來看,AMD在這個策略上走對了,反而逼得英特爾跟著AMD推多核、提高性價比。在Zen 2處理器上,AMD縮小了與英特爾在製程工藝上的差距,甚至可以說「領先」一些,同時不斷提升自己擅長的多核戰略,英特爾也不得不跟。
上面這些都是針對EPYC處理器來說的,對普通玩家來說我們關注的依然是桌面版的Zen 2處理器,它並非本次會議的重點,所以相關信息非常少,考慮到64核處理器對桌面意義不大,所以桌面版的8-16核處理器有可能會是不一樣的設計,這個就要等AMD擇機公布桌面版Zen 2處理器的信息了。