走進10nm時代!2019年英特爾晶元技術與產品展望
2018年底和2019年初這一段時間,各大廠商紛紛發布年度新品規劃和技術研發路線圖。英特爾也不例外。令人欣喜的是,面對競爭對手的壓力,英特爾今年公布的新技術、新產品信息豐富、乾貨滿滿,值得細細品味。英特爾展示了從現在到2021年甚至更遠時間的處理器發展路線圖,詳細介紹了英特爾包括製程、架構、產品等方面的創新技術。
路線圖
新架構、新起航
英特爾在路線圖披露上不算是一個非常積極的公司,尤其是自Skylake之後,英特爾在路線圖發布上就顯得非常謹慎,往往只有幾個簡單的代號或者寥寥幾句,沒有對這些產品更詳細的解釋。不過在這一次,英特爾反倒大方披露了其直到2023年的架構發展路線圖,包括酷睿微架構和Atom微架構兩個部分,並且給出了數個核心架構代號(並非處理器代號)和一些改進方向,令人欣喜。
先來看酷睿微架構方面。首先出現的是2019年即將上市的全新Sunny Cove架構。這款架構的主要改進在於更高的單線程性能,全新的指令集優化和改進的可擴展性。此外,英特爾還詳細介紹了Sunny Cove的變化,本文將在後文做出更詳細的解讀。值得一提的是,Sunny Cove首次加入了針對AVX-512的支持。目前已知將使用Sunny Cove架構,並搭配第十一代核芯顯卡的處理器開發代號為Ice lake。
接下來的處理器架構被稱為Willow Cove,它的推出時間應該在2020年,也有可能基於10nm或者10nm工藝的改進版本。英特爾宣稱新的Willow Cove架構可能重新優化或重新設計了緩存部分,製造方面基於全新的晶體管優化方案,加入了新的安全設計等功能。
2021年即將推出的處理器架構被稱為Gloden Cove。這款新架構的工藝目前未知,可能繼續基於深度改進版本的10nm或者全新的7nm工藝。Gloden Cove在架構上的改進之處包括單線程性能的提升,AI性能的加強、網路性能和5G性能的優化,進一步提升安全性能等。
從英特爾這三代處理器改進來看,似乎Sunny Cove和Golden Cove的改進較為明顯,都提及了單線程性能的提升、新的功能加入等。中間的Willow Cove則更像是工藝製程的改進和一些優化措施等,畢竟優化緩存是很難做到IPC大幅度增強的。這種方式有點類似於之前英特爾的Tick-Tock也就是一代架構、一代工藝的進步方式,現在雖然由於工藝研發越來越困難,很難再一年又一年的Tick-Tock規律性地發展下去,但是很顯然,英特爾還是希望通過這樣的方法帶來處理器發展的進步。
酷睿微架構的內容結束後,接下來是Atom微架構的路線圖了。實際上Atom面對的是功耗和體積敏感型市場,在性能、技術上要求不高,因此其技術發展和進步都沒有酷睿微架構那麼快。英特爾同樣給出了三款Atom微架構代號,不過時間跨度從2019年拉長到了2023年。
英特爾展示了新的路線圖,顯示了其到2023年的發展計劃。
在2019年,英特爾將推出架構代號為Tremont的Atom微架構,專註於單線程性能的提升、電池續航時間提升以及網路伺服器性能,工藝方面很可能採用10nm技術。在Tremont之後,2021年英特爾將發布代號為Gracemont的新架構,繼續專註於提升核心單線程性能,同時兼顧頻率和適量性能的提升。這意味著,Atom處理器可能獲得更寬的矢量計算能力或者新的矢量指令集。
接下來的2023年,由於過於遙遠,英特爾也沒有想好架構名稱,只是簡單地稱之為「Next month」。這款新品將繼續提升性能、頻率和一些功能,但是並未明確描述。綜上所述,英特爾展示的6款架構面向2個不同的系列,時間跨度也長達4年之久。需要說明的是,英特爾給出的只是微架構名稱,並不是最終的商品名。比如Ice Lake採用的是Sunny Cove微架構,同時Ice Lake也只是酷睿處理器的研發代號,實際商品型號尚未公布。
另外值得一提的是,英特爾明確表示未來微架構將會和工藝製程脫鉤,微架構不再依賴於製程,新的產品將使用合適的製程推向市場。因此我們有可能看到一些長壽的核心使用完全不同代的製程,當然也有可能一些長壽製程被應用在多個微架構上。英特爾做出這樣決定的原因很可能是受到14nm轉移到10nm時幾乎無休止的延期帶來的影響。
由於10nm的不斷延後,從2015年發布的14nm Skylake開始,英特爾只能在14nm上不斷地深挖工藝潛能,實際架構卻幾乎沒有任何進步,包括後來的Kaby Lake、Coffee Lake等都深受其害。好在頻率不斷攀升帶來了性能的提升,否則英特爾將面臨更為麻煩的市場格局,這也是英特爾宣布微架構和工藝脫鉤的原因之一。
全新10nm工藝
密度再創新高
英特爾的工藝在進入22nm後速度就慢了下來。2013年英特爾在14nm工藝初試上就遇到一些問題,量產顯著低於目標值,直到2014年初這個問題才得以初步解決,產能才開始進入爬坡,並且最終的產能直到2015年才逐步提高到和之前22nm相當的程度,這已經比最初的預計晚了接近2年之久。
在14nm之後的10nm上,英特爾認為會在2016年底的Cannon Lake上推出新的工藝,實際上直到2019年初,英特爾還沒有開始大規模生產10nm的產品,產能爬坡更是無從談起。從英特爾之前的路線圖來看,10nm產品的產能釋放可能會進一步延期至2019年下半年,甚至2020年。
10nm延期如此之久的主要原因是英特爾在技術上過於激進。根據英特爾有關工藝製程的演算法,英特爾在14nm節點的晶體管密度為37.5 MTr/平方毫米,但是在10nm節點,英特爾希望這個數據可以提升到100.8 MTr/平方毫米,增長了2.7倍之多。英特爾給出了一張表格,裡面列出了每一代英特爾製程的相關晶體管密度數據。值得一提的是,14nm 的密度數據相對降低的原因是因為英特爾為了獲取更高的頻率,從而放寬了一些電路的要求。
在有關10nm的邏輯庫方面,英特爾披露稱自己已經準備了10種不同類型的10nm庫,分別面向不同的應用領域,其中包括短庫(HD,高密度)、中高庫(HP,高性能)、高庫(UHD,超高性能)等。庫越短,功率越低,密度越高,峰值性能也就越低。最終的晶元往往是不同類型庫的合成,較短的庫往往使用於對成本敏感的部分,比如IO或者非核心部分。較高的庫通過較低的密度和較高的驅動電流,用於驅動設計中最關鍵的部分。
因此英特爾實際上只有高密度庫的密度達到了100.78MTr/平方毫米,比如英特爾給出了三個典型數據分別是密度、Fins和單元高度,高密度庫的數據分別是100.78MTr/平方毫米、8nm和272nm;中高庫分別是80.61MTr/平方毫米、10nm和340nm;高庫則是67.18MTr/平方毫米、12nm和408nm。
另外,英特爾在晶體管的另一個關鍵屬性,鰭片的性能方面也有了一些進展。早期的FeinFET使用單柵極,隨後發展成三柵極,英特爾在22nm中使用三柵極設計以提高總的驅動電流。隨後英特爾還引入了新的參數也就是鰭片間距,用于衡量臨近鰭片之間的距離。相應的,如果鰭片通過多個門,那麼門之間的距離被稱為門間距。
理論上來說,鰭片和金屬柵極之間的接觸越多、鰭片之間的距離越小,那麼泄露就越少、性能就越好。這裡包含了很多複雜的問題,不僅僅是驅動電流的改善,而且還存在諸如寄生電容和柵極電容等問題。
從10nm與14nm的工藝對比表中數據來看,英特爾在10nm上大幅度增加了鰭片高度,減少了鰭片間距、門間距等關鍵性參數,同時還提高了密度。另外鰭片寬度被縮減至7nm,甚至小於製程的典型數值,鰭片寬度和間距越小,意味著寄生電容越不容易存在。而在「不同廠商工藝的典型數據差異」這張表格中還展示了不同廠商、不同代次工藝之間的差別。這裡重點比較了英特爾和台積電、三星16/14nm之後的變化。
10nm工藝和前代工藝的性能對比
這個表中展示了不同工藝的CPP和MPP兩個關鍵數值以及最終面積,單位分別是納米和平方納米,可以用作衡量不同工藝所能達到的密度,也可用于衡量不同工藝下晶體管的典型尺寸。從這個指標來看,台積電和三星的7nm工藝比英特爾的10nm只稍微密集了一點,這就是為什麼英特爾認為自己的10nm工藝依舊具有競爭力的原因之一,但是需要注意的是,CPP和MPP是不可以衡量整個工藝全貌的,畢竟還有很多其他的參數,比如鰭片、電流值等,這裡只是做一些簡單的說明。
英特爾展示其工藝密度發展情況
英特爾10nm工藝相對14nm工藝的改進
最後英特爾也給出了2張圖片用於展示工藝的進步。第一張圖顯示在45nm工藝下為100平方毫米的晶元,在10nm工藝下只有7.6平方毫米,這是工藝的巨大進步。另一張圖片顯示10nm工藝的動態電容比14nm工藝低,但是就晶體管性能而言,14nm 依舊是最出色的,10nm和10nm 都無法超越14nm 的水平。
英特爾展示22nm、14nm和10nm工藝下三柵極晶體管的柵極情況。
總的來說,目前英特爾所給出的任何10nm產品都基於早期的10nm工藝,新的Ice Lake大規模量產時間被放在了2019年底,將採用10nm 的工藝生產。這意味著2019年12月的產品可能在單純衡量晶體管的性能參數方面要落後於2017年10月的14nm ,好在晶元面積會降低很多,這將是一個顯著的優勢。
英特爾展示近年來工藝的進步
Sunny Cove
架構多重升級
英特爾在處理器的微架構方面分為兩個不同的部分進行更新,其中一個是通用性能提升,另一個則是特殊用途性能提升。其中,通用性能提升部分包含的是微架構增強,比如性能提升、能效比提升、頻率增加、IPC提升等,這部分內容提升主要是通過更深(每個時鐘更多指令並行)、更寬(每個時鐘能夠執行更多指令)和更智能(前端更出色的數據傳輸能力)的架構來實現。特殊性能提升主要是通過其他的一些加速方法,比如增加新的指令集、軟體升級、庫升級或者專用的IP等來改進特定方案中的負載情況,從而達到性能的提升。
令人欣喜的是,Sunny Cove的架構升級同時包含了通用性能提升和特殊性能提升。根據目前英特爾給出的信息來看,已經完成了其中幾項工作——包括增加緩存容量,使得核心更寬、增加了L1帶寬等。下面本文將分項目來介紹。
首先來看緩存,Sunny Cove的核心後端具有48KB L1數據緩存,比通常的32KB緩存增大了50%。一般來說,緩存增加會帶來指令未命中率的減少,並且呈平方根關係。在這種情況下,理論上L1數據緩存未命中率會降低22%。此外,Sunny Cove的Core和Xeon版本的L2大小也有增加,目前是256KB和1MB,具體增加多少會在未來公布。
除了緩存外,micro-op也就是uOp部分的緩存也較之前的2048-entry有所增加,但是沒有公布具體數據。第二級TLB緩存大小也增加了,這將有助於存儲更多的最近地址數據。一般來說,需要保存和存儲更多的查找數據時,TLB的容量就顯得比較重要了。這說明英特爾發現原有的設計中,部分近期地址由於TLB容量不夠被刪除後又重新提交了需求,因此增大TLB有助於降低這種情況發生的概率,同時降低延遲並提高性能。
英特爾還給出了更多架構上的細節改進。比如執行埠數量從8增加到了10,允許一次從調度指令中獲得更多的指令並提交給執行埠。埠4到埠9連接循環數據存儲後,帶寬也加倍了,同時AGU也翻倍,更大的一級指令緩存也能起到一部分作用。
Sunny Cove的架構更深
值得一提的是,在之前的Skylake上,當所有的3個AGU都開始存取地址時,每個時鐘周期只能處理一個請求,因此存在潛在的性能瓶頸,改進後這樣的問題將會被緩解。重新排序緩衝區的調度,現在每個周期可以執行5個指令,之前的Skylake只能執行4個。不過Skylake的解碼器和uOp緩存分別是4到5,因此新的架構應該會在前端做一些調整,這部分內容還需要英特爾進一步說明。
Sunny Cove的架構寬度大大增加
在執行埠方面,Skylake和Sunny Cove也存在巨大差異。通過對比差異可知,英特爾為Sunny Cove的整數部分配備了更多的LEA(有效地址載入)單元以幫助進行內存定址計算,這可能有助於需要頻繁訪問內存地址的情況下,通過內存的安全機制來改善性能損失或者是幫助具有恆定偏移的高性能陣列提高性能。乘法單元MUL從Skylake的埠1轉移到了Sunny Cove的埠5,可能是用於重新平衡計算壓力的需求,同時還增加了一個整數除法單元—這個變化已經出現在現有產品中。
對比Sunny Cove和Skylake的前端執行部分
目前的Cannon Lake也增加了一個64位的整數除法單元,它可以將64位整數除法計算所需要的97個時鐘周期時間降低至18個周期,因此這裡的設計可能是類似目的。此外在整數方面,埠5的MUL單元目前已經變更為MULHi單元,其他的一些架構中,這個單元可以將結果的一部分留在寄存器中以供下次使用,但是出現在Sunny Cove中還不知道目的是什麼。
說完了整數單元部分,再來看看浮點單元方面。浮點方面,Sunny Cove增加了重排序資源,因為一些客戶要求這樣的功能用於消除代碼中存在的瓶頸。英特爾沒有在這裡解釋FP單元部分有關FMA的功能實現情況,但是現有信息顯示英特爾設計了AVX-512單元,因此FMA單元應該有一個介面用於連接AVX-512單元。現有的Cannon Lake只有一個512位的FMA,可能延續到了Sunny Cove上。在更強的 Xeon處理器上,FMA單元可能是2個。
除了上述部分外,英特爾給出的其他部分改進還包括分支預測器的改進,減少有效負載延遲。英特爾同時承認,這些改進並非會立竿見影地生效,還需要新的演算法和軟體支持。
在專業計算的改進方面,由於AVX-512單元的加入,因此新的Sunny Cove內核將支持IFMA指令以更好地進行大數據算數計算和加密計算。同樣,Sunny Cove還加入了針對Vector-AES和Vector Carryless Multiply的支持,提供SHA和SHA-NI指令以及Galois Field指令的支持,這都是密碼學所需要的一些基本計算模式。
Sunny Cove的其他一些改變還包括支持更大的內存容量,主內存分頁表現在使用了5層設計(之前是4層),支持線性定址空間高達57位,物理定址空間高達52位。這意味著伺服器處理器理論上可以支持每個插槽4TB的內存,而目前Skylake-SP架構只能支持1.5TB,AMD的霄龍最多只能支持2TB,更大的內存對專業計算來說是非常有用的。Sunny Cove也是首個自2003年以來,在虛擬內存定址上作出重大改革的架構。
目前英特爾在會議上披露的內容只是Sunny Cove架構改進的一部分,英特爾可能會在接下來的學術會議或者發布會上公布這些內容。
第11代圖形引擎
大幅度提升遊戲性能,支持自適應同步
有關英特爾的核芯顯卡,很多獨顯用戶只是將其看作亮機卡或者認為其可有可無,畢竟目前的英特爾核芯顯卡性能跟不上時代。因此在Sunny Cove上,英特爾引入了第11代圖形引擎,將針對性能和功能做出改進,讓玩家使用核芯顯卡也可以更為流暢地玩到遊戲。
值得一提的是,英特爾目前已經發布的核芯顯卡在第9代集成至Skylake處理器之後,後面的幾代產品比如Kaby Lake或者Coffee Lake只擁有第9.5代核芯顯卡。第10代核芯顯卡本來要搭配Cannon Lake處理器,但是英特爾從未發布過集成核芯顯卡的Cannon Lake處理器,英特爾的路線圖上第10代產品也沒有出現。根據路線圖,核芯顯卡直接進入了第11代,將會和基於Sunny Cove架構的CPU配對銷售。
英特爾公布了第11代核芯顯卡GT2的配置情況。從圖中來看,GT2級別的核芯顯卡擁有64個執行單元,遠遠高出9.5代的24個。這64個EU單元被分成4個模塊,每個部分又由2個包含8個EU單元的子模塊組成。每個子模塊配備了指令緩存和3D採樣器,每個模塊配備了2個媒體採樣器、Pixel FE和額外的載入、存儲硬體。
第11代圖形引擎在顯示方面的改進
英特爾沒有介紹新的EU如何提高性能,不過表示EU內部的FPU介面經過重新設計,並且仍然支持2x FP16功能。每個EU像之前一樣支持7個線程,這意味著GT2將擁有512個並發管道。為了更好地利用這些並發管道,英特爾表示它重新設計了內存介面,並且將GPU的L3增大到了3MB,比Gen 9.5增加了4倍。
第11代圖形引擎在3D管線方面做出了一些改進
在渲染技術方面,第11代核芯顯卡支持基於片塊的渲染技術,這和英偉達或者AMD這樣的主流GPU是不同的,更類似於PowerVR這樣的移動GPU。新的GPU還支持多速率著色,這個技術和英偉達近期提出的可變像素著色基本相同,允許GPU在圖像畫面中那些不會被視覺關注到的地方採用比基礎著色比率更小的著色進行填充,從而節約性能。
英特爾還為這個功能做出了一些演示,比如物體較遠的時候會降低著色比率。英特爾宣稱這個功能可以帶來大約30%的遊戲幀率提升,不過這項技術需要針對遊戲進行適配,因此不太可能在短期內就獲得明顯的收益。
在媒體部分,英特爾表示第11代核芯顯卡包括一個基本的HEVC編碼器,具有高質量的編碼和解碼能力,英特爾同時稱其媒體相關的固定功能單元已經在數據中心被用於視頻處理,家庭用戶自然也可以使用相同的硬體。未來,英特爾將支持並行解碼器,可以支持並發視頻流,也支持組合起來的單個大數據流,這種可擴展、可拆分的設計將使得硬體編解碼支持的解析度最高可以達到8K,甚至更高。
第11代圖形引擎在媒體方面的改進
新的核芯顯卡的另一個亮點在於提供了自適應同步技術的支持,也就是AMD和英偉達宣傳了多年的屏幕刷新率和GPU輸出幀數的同步。目前Adaptive Sync技術已經成為了標準,三大顯卡廠商都提供了對這個技術的支持,這對用戶來說是一個利好。其他方面,新的核芯顯卡支持HDR技術,還支持新的Type-C介面,後者可能用於輸出視頻,也可能用於連接VR設備等。
英特爾在發布會上還進行了第11代核芯顯卡和之前第9代核芯顯卡的對比演示,考慮到規模的巨大提升,11代核芯顯卡的整體性能表現還是可以接受的,運行速率更為流暢。當然更多的細節測試只有等產品發布了才能揭曉。
Ice Lake登場
全新處理器上線
前文討論了有關新工藝、新架構和新的核芯顯卡的相關內容,也談到了有關路線圖的相關信息。而將這一切集合在一起並呈現在最終用戶面前的,就是代號為Ice Lake的處理器家族。Ice Lake處理器是英特爾首個10nm處理器,它將涵蓋移動、桌面、企業用戶、高性能用戶等多個目標市場。
和之前一樣,英特爾最先推出的Ice Lake處理器是面向移動設備的Ice Lake-U系列,首款產品具體型號為Core i3-8121U。目前還不知道英特爾為何將其歸類為八代酷睿,可能是考慮到這是10nm首秀且存在市場平滑過渡的原因。
令人驚訝的是用於移動市場的Core i3-8121U處理器突然出現,它被證明採用了Sunny Cove架構且基於10nm工藝打造,這是它的正面照片。
從英特爾針對Ice Lake-U相關產品的布局來看,其基礎設計包含了2個或者4個CPU核心,64個EU單元的核芯顯卡(Core i3-8121U為2個CPU核心,GT2核芯顯卡的配置)。英特爾表示,為了獲取更高的性能,他們正在進一步優化第11代核芯顯卡的相關驅動程序。同時,英特爾也宣稱這是首款具有1TFLOPS性能的集成顯卡。
Ice Lake開發板照片
硬體方面,英特爾可能會為移動處理器配備LPDDR4X顯存顆粒。因為在圖形部分,由於GT2核芯顯卡的規模大幅度提升,因此對數據帶寬的需求大增,至少需要50GB/s。在這種情況下,如果要避免內存系統成為瓶頸,那麼雙通道情況下英特爾至少需要選擇LPDDR4X-3200規格的內存,在這種規格下的內存帶寬為51.2GB/s。通常英特爾對內存規格的支持都很保守,比如目前英特爾最高支持DDR4 2933,所以如果處理器有需要,內存支持加強也是可以理解的,這顯示了英特爾在核芯顯卡定位上的一些改變。
在連接方面,當安裝了英特爾的CRF模塊時,Ice Lake晶元將通過CNVi介面啟用Wi-Fi(802.11ax),另外預計雷電3介面也可以通過USB Type-C介面轉接。在攝像頭支持方面,英特爾重新設計了相機支持的相關界面,筆記本電腦不再需要MIPI轉USB就可以直接支持攝像頭了。
全新的英特爾獨立顯卡
Xe登場
英特爾在獨立顯卡上已經努力奮鬥了多年,還經歷了數次失敗。這一次英特爾挖到了不少業內大牛,包括AMD和英偉達的一些圖形技術專家。在發布會上,英特爾公布了旗下獨立顯卡的品牌,並宣布將在2020年推出這款名為Xe的獨立顯卡。
在之前的一些討論中,Xe是指英特爾第12代圖形產品,但實際上英特爾認為這個市場應該分開處理,Xe將涵蓋從核芯顯卡(集成)到數據中心的廣大市場,英特爾希望提供從入門級到發燒級,再到AI的一整個系列的GPU產品和競爭對手(大家都知道是誰)展開全面的競爭。
在技術方面,英特爾宣稱新的顯卡將採用英特爾的10nm工藝。同時藉助英特爾的單堆棧軟體理念,用戶將利用英特爾的CPU、GPU、FPGA和AI相關產品組成一套開發設備,而不再需要其他廠商產品的加入。Xe的設計將為後面數代產品奠定基礎,並且英特爾也準備好圍繞著新的品牌進行一整個的技術開發和市場營銷活動。此外,也有一些消息顯示,英特爾的Xe品牌將有可能用於FPGA和AI產品。
英特爾宣布新的獨立顯卡品牌Xe,旗下產品分為桌面和商用兩部分,將面向從入門級用戶到發燒級玩家,以及數據中心、AI等多個細分市場。
總的來看,2019年的英特爾正在醞釀著一次巨大的變化,無論是製造、架構還是產品規划上,都將有全新的突破,這樣的變化在英特爾幾十年的發展歷程中都可以排在前列。從2019年開始的這次技術突破,甚至將影響到2020年乃至更遠期的技術發展情況,值得媒體與DIY愛好者持續關注。
※「戰鬥天使」小米9定在2月20日發布;Radeon VII僅能有限度成為專業卡…
TAG:微型計算機 |