當前位置:
首頁 > 科技 > NVIDIA RTX 2080 Ti/2080同步評測

NVIDIA RTX 2080 Ti/2080同步評測

大家期待了兩年的NVIDIA新顯卡,終於在今天正式解禁了性能評測,中間跳過了Votla架構後,Turing架構橫空出世,帶著圖靈極具革命性的創新思想,全球第一款支持實時光線追蹤的顯卡RTX 2080 Ti、RTX 2080誕生了。那麼在新架構、新工藝下的Turing圖靈顯卡將會與光線追蹤迸發出什麼樣的火花?性能上會有怎樣的驚喜?一切都會在這篇同步評測中揭曉。

在過去10年,NVIDIA一直都在堅持使用GeForce GTX作為顯卡的前綴,這一次改名GeForce RTX顯示了他們內心的激動、以及改變遊戲界現狀那種自豪,「R」顯然代表著「Real-Time Ray Tracing(實時光線追蹤)」,代表著NVIDIA過去十年的努力,這一刻終於呈現給了我們的遊戲玩家。

NVIDIA CEO黃仁勛在發布現場興奮地說,Turing顯卡是過去12年里GPU最大的飛躍。

所以,這一代Turing圖靈顯卡最大亮點就是實現了遊戲畫質飛躍式進步的前提——支持實時光線追蹤,也是最大的亮點。下面是我們針對RTX 2080 Ti、RTX 2080「光追」顯卡,對比上一代同級Pascal顯卡的規格對比表。

RTX 2080 Ti、RTX 2080規格:

首先Turing顯卡最明顯的變化就是,目前是一個核心對應一個型號,TU102是RTX 2080 Ti專屬、TU104為RTX 2080專屬,TU106為RTX 2070專屬,而上一代GTX 1080、GTX 1070共用同一款GP104核心。

Turing顯卡將會採用12nm FFN工藝打造,技術供應方來自台積電,12nm FFN其實還是基於16nm FF+演進過來,12nm FFN最後的「N」代表著這是專門為NVIDIA優化的高性能版本。

儘管有了新製程的支持,Turing GPU核心面積也是水漲船高,雖然還沒有達到TITAN V GV100核心那種815mm2級別,但也相差不遠了,RTX 2080 Ti的TU102足足有754mm2,RTX 2080使用的TU104也有545mm2,因此晶體管數量達到了空前的186億、136億,像RTX 2080比起GTX 1080都快翻倍了。

冷靜地分析一下,Turing核心面積暴漲原因其實並不是暴力堆砌CUDA單元結果,而是引入了全新的Tensor Core以及RT Core單元有極大關係。而它們的出現成就了Turing圖靈顯卡最大亮點——遊戲也可AI、實時光線追蹤不是夢!

TU102核心架構

之前我們都說過三款新顯卡都有不同的GPU核心,其實它們內部結構都是發生了很大變化。RTX 2080 Ti TU102核心規模真的非常大,TU102核心一共分為6組GPC單元,每組GPC單元又擁有12個SM單元,一共是72個SM單元,但RTX 2080 Ti也只用到其中的68個而已,算下來68×64=4352個CUDA流處理器。同時按照RTX 2080 Ti已經公布的參數,可以計算得出,每個SM單元將會配備64個CUDA、8個Tensor Core 、1個RT Core,每個SM單元配給64個CUDA的做法,倒像是從前GP100大核心喜歡做的事情,原因會在後面給出。

TU102

TU102核心架構

完整版的TU104核心依然是6組GPC單元,不過每組GPC改為8個SM單元,一共是6×8=48個,而RTX 2080的GPU核心是TU104-400,只用上了46組,還有預留有2組空缺的,46×64=2944個,規模要比RTX 2080 Ti小多了,真怨不得RTX 2080 Ti為什麼貴那麼多。

TU104

頻率方面,RTX 20系列顯卡頻率還是相對保守,沒有說一來就上2GHz這種可怕設定。但這一次頻率高低出現了微妙的變化,以往Founders Edition版本意味著是最低的基礎頻率,然而在RTX 20系列中,它也預超頻了。RTX 2080 Ti Founders Edition設定在1350MHz,起步看似很低,但boost頻率可達1635MHz,將近300MHz的boost範圍前所未有,Pascal架構顯卡的基本上都是150MHz以內。RTX 2080 Founders Edition是在1515-1800MHz之間。另外有NVIDIA GPU BOOST 4.0神秘加成,頻率還能更上一層樓!不過我們也擔心,Founders Edition版本預設頻率較高,GPU BOOST 4.0兇殘,12nm FFN非大改工藝,留給玩家的超頻空間依然有限。

浮點性能上,因為涉及到CUDA單元、Tensor Core、RT Core,三者性能差異各不相同,個中關係也很微妙。就單精度性能而言,RTX 2080居然和GTX 1080 Ti不分伯仲,所以大家就不要說期待RTX 2080吊打GTX 1080 Ti了,不過RTX 2080 Ti是真的強,14.2TLFOPS要比GTX 1080 Ti的10.6TLFPOS高多;由於Pascal架構顯卡沒有Tensor Core,Tensor INT4這方面算力為0,RTX 2080 Ti、RTX 2080分別為455.4、339.1TOPS;衡量光線追蹤能力的RTX- OPS上,圖靈顯卡由於有專屬的加速硬體RT Core,RTX 2080 Ti、RTX 2080可以做到78、60 TOPS,而GTX 1080 Ti、GTX 1080隻有可憐的11.3、8.9 TOPS。

顯存方面,顯示器解析度不斷提高、紋理貼圖尺寸更大、渲染技術也越來越複雜、數據交互量非常大、顯存帶來以及容量大小在影響GPU性能中佔比越來越大,為了解決這些瓶頸,NVIDIA首次採用了GDDR6顯存。GDDR6繼承了GDDR5X中的16bit預取寬度,使用了改進版的QDR 4倍數據倍率技術,GDD6顯存速度因此可以拋開GDDR5一大截,而NVIDIA本次在Turing顯卡上全部採用14Gbps版本。GDDR6好處顯然易見,那就是顯存帶寬的直線上升,就是為了滿足實時光線追蹤大量數據交換。舉個例子,GTX 1080 Ti 11GB 11Gbps的GDDR5X顯存帶寬才484GB/s,RTX 2070 8GB 14Gbps的GDDR6顯存帶寬就有484GB/s,RTX 2080 Ti就更厲害了,帶寬都虐了HBM 2,難怪NVIDIA不願意用HBM 2顯存,GDDR6優勢明顯了。

功耗方面,從Maxwell、Pascal架構開始,NVIDIA開始對顯卡功耗進行大刀闊斧地進行改革,一直在給功耗做減法。但Turing架構就沒辦法了,因為Tensor Core、RT Core的加入,引入了大量額外的晶體管,功耗只能漲了,RTX 2080 Ti Founders Edition是260W,略高於GTX 1080 Ti的250W,需要8+8Pin外接供電;RTX 2080就漲得更多了,需要250W,而上一代同級GTX 1080隻要180W,因此供電介面也改為了6+8 Pin。

顯示介面方面,I/O介面一直都在不斷小型化,臃腫的介面都會面臨淘汰的一天,VGA是這樣,這一次輪到DVI了,僅保留一個HDMI 2.0b、三個DisplayPort 1.4介面,以及一個新上位的USB Type-C視頻輸出介面。USB Type-C只是介面形式,內部其實還是走DisplayPort 1.4協議,最高支持8K解析度。它不僅僅充當視頻輸出介面,還能傳輸數據、充電!那就是之前由微軟、英偉達、AMD、Oculus、Valve牽頭制定的VirtualLink,可以走DisplayPort HBR3協議、USB 3.1 Gen2 (10Gbps)、最高27W供電。能夠簡化虛擬現實設備的調校準備,比方說HTC Vive本身就需要HDMI、USB 3.0、電源多種線纜,現在一根USB Type -C就搞定了。

價格方面,NVIDIA一直在鼓吹的消費升級,在RTX 20系列顯卡中得到了具體體現,RTX 2080 Ti售價已經高達8199元(Founders Edition 9999元),GTX 1080 Ti當初售價不過是5699元,漲幅43%,真的是可怕。RTX 2080也漲到5699元起步,而GTX 1080發售之初只要4599元。可以預期,萬元顯卡已經成為了新常態。

全新的Turing SM單元——50%性能提升

按照NVIDIA公布的Turing架構亮點可以分為四大部分:全新的內核架構、Tensor Core 、RT Core 、更先進的著色技術,我們將會以這四個作為主線索,跟大家逐一聊聊。

前面我們已經看過Turing GPU兩款核心架構框圖,你就會發現非比尋常的地方,SM單元組數明顯增多。沒錯,為了實現實時光線追蹤,NVIDIA對SM單元進行一場轟轟烈烈的「加減法」。

Turing 圖靈架構性亮點

Turing圖靈架構採用全新的SM設計——Turing SM單元,與Pascal架構相比,每個CUDA Core性能提升50%,效果顯著。

50%的性能提升主要是依靠兩個比較關鍵的技術實現

Turing架構SM單元融合很多Volta架構的特性,比方說一個TPC裡面包含了兩個SM單元,而在Pascal架構當中只有一個。另一方面,Turing的SM單元內部運算單元有了全新的組份以及分配方式。

在Turing架構中,一個SM擁有64個FP32、64個INT32、8個Tensor Core 、1個RT Core,原本以為FP64單元也徹底消失了,但其實每個SM單元依然配給了2個FP64雙精度單元,但是框架圖中未畫出,保持以往的FP32/FP64的32:1比例,確保兼容性問題。

此外添加了獨立的INT數據路徑,類似於Volta GV100 GPU的獨立線程調度,支持FP32和INT32操作的並發執行。

Turing架構SM單元還為共享緩存、L1緩存、紋理緩存引入了統一架構,可以讓L1緩存更充分利用資源。Turing的L1緩存與共享緩存大小是靈活可變的,可以根據需要在64+32KB或者32+64KB之間變換,目的在於減少L1緩存延遲,並提供比Pascal GPU中使用的L1緩存更高的帶寬。同時L2緩存容量大大地提升至6MB,是Pascal架構的兩倍。

根據NVIDIA官方數據顯示,與Pascal架構相比,Turing架構每個TPC帶寬命中效果增加2倍。

當前遊戲應用程序中一組著色器工作負載的結果

Turing Tensor Core——AI的靈魂

其實Turing裡面真的有很多Volta的影子,比如Tensor Core首次出現在Volta架構中,而Turing架構對其進行了增強。還增加了新的INT8和INT4精度模式,FP16半精度也能夠被完整支持。

Tensor中文裡面就是張量,區別於我們常見的標量(0維)、矢量(1維)、矩陣(2維),張量擁有3維或者更高維,本質核心上就是一個數據容器,可以包含更多維度數據。而目前深度學習就是通過極大量數據運算計算出最終結果,通常會用到矩陣融合乘加(FMA)運算,而Tensor Core區別於ALU整數運算,天生就是為這種矩陣數學運算服務。

它可以將兩個4×4 FP16矩陣相乘,然後將結果添加到4×4 FP16或FP32矩陣中,最終輸出新的4×4 FP16或FP32矩陣。NVIDIA將Tensor Core進行的這種運算稱為混合精度數學,因為輸入矩陣的精度為半精度,但乘積可以達到完全精度。

每個Tensor Core可以使用FP16輸入在每個時鐘執行多達64個浮點融合乘加(FMA)運算,新的INT8精度模式的工作速率是此速率的兩倍。Turing Tensor Core為矩陣運算提供了顯著的加速,除了新的神經圖形功能外,還用於深度學習訓練和推理操作。

Tensor Core FP16、INT8、INT4算力,以RTX 2080 Ti為例

Pascal和Turing Tensor Core之間配置比較

NVIDIA將Tensor單元引入到Turing架構當中,意味著可以在遊戲中首次實現深度學習。Tensor雖然為深度計算而生,但沒有平台框架用不起來的呀。所以NVIDIA又造了個Neural Graphics Acceleration(NGX),專門建立起屬於GPU的DNN深度神經網路,用於加速處理遊戲中的部分特性,實現遊戲也能AI。

有了Tensor Core與NGX的結合,它可以加速實現一些過去非常繁瑣功能,可以在遊戲中實現諸如深度學習超級採樣DLSS、AI InPainting、AI Super Rez、AI Slow-Mo等功能。簡直就是萬物基於AI的真實寫照!

注意NGX的功能與NVIDIA驅動密不可分,很多功能都是依賴於NVIDIA GeForce Experience軟體實現的,會自動匹配Turing顯卡並且下載NGX Core軟體包,並且提供對應服務,比方說深度學習超級採樣DLSS、AI InPainting、AI Super Rez、AI Slow-Mo等功能。

深度學習超級採樣DLSS:

現在很多遊戲畫面不是直接渲染得出的,多數都有後處理,也就是各種抗鋸齒技術。舉個TAA例子,它是一種基於著色器的演算法,它使用運動矢量組合兩個幀來確定前一幀的採樣位置,雖然性能開銷差不多,但效果卻不如其他AA技術。因此NVIDIA利用Tensor Core開發出了DLSS,實現在較低的輸入樣本數下更快地渲染,輸出渲染畫面與TAA質量相似。但由於Tensor Core的加速處理, RTX 2080 Ti的渲染能力要強得多,幾乎是GTX 1080 Ti的2倍。

針對每一個遊戲,會實現建立起對應的訓練網路,收集數千個以64×超級採樣生成參考畫面,經過對像素點進行64次偏移著色合成輸出後,理論上畫面細節具有近乎完美的圖像效果。同時還會生成正常的渲染圖像,然後要求DLSS網路響應輸出對應結果,觀察與64×超級採樣畫面差異,調整網路權重,經過多次迭代以後,DLSS自行學習產生的結果將具有與64×超級採樣畫面相同質量的細節,還可以避免TAA產生的運動模糊等問題。

不過需要明確的是DLSS訓練網路運行於NVIDIA的超級計算機上,而非你的顯卡,只不過通過GFE下載了這個遊戲DLSS網路權重參數,可以用非常低的性能開銷復現了超算結果,這就是NVIDIA為什麼要在Turing顯卡上引入Tensor Core的原因。這同樣意味著,每一個遊戲都需要事先跑出自己的DLSS網路,然後由NVIDIA通過GFE軟體分發給玩家,所以這也是為什麼非Turing顯卡不能使用DLSS的原因。

NVIDIA表示,DLSS畫面效果可以達到2× TAA抗鋸齒的水平,性能還能提高一倍;DLSS 2×就更牛逼,它想要創造的傳統實時渲染無法做到事情,就是生成輸出堪比64倍超取樣級別的遊戲畫面。

首批支持DLSS(大力水手)的遊戲,共15款

AI InPainting:說白了就是為了補全圖片中缺失的內容,或者是幫你去掉不想要的東西,堪稱最強PS摳圖!而NGX InPainting演算法依賴於來自大量真實世界圖像的訓練來合成新內容,它同樣是運行於超算得出的深度神經網路中。詳見我們的新聞——《NVIDIA再出AI黑科技,完美去除圖片噪點、水印》

AI Super Rez:它可以將原視頻的解析度清晰地放大2倍、4倍、8倍,圖像更加銳利。

AI Slow-Mo:利用AI人工智慧技術,可以將普通常見的30fps進行智能插幀計算,可以獲得240/480fps的慢動作視頻。這個對於視頻內容創作者來說可是個巨大福利,在一些需要慢放的鏡頭不再需要專門高幀率攝像頭機,只要通過AI運算就能獲得讓人覺得流暢慢動作視頻。詳見我們的新聞——《NVIDIA AI黑科技,30fps可插幀成480fps慢動作視頻》

RT Cores——實時光線追蹤的「光劍」

Turing非常之多特性都傳承於Volta架構,但Volta架構也能實現實時光線追蹤。是因為RT Core這一特殊單元的加入,讓Turing顯卡實現計算機圖形學的一大突破,Real-Time Ray Tracing實時光線追蹤成為了可能。我們也在超能課堂——《RTX顯卡支持的實時光線追蹤是什麼?》中詳細地描述過實時光線追蹤是怎麼一回事,其效果就不說了,這絕對是Turing顯卡的核心靈魂,也是架構的最大進步,以至於NVIDIA利用了非常大的篇幅來描述他們是怎麼實現的。

不可否認光柵化在過去功勞,一直以較小的資源開銷實現更逼真的光影場景效果,但事實上它是有不可解決的局限性,會在渲染出現違反物理現象的畫面,但實時光線追蹤是基於物理上的一種密集渲染方式來還原,不存在這缺點。這就是為什麼NVIDIA堅持讓顯卡加入RT Core實現更逼真的遊戲場景。正如我們的觀點,光柵化與實時光線追蹤不是對立的,NVIDIA也認為兩者結合是最好的,也就是混合渲染,光柵化用於普通、需要高效處理的場景中,而光線追蹤用於最具視覺效果的地方,比方說水面反射、鏡子反射、玻璃折射等。

其實不能實現全光線追蹤渲染的原因在於,目前顯卡性能還達不到要求,因為考慮到場景複雜程度、解析度、最終效果,不能指望說每個像素都能投射出數百條光線進行渲染計算,算力完全跟不上,只能在次要景物上「偷工減料」,減少投射的光線數目,由於樣本數目太少,可能會因為蒙特卡洛積分近似求解中樣本數量不足,導致畫面會有大量噪點。NVIDIA通過針對極低樣本數量的光線追蹤結果進行實時降噪的研究,在GameWorks SDK中一個光線追蹤降噪模塊,也就是Denoising演算法。最終可以用比較低樣本的光線追蹤應用到實時渲染中,最終渲染質量可以媲美大樣本下的光線追蹤收斂圖像。

其實在沒有RT Core幫助下,Pascal架構顯卡也能實現光線追蹤,但效率奇低。主要是因為BVH遍歷的過程需要通過著色器操作來執行,並且每個光線投射需要數千個指令來計算BVH中的邊界交叉點,直到最終擊中三角形。你想想一個像素點有100條光線,一條光線需要數以萬計的指令來完成計算,就這處理速度完全達不到實時光線追蹤需求。

但RT Core 可以,其實它有點像是Tensor Core那樣術業有專攻,只不過是專門為光線追蹤計算服務的,實質上它是一條特異化的專用流水線,用於加速計算包圍盒層級(BVH)遍歷以及光線和三角求交。由於專項專用的ASIC都擁有非常高效的特性,不像CUDA這種通用單元,效率當然有平方級的提升。

RT核心包括兩個專用單元:第一個進行包圍盒分類計算,第二個進行射線三角求交計算

實現實時光線追蹤最大問題就出在求交計算上,場景越複雜、物體數量越多,計算就越耗時間,要達到實時光線追蹤,那就必須要得解決求交計算速度問題。高效的實時光線追蹤實現主要是從BVH Traversal入手解決,BVH利用數據結構樹形式對物體進行分門別類,不斷細分。在計算時,光線會尋找被擊中的第一個包圍盒,再計算裡面剩餘包圍盒,如此往複,直到最終的唯一三角形,。演算法就可以大大減少計算每一條光線最近的交點所需要遍歷的三角形的數量,在一次渲染中這個預處理只需要進行一次,就可以供所有光線使用。

因此一個SM單元中只需要配備一個RT Core即可,因為SM單元只是個引子,用於啟動,剩下的工作全都交由RT Core處理,會自動計算執行BVH遍歷以及光線和三角求交,並且向SM單元返回結果,從而節省SM單元執行的數以千計的指令。

同時SM單元可以自由地執行其他任務,比如是頂點生成、計算這色等。因此一個GPC單元中SM單元數目發生重大變化,有可能是與RT Core性能匹配相關,畢竟兩者相輔相成,誰跑得太快或者太慢都是不行的。

最後RT Core還要配合GameWorks SDK的光線追蹤降噪模塊、RTX API等軟體層面的協同工作,才能一張Turing顯卡就能實現實時光線追蹤。

最終RTX 2080 Ti每秒鐘可以追蹤10G條光線,78T的RTX-OPS;RTX 2080每秒追蹤光線降低至8G條,RTX-OPS也降低至60T;RTX 2070每秒能追蹤的光線只有6G條,45T RTX-OPS;而Pascal的遊戲王者GTX 1080 Ti只能追蹤1.1G條光線,RTX-OPS只有11.3T,RT Core性能是非常強勁的。

NVIDIA定義的RTX-OPS性能是這樣計算的, RTX-OPS= TENSOR * 20% + FP32 * 80% + RTOPS * 40% + INT32 * 28%

RTX光線追蹤效果對比(記住了RTX不一定代表實時光線追蹤,還可能是支持DLSS):

先進的渲染技術

Mesh Shading(網格著色):由於現在遊戲場景很複雜、規模也很宏大,如果用原本的方式生產三角形,會消耗太多的CPU draw call,而Mesh Shading引入了一種更靈活的模型,可以讓開發人員能夠規避CPU性能瓶頸並使用更高效的演算法來生成三角形,本質上就是Mesh Shader生成三角形給光柵器,不用CPU慢慢跑三角形。

Variable Rate Shading (VRS,比率可變著色):Turing架構引入了一種全新更加靈活的控制著色率的功能,稱為VRS可變速率著色。使用VRS,屏幕上每個16×16 像素區域都可以具備不同的著色比率,可以讓開發人員使用特別的新演算法,實現之前難以實現的著色比率優化,進而提升幀數。

內容自適應著色、運動自適應著色、視網膜中央凹著色

Texture-Space Sharing(TSS,紋理空間著色):TSS技術中,其著色值將會被動態計算並作為紋理空間中的紋素存儲起來,當像素被紋理映射,其中屏幕空間中的像素被映射到紋理空間,並且使用標準紋理查找操作對相應的紋素進行採樣和過濾。通過這項技術,以完全獨立的速率和獨立解耦坐標系統對可見性和外觀進行採樣。使用TSS,開發人員可以重新使用在分離的著色空間中完成的著色計算來提高質量和性能。

Multi-View Rendering (MVR,多視圖渲染) :這是Pascal架構上的SMP功能擴展版本,MVR允許從多個視角進行高效的場景繪製,Turing硬體每次通過最多支持四個視角,API級別最多支持32個視角。

GPU BOOST 4.0

在去年的Pascal架構GTX 1000系列顯卡中使用了更先進的GPU BOOST 3.0,如果說前兩代GPU BOOST技術boost頻率幅度不大,那麼GPU BOOST 3.0就是飛躍式的進步,boost頻率幅度達到300-400MHz更是稀疏平常的事情。這是為什麼?那就是頻率與電壓之間的關係不再是線性,它們是一對一的關係,一個電壓值對應一個頻率。

如NVIDIA給出的GPU BOOST 3.0示意圖,白色實線代表了NVIDIA在BIOS中寫死的隱形上限,目前除非硬改PCB電路以外,沒有什麼辦法可以突破它,畢竟這個上限是NVIDIA在硬體上監測到數據結合程序約束住這個上限。

白色虛線是顯卡出廠時BIOS中默認提供的基準頻率,而綠色虛線則是玩家在使用中實際獲得的最高頻率。在解除頻率與電壓之間線性關係後,一對一可調整之後,綠色虛線更加貼近了NVIDIA所設置的隱形上限,從而達到更加高的boost頻率,因此Pascal顯卡之所以有這麼高的運行頻率,這個和GPU BOOST 3.0應用不無關係。

GPU Boost 4.0改進的地方在於,增加了用戶手動調整GPU Boost曲線的能力。原本這個GPU Boost對於玩家來說是隱形的,集成於每一張顯卡驅動內部中,當然像MSI Afterburner這裡除外,可以查看V-F曲線。現在GPU Boost 4.0公開了演算法,玩家可以手動修改各種曲線本身,以提高GPU的性能。

最大的好處是可以添加了最佳頻率節點,在達到功耗、溫度上限之前保持最高頻率運行,當溫度、功耗超過限值就會自動降低頻率,保護顯卡。目前最先支持調整的修改曲線的軟體是EVGA Precision X1,在Precision X1中,Temp Tuner中的所有節點都是可編輯的。

很多玩家都喜歡給顯卡超頻,但未必所有人都要足夠的知識與能力來實現,NVIDIA為此構建了一套新的API,可以利用演算法自動測試頻率節點穩定性,提供一個可以穩定運行的超頻曲線給你,換句話說NVIDIA造了一個一鍵超頻功能,而且是適配於每一張卡,都用獨一無二的超頻設置。

這套API將會公開給所有顯卡廠商使用,他們可以自行研發配套的超頻工具,或者使用EVGA Precision X1(現已支持)、MSI Afterburner(4.6.0可能已經支持)這類的通用超頻軟體。

屬於GeForce遊戲顯卡的NVLink 2.0

NVIDIA過去為兩張或者兩張以上的顯卡SLI連在一起作單一輸出功能設計了SLI橋,採用單個多輸入/輸出(MIO)介面技術,後期又升級為SLI HB橋(Pascal架構,雙MIO介面),帶寬為1.95GB/s。

而在另一階段,NVIDIA為專業顯卡、計算卡設計了全新的NVLink,而2016年發布的Tesla P100是首款搭載NVLink的產品,單個GPU具有160GB/s的帶寬,相當於PCIe 3.0 ×16帶寬的5倍。去年GTC 2017上發布的TeslaV100搭載的NVLink 2.0更是將GPU帶寬提升到了300GB/s(六通道),都快是PCIe 3.0 ×16的10倍。

NV說RTX 2080/2080 Ti的NVLink是給你上更高的解析度用的

這一次,NVLink 2.0將會下放到GeForce遊戲上,但目前只有RTX 2080 Ti、RTX 2080才能夠享受這一殊榮,畢竟頂級顯卡性能足夠強才有需要組建多卡系統,NVLink高帶寬剛好適合使用。

具體落實到RTX 2080 Ti、RTX 2080上又有區別了,因為NVLink是有雙通道的,每個通道單向帶寬25GB/s,而雙向帶寬50GB/s。而RTX 2080 Ti能用雙通道,但RTX 2080隻能單通道。值得注意,NVLink僅支持雙路SLI,不支持三、四或者更多路SLI。

而根據我們從廠商了解到的消息,NVLink橋售價不菲,官方賣79美金,但第三方99美金是跑不了,RGB燈就更加酷炫了。

RTX 2080 Ti Founders Edition、RTX 2080 Founders Edition圖賞與拆解

其實在今年五六月份的時候,我們就聽說過NVIDIA要大改公版設計,廢掉了原本「泰坦皮」的模具,換上了新的雙風扇散熱器,當時我們還挺興奮的,畢竟NVIDIA終於是要做不一樣的東西。

然而到了8月21日正式發布之時,我們在老黃的PPT上看到顯卡長這樣的時候,卻發出「um?怎麼感覺有點丑」的聲音。是的,光憑一張圖,你就覺得RTXFounders Edition顯卡質感太差了,滿滿的塑料感。而事實上,拿到真卡之後,我們當了一次「鍵盤俠」,因為真卡的無論是視覺上、還是觸感上都有了新的飛躍,發出了「真香」的感嘆。

包裝上與之前的Founders Edition顯卡都是一樣,沒有內包裝盒,顯卡直接插在底座上。雖然這種包裝成本很高,但滿滿的開箱儀式感,讓玩家感受到這種高X格,不愧是賣那麼貴的Founders Edition顯卡。

GTX 10時代的Founders Edition包裝有個壞毛病,開合幾次過後,說明書全都皺了。這一次RTX 20 Founders Edition顯卡就用個小盒子裝起來,小小的一本快速安裝指南,附送一根HDMI轉DVI線。

顯卡本體原本是有塑料膜的,類似於蘋果iPhone的包裹方式,而非靜電袋,意味著塑料膜是一次性,拆開了就會被發現,杜絕二手顯卡。RTX 20 Founders Edition顯卡質感真的很棒,分量也很重,足有1.3Kg。主要是外殼採用了大量的鋁合金,加上背板營造的一體式效果。

裝配精度不僅高,而且處處彰顯著細節,比如說鋁殼都有做倒邊處理,不割手而且還能形成一道高光線,點綴顯卡。

很多人戲稱這一代的Founders Edition顯卡長得像煤氣灶,確實有幾分神韻。兩隻風扇葉片確實像飛機的發動機風扇,而且還是13葉設計,NVIDIA表示經過重新設計後,產生的氣流是普通風扇的3倍,是典型的風量扇,而且還能保持安靜運行,終於不用忍受原本渦輪式高轉速下的「喧囂」。

不過中間豎置的RTX 2080有些違和,奇奇怪怪的。

NVIDAI終於將背板做成了一體式的,多了一些裝飾用的開槽,挺漂亮的。

PCIE擋板做了黑化處理,也打上了NVIDIA LOGO。DisplayPort 1.4a ×3,HDMI 2.0b ×1,USB-C ×1,一共五個視頻輸出介面。

Founders Edition顯卡真的是處處彰顯細節,NVLink金手指部分都隱藏起來了,和之前的星戰版一樣做了個蓋子,可以與顯卡外觀融為一體。

標準的雙槽設計,從頂部觀察,可以內部整齊劃一的鍍黑散熱鰭片,RTX 2080 Ti是雙8 Pin外接供電,RTX 2080是6+8 Pin外接供電。

認住啦,金手指上面打著NVIDIA Logo標的基本上都是公版PCB方案。

拆解過程很繁瑣,不僅僅是因為螺絲多,而且是用內六角螺絲固定,一般人都沒有這種螺絲刀頭。拆開背板以後,發現背板竟然非常之薄,而且對於大發熱位置都有散熱硅墊輔助導熱。

散熱器就不用說了,全尺寸均熱板,NVIDIA真的大手筆,可以將熱量更快傳遞到散熱片上,而且針對每一個顯存、關鍵IC、MosFET都設計有凸起,加上導熱硅墊。不過這種導熱硅墊都是一次性的,拆了以後你就還原不了原始狀態,散熱器效果肯定是大打折扣的,所以大家還是別拆了。

這個散熱鰭片賊好看,拆解來自NVIDIA官方

看看PCB,這一次NVIDIA肯定是下足功夫了,頗有AMD RX Vega公版顯卡風範,用料也是史無前例地豪華。

RTX 2080 Ti配備的TU102-300A核心,11GB 鎂光GDDR6顯存;RTX 2080配備的TU104-350A核心,8GB 美光GDDR6顯存。

VRM供電上達到空前的規模,RTX 2080 Ti使用了10+3相iMON DrMos供電,RTX 2080由於TDP稍低,使用8+2相供電。DrMos來自安森美的FDMF 3160,PWM控制器也是全新的uP9512,具有獨立8個PWM控制通道,而它還可以在實現亞毫秒級電源管理,在低功耗時可以關斷幾個通路,節省用電。

由於不想破壞另一張顯卡散熱器,故沒有拆解,用官方照片表示一下,有亮點

測試平台說明:

我們選用了Intel Core i7-8700K作為處理器,算是高端遊戲中的最常見處理器,六核十二線程絕對是遊戲殺手,還有3.7GHz不錯的基礎頻率,睿頻也能達到4.7GHz水平。因為可能需要超頻,因此選用了九州風神堡壘240一體式水冷。主板選用了微星的Z370 Gaming Pro Carbon,內存是準備一套四根的芝奇幻光戟 8GB 3200MHz,一塊Intel 600p 512 GB SSD作為系統盤,遊戲盤為2TB的希捷。電源是安鈦克的HCG850,配合酷冷至尊的MasterCase H500M機箱。

系統是最新的Microsoft Windows 10 Build 1803,一定要最新並且開啟開發者模式,不然光線追蹤是運行不起來;驅動程序方面,GTX 1080 Ti、GTX 1080使用GeForce 399.24 Drive WHQL,而RTX 2080 Ti、RTX 2080則是為發布的GeForce 411.51WHQL(未知是否為正式版驅動)。

測試項目包括常規的3DMark(Fire Strike、Time Spy)、Unigine Superposition,由於RTX 2080 Ti、RTX 2080的性能非常強大,已經滿足了VR體驗要求,也加入了VRMark測試。此外還有14款涵蓋性能要求、遊戲類型不同的遊戲,還會分別測試在1080P、2K、4K解析度下遊戲成績。

基準性能測試:

3DMark可以說是顯卡界中的黃金比例尺,無論什麼顯卡都可以很好地衡量其性能表現。不過這一次圖靈顯卡出現了比較令人驚奇的成績表現,因為它們在4K解析度、DirectX 12 API下表現遠超CUDA規模差異上限,十分亮眼。

我們直接看成績,以GTX 1080作為參考基準成績,影馳GTX 1080 Ti成績浮動在GTX 1080的131-139%之間,RTX 2080 Founders Edition則是125-149%,RTX 2080 TiFounders Edition在157-194%之間,可以看出Turing顯卡成績浮動大於Pascal顯卡,主要出現在Time Spy、Extreme Time Spy這兩個項目中。

刨除掉顯存寬頻、頻率、架構上的差異,那麼性能表現應該是與CUDA規模掛鉤的,可Turing顯卡偏偏遇強越強,特別是4K項目,表現已經遠超CUDA規模差異比例。

不過在Unigine Superposition測試中,運行1080P High畫質,Turing顯卡性能提升也出乎意料高。

NVIDIA提到了Turing顯卡也為VR進行了諸多優化,在進行VRMark測試時跳過了是個中端顯卡都能過的Orange Room,直接測試要求更高的Cyan Room、Blue Room。Cyan Room我們之前也測試過,GTX 1080 Ti勉強及格,但RTX 2080、RTX 2080 Ti表現勇猛,分別達到247fps、299fps,意味著目前VR大作都可以無憂運行。在戰未來的Blue Room測試中,圖靈顯卡依然保持這種趨勢,RTX 2080 Ti確實可以達到戰未來級別。

在這種高度不確定性下,我們很難用統一準則評價RTX 2080、RTX 2080 Ti性能高低,非要做個平均,RTX 2080為GTX 1080的134%,RTX 2080 Ti為GTX 1080的173%,比GTX 1080 Ti高出38%,可以看出,這一代Turing顯卡對比Pascal顯卡同級別顯卡,性能增幅也是在35%之間。

1920×1080解析度遊戲測試:

在13款遊戲的1080P解析度測試下,發現Turing顯卡有個奇怪之處,就是性能與Pascal同級別顯卡拉不開差距,甚至四張卡成績擠在一起的問題,表現遠遠不如在基準測試中那樣,雖然其中一定有驅動優化問題,NVIDIA提醒可能是CPU拖後腿,這個我們後期會做更加詳細的性能測試,但不可否認Turing顯卡在1080P解析度下確實有點問題。

2560×1440解析度遊戲測試:

2K解析度下,RTX 2080 Ti、RTX 2080表現好多了,特別是《中土世界》、《古墓麗影》、《全面戰爭》表現更好,但也有表現不佳的地方,如《GTA 5》、《孤島驚魂5》。

3840×2160解析度遊戲測試:

輪到4K解析度測試時,Turing顯卡們爆發了真正的實力,基本上都是以絕對優勢取勝,絕大部分遊戲都有非常好的表現。儘管是最高畫質,除了《全面戰爭》、《荒野行動》、《殺出重圍》都是接近50Fps外,其餘所有遊戲都能達到60fps,考慮到《殺出重圍》、《全面戰爭》benchmark要求高於實際運行,其實也可以視作進入了60fps範疇。也難怪NVIDIA敢說「Turing is build for 4K」,極致畫質下4K@60fps算是完美達成了。

超頻測試:

上一代Pascal顯卡頻率設定非常殘暴,平均頻率提升在40%,而且上大部分顯卡Boost頻率都能在風冷條件下輕鬆突破2GHz。不過在這種「預官方」超頻下,留給玩家的超頻空間就十分有限了。

今年的Turing顯卡基礎頻率雖然不高,但是Boost頻率非常高,加上GPU boost 頻率加成,估計也能超2GHz,不過超頻空間也不大,畢竟12nm工藝不是全新工藝,頻率提升依然充滿未知之數。

超頻測試中,測試採用3DMark Fire Strike,超頻軟體使用大家耳熟能詳的微星超頻軟體MSI Afterburner,沒用EVGA Precision X1的原因很簡單,因為在我們測試平台上會莫名其妙閃退,就是NVIDIA新增的頻率掃描功能,運行一會就軟體閃退了,這個之後我們會詳細做測試,出一個超頻教程。

超頻前將溫度控制、功耗上限均拉至最高。RTX 2080 Ti Founders Edition功耗限制在250W以內,最高可調整至123%,即320W;RTX 2080 Ti Founders Edition功耗限制在250W以內,最高可調整至124%,即310W

由於第一次超頻Turing核心、GDDR6顯存,還是挺小心翼翼地一點點超頻,通過不斷嘗試,將GPU核心頻率、GDDR6顯存頻率不斷上調,直到該頻率不能通過3DMark Fire Strike測試為止,記錄前一個可通過測試的超頻頻率。

果然Founders Edition顯卡超頻幅度也不多,頂天了10%,但GDDR6超頻能力強悍,+600MHz即等效15.2Gbps也能通過測試,但超過14.8Gbps以後成績變化不大,甚至會有所下降,有性能天花板。

最終RTX 2080 Ti Founders Edition在核心頻率+80MHz,顯存+500MHz情況下通過3DMark所有測試,此時Boost頻率已經高達2075MHz,GDDR6顯存頻率提升至15Gbps。成績最高提升10%

RTX 2080由於頻率設定較高,超頻幅度就更小一點,核心+65MHz、顯存+500MHz通過測試,Boost頻率最高到過2.1GHz,GDDR6顯存15.2Gbps,成績同樣最高提升10%。

當然了,由於時間關係,我們的超頻還是很粗暴的,沒有達到NVIDIA所說的一步步調節,讓頻率穩定在更極限情況上,因此超頻後性能提升會差那麼一點。

實時光線追蹤&DLSS體驗:

由於目前支持RTX遊戲尚未大規模上市,而且還有想《古墓麗影:暗影》這種跳票等補丁的,我們很難為大家帶來第一手性能測試,只能通過NVIDIA官方演示過的一些Demo與大家分享一項RTX的樂趣。

實時光線追蹤體驗——Star Wars Reflections

這個就是NVIDIA在現場演示的星球大戰Demo,不僅僅展示了實時光線追蹤在遊戲中的應用可以達到近乎CG級別的畫質,還糅合了DLSS抗鋸齒。由於Demo限制了所有幀數指示工具、視頻錄製,只能通過給出的OSD觀察幀數變化,為此,我們製作了以下視頻為大家分析下RTX 2080 Ti、RTX 2080實時光線追蹤性能。

RTX 2080 Ti在2K解析度下,依然可以有50-60fps,屬於相當流暢級別;4K解析度下降至25-30fps,RTX 2080 Ti也有點不夠看了,部分場景會跌至25fps。

RTX 2080性能在2K解析度勉強夠看,有50fps,如果解析度提升4K,就會長時間處於不流暢狀態。

就效果而言,光線追蹤確實是給人非常真實的感受,真的和電影、CG看到的場景非常相像,真假分不清,不過我們也注意到部分物體上出現了噪點現象,這個可能就是光線追蹤演算法造成的,儘管經過了NVIDIA降噪處理,但有時候你還忽略不了,結果畫面就有種膠片電影的味道。

DLSS體驗——Epic Infiltrator Demo

DLSS抗鋸齒只能應用於圖靈顯卡以及4K遊戲畫面上,目前絕大部分支持RTX技術的遊戲,都是支持這個抗鋸齒,好處前面也說了,我們來看看DLSS與TAA抗鋸齒在顯卡性能上的損耗。

其實大部分時間DLSS與TAA幀數差別不到,只有在比較複雜特別場景才會出現明顯的差異,比如視頻里第六十秒時候,DLSS有60幀,而TAA只有30幀不到。而且可以看到使用DLSS GPU負載會低一些,其實應該就是DLSS後處理抗鋸齒交給了Tensor Core工作,GPU算力得到釋放。

溫度&功耗測試:

功耗測試:

通過我們專門購置的顯卡功耗測試儀器,可以分別精確地測量顯卡PCI-E、外接電源介面瓦特數,顯卡最大功耗在3DMark Fire Strike壓力測試中獲得,待機功耗則是在進入系統後記錄3分鐘取平均值。

從單獨顯卡功耗測試結果看到,RTX 2080 Ti待機狀態下功耗為25.5W,RTX 2080待機19.8W,比起上一代Pascal顯卡都要更高一些。

滿載時,RTX 2080 Ti Founders Edition功耗峰值在264.9W,平均功耗263.1W,略高於標稱的250W TDP;RTX 2080峰值功耗233.6W,平均功耗231.4W,略低於標稱的250W TDP。功耗不低,加上CPU等硬體開銷,500W的電源是最低限度。

溫度測試:

在溫度測試過程中,測試時全程進行封箱處理,測試環境溫度約為25.5℃。待機溫度是開機以後記錄10分鐘,滿載溫度則是完成3DMark Fire Strike壓力測試後記錄下。

其實大家應該都猜到結局的,渦輪散熱的泰坦皮有很多毛病,熱量積聚、噪音大,這一次改成了雙風扇散熱,溫度表現肯定好多了,除非圖靈核心非非非常熱!

事實證明,雙風扇散熱器下的RTX 2080 Ti Founders Edition、RTX 2080 Founders Edition表現完美,待機分別為36℃、34℃。

當使用3DMark Fire Strike壓力測試時,GPU核心基本處於滿載狀態,因此可以很好考驗顯卡散熱能力。滿載情況下RTX 2080 Ti Founders Edition溫度為80℃,RTX 2080 Founders Edition 78℃,均比NVIDIA設定的83℃保護溫度低,顯然留給大家超頻留出了溫度餘量,GPU BOOST 4.0更加看重溫度上限影響。不過背板非常燙手,大家注意了,要是能裝個小風扇就更好了。

總結:

Turing圖靈顯卡可以說是懷揣著NVIDIA夢想的作品,融入了時下流行的AI人工智慧技術以及支持實時光線追蹤,這其實已經很了不起了。讓看似距離我們依然十分遙遠的AI人工智慧以及實時光線追蹤,在一瞬間拉倒我們的面前,在發布會當時聽到的瞬間還是頗為震撼。

在性能上,RTX 2080 Ti、RTX 2080顯卡在前期對1080P普通遊戲支持較差,主要戰場集中在了更高解析度的2K、4K上,性能表現超出預期。但是RTX 2080 Ti、RTX 2080顯卡豈是志在於此?

目標當然是即將到來的一大波支持實時光線追蹤、DLSS的遊戲啦,儘管目前它們還在途中,但是通過演示的Demo來看,效果真的非常棒,尤其是實時光線追蹤的Star Wars Reflections Demo,很多編輯看完都在問,這畫面真的是實時渲染的嘛?感覺和離線渲染的CG一樣,畫面太逼真了。

平民百姓都能玩AI?是的,基於AI深度學習得來DLSS就是這樣的技術,能讓畫面精細、清晰程度有了新突破,還節省性能,簡直太美妙了。

可能很多人都在覺得這兩個功能有點雞肋,猶如當年的PhysX物理加速,其實大家的擔心是正常的,畢竟當時PhysX還需要另一張顯卡輔助才能流暢運行,但隨後顯卡性能不斷提高,單卡就能完成,場景物體的物理碰撞已經成為常態。實時光線追蹤也會走上這條路,經過幾代更迭以後,光線追蹤性能不斷增長,遊戲開發商肯定也更加願意做這種增強遊戲畫面的事情,實時光線追蹤再過幾年可能會成為遊戲的標配效果,我們開始體驗更加真實的遊戲畫面。

RTX 20系列的Founders Edition顯卡在溫度上也絕對不會讓你失望,雙風扇鎮壓下的Turing核心猶如溫順的小貓咪,滿載78、80℃,而且噪音非常低,比普通機箱風扇還要安靜,NVIDIA認真做起事來還是挺牛的。

至於價格嘛,一分錢一分貨,一角錢三分貨。NVIDIA都給大家打好了預防針,Turing顯卡便宜不了,確實是,RTX 2080最低售價去到了5699元,而GTX 1080當年僅僅4099元,RTX 2080 Ti就不用說了,8199元售價直逼Titan Xp系列。雖然我們以前就說GTX 1080 Ti就能戰4K遊戲,如此看來還是勉強了以一些,畢竟新遊戲更加吃顯卡性能,也是顯卡不斷推陳出新的動力,RTX 2080 Ti以更完美的姿勢為大家呈現4K遊戲、VR遊戲。手持GTX 10系列顯卡的你們可以觀望遊戲界發展,再決定要不要升級,一旦支持RTX技術的遊戲爆髮式增長,RTX 20系列顯卡的優勢方能體現。

在AMD高端顯卡不給力的日子,NVIDIA確實牢牢霸佔住遊戲卡皇的地位,NVIDIA真的可以有恃無恐。但NVIDIA沒有停下腳步,做出一些不太一樣的東西,做前人沒有完成的實時光線追蹤,做出遊戲玩家都能用的AI技術,這就足夠了,顯卡需要一點新玩意。

本次的評測可能不夠詳盡,拿到驅動的時間非常緊迫,加上目前支持RTX技術遊戲還沒發布,我們之後會陸續補充更多關於NVIDIA RTX圖靈顯卡的測試,也歡迎大家給出測試建議。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 超能網 的精彩文章:

《使命召喚:黑色行動4》Beta設在八月,吃雞模式會有單獨測試…………

TAG:超能網 |