英偉達GeForce RTX 2080/2080 Ti評測
距離帕斯卡架構發布已經兩年有餘,一個架構歷經兩代TITAN,橫跨移動和桌面平台乃至超算,英偉達的GP100系列無疑賺得盆滿缽滿。同時超長的帕斯卡架構生命線也給眾人留下一個疑問,下一代消費級旗艦顯卡什麼時候才能到來?
這個答案留給了Turing圖靈。SIGGRAPH 2018大會發布Quadro RTX 8000、RTX 6000、RTX 5000專業顯卡一周之後,這篇文章的主角GeForce RTX 2080、GeForce RTX 2080 Ti正式發布。時隔兩年,英偉達再次讓消費級顯卡跨入全新門檻,光線追蹤、DLSS深度學習超採樣全面入駐。
之前我們已經淺析了Turing圖靈架構,現在,是時候揭開GeForce RTX 2080與GeForce RTX 2080 Ti性能面紗了。
TU102與TU104參上
GeForce RTX 2080與GeForce RTX 2080 Ti晶元代號分別是TU104和TU102,下個月即將發布的GeForce RTX 2070則是TU106。從帕斯卡架構開始,整數核心編號不再出現在消費級顯卡上。這也使得TU102已經成為目前消費級顯卡陣營中,最頂級的GPU。同時也意味著英偉達GeForce RTX系列中高端顯卡布局基本成型。
從針對專業計算的Volta伏特開始,Volta伏特與Turing圖靈都採用了台積電12納米線寬製程,其中英偉達專門針對製程花費了大價錢進行定製,這才有了12納米FFN製程的說法,而FFN代表著FinFET NVIDIA的意思。當然,這個製程仍然屬於16納米工藝節點。
在測試實際性能之前,很有必要說一下晶元面積。下圖是GeForce RTX 2080 Ti的TU102與GeForce GTX 1080 Ti的GP102的等比例對比。TU102的晶元面積達到了754mm^2,僅比全畫幅相機的感測器尺寸略小一些,晶體管數量達到186億個。同時GeForce RTX 2080的晶元面積為545mm^2,晶體管數量為136億個。
因此GeForce RTX 2080與GeForce RTX 2080 Ti隨著成本上升而售價上揚變得情有可原。
可能由於GDDR6更省電的緣故,英偉達官方給出的GeForce RTX 2080 Ti的全卡功耗與GeForce GTX 1080 Ti相當,均為250W,同時GeForce RTX 2080 Ti Founders Edition供電介面為8+8pin。
GeForce RTX 2080全卡功耗則相對GeForce GTX 1080的180W略微升高,功耗是達到225W,GeForce RTX 2080 Founders Edition電源介面為6+8pin。
也就是說,從上一代GTX 10系升級到RTX 20系,無需更換供電,特別是模組化電源毫無壓力。
事實上圖靈架構與以往架構拉卡差距的地方在於擁有獨立的獨立的Tensor Core張量內核以及RT Core光線追蹤內核。按照英偉達的說法,如果TU102與GP102之間只做純光線追蹤運算,兩者之間的差距高達10倍。
這使得原本的運算性能指標已經不能正確表達出GeForce RTX 2080與GeForce RTX 2080 Ti兩塊顯卡的性能。因此英偉達按照新的混合渲染模型重新定義了計算方式。其中包括20% Tensor Core(FP16),80% CUDA Core(FP32),40% RT Core(RTOPS)和28% INT32相加,最終獲得RTX-OPS性能公式,具體公式如下:
RTX-OPS = TENSOR * 20% + FP32 * 80% + RTOPS * 40% + INT32 * 28%
套用上GeForce RTX 2080 Ti,就有了黃仁勛在發布會PPT上描述的78 RTX-OPS,GeForce RTX 2080則為60 RTX-OPS。同時這也將成為以後新顯卡性能的表達方式。
RTX-OPS = 114 * 20% + 14 * 80% + 100 * 40% + 14 * 28% = 78 RTX-OPS
順帶一提,按照英偉達的說法,如果只做純光線追蹤,GeForce GTX 1080 Ti理論性能應該為1.1GRPS,GeForce RTX 2080 Ti理論性能為10.6GRPS。同時GeForce GTX 1080 Ti的理論單精度性能為10.6TFLOPS,那麼GeForce RTX 2080 Ti換算回去,理論單精度性能應該為110TFLOPS左右。性能差距感受一下。
跑分見真章
架構改變對於現實性能表現而言並非完全相等。特別是支持光線追蹤技術的遊戲還沒有這麼快上市,因此在這個環節中依然以無法發揮RT Core的傳統方式進行。除了GeForce RTX 2080 Ti Founders Edition和GeForce RTX 2080 Founders Edition兩塊顯卡之外,我們還找來了GeForce GTX 1080 Ti Founders Edition以及GeForce GTX 1080 Founders Edition作為陪跑。
以及一套不會拖後腿的測試平台:
如果從單精度浮點性能來看,GeForce RTX 2080 Ti僅比GeForce GTX 1080 Ti提升10%。但是全副武裝的GeForce RTX 2080 Ti和GeForce RTX 2080勝在局部性能更佔優勢,例如GDDR6顯存。
因此我們可以看到,GeForce RTX 2080 Ti光是紋理單元就達到了272個,GeForce RTX 2080為184個,GeForce GTX 1080 Ti為224個,GeForce GTX 1080則為160個。同樣,四塊顯卡的紋理填充率分別為420.2 Tex/s、233.3 Tex/s、354.4 Tex/s、277.3 Tex/s。內存帶寬分別是616 GiB/s、448 GiB/s、484 GiB/s、320 GiB/s,內存容量分別是11 GiB GDDR6、8 GiB GDDR6、11 GiB GDDR5X、8 GiB GDDR5X。
細心的你已經發現,GeForce RTX 2080與GeForce GTX 1080 Ti在參數堆疊上有來有回,相差不是太多。黃氏刀法真正恐怖的地方就在這裡,在分數測試中,我們分別使用3DMark Fire Strike Extreme、3DMark Fire Strike Ultra、3DMark Time Spy Extreme、3DMark Time Spy、VRMark Blue Room、VRMark Cyan Room逐一測試。四款顯卡分數對比如下:
GeForce RTX 2080 Ti的傳統測試環境中性能相對GeForce GTX 1080 Ti大概有30%到40%的提升,一路領先。但是GeForce RTX 2080相對GeForce GTX 1080 Ti就沒有這麼明顯了,甚至吃了顯存容量低於GeForce GTX 1080 Ti的虧,在3DMark Fire Strike Ultra輸給了GeForce GTX 1080 Ti Founders Edition。
如果只以傳統測試數據作為依據,GeForce RTX 2080表現更像是高性能非公版的GeForce GTX 1080 Ti。有意思的是,GeForce RTX 2080的6499元官方定價也與GeForce GTX 1080 Ti的官方定價相當,同樣的價錢買同樣的性能,這麼理解也未嘗不可。
遊戲測試環節也與3DMark、VRMark測試表現相當,由於第一個版本的《古墓麗影:暗影》沒有加入光線追蹤技術,我們依然將其劃分到傳統測試的類別內。所有遊戲無一例外,全部使用4K解析度遊戲設置最高畫質(而非自定義畫質)進行對比。
如果過說2年前英偉達遊戲顯卡是以流暢運行4K解析度遊戲為主打,那麼這一次GeForce RTX系列可以直接將門檻提升到4K最高畫質完全流暢運行的品質上。除了《地鐵:最後的曙光》最高畫質依然嚴刑拷打所有顯卡之外,包括最新的《古墓麗影:暗影》在內的所有遊戲在4K解析度最高畫質下運行都毫無壓力。
即使GeForce RTX 2080在3DMark Fire Strike Ultra的跑分上吃虧,實際遊戲表現也仍然比GeForce GTX 1080 Ti高出幾幀。
絕招:真正的追光者
如果只用傳統測試成績看待GeForce RTX 2080與GeForce RTX 2080 Ti未免過於片面。圖靈架構相對於Volta伏特的Tensor Core張量內核基礎上融入了RT Core光線追蹤內核。
今年早些時候,為了實現遊戲實時光線追蹤渲染,微軟在今年遊戲開發者峰會上宣布在DirectX12中加入DirectX Raytracing(DXR)技術,方便開發人員能夠更容易調用光線追蹤,離線渲染轉向實時渲染變成了可能。
但DXR實現並非易事,帕斯卡GPU只能通過完全軟體的方式進行,Volta則可以通過Tensor Core張量內核來實現光線追蹤去噪。唯有Turing圖靈具備DXR的硬體加速要求。也就是說,GeForce RTX 2080 Ti與GeForce RTX 2080在硬體結構上與之前的顯卡存在物理結構上的區別,RT Core與Tensor Core都會成為新顯卡的門檻。
通過軟體調用CUDA、Tensor間接手段實現光線追蹤效率可想而知,RT Core在消費級顯卡中目前僅GeForce RTX 2080與GeForce RTX 2080 Ti獨佔,即使算上專業顯卡,也僅有Quadro RTX系列。
目前宣布即將支持光線追蹤技術的遊戲包括:
《神力科薩AC》(Assetto Corsa Competizione)
《原子心臟》(Atomic Heart)
《戰地5》(Battlefield Ⅴ)
《控制》(Control)
《從軍》(Enlisted)
《逆水寒》
《劍網3》
《機甲戰士5:僱傭兵》(MechWarrior 5:Mercenaries)
《地鐵:一路向東》(Metro Exodus)
《ProjectDH》
《古墓麗影:暗影》(Shadow of the Tomb Raider)
《生化危機2:重製版》(Resident Evil 2)
無一例外,上述遊戲均會在顯卡正式上市後一段時間才會逐步加入光線追蹤支持。即便如此,我們仍然能夠通過英偉達的星球大戰RTX DEMO一探究竟。
事實上這套電影質感的短篇《星球大戰Reflections》在數個月前的運行在一套價值7萬美元,大約45萬元人民幣的DGX Station工作站上,裡面配備了四塊Volta架構的Tesla V100顯卡。現在英偉達光靠GeForce RTX 2080 Ti與GeForce RTX 2080的RT Core來實現相似的效果。
這套《星球大戰Reflections》DEMO包括了2K解析度和4K解析度兩個版本,仍然使用GeForce GTX 1080 Ti Founders Edition以及GeForce GTX 1080 Founders Edition作為陪跑。
僅僅依靠CUDA Core的GTX 10系列幀數根本無法觀看,相反,GeForce RTX 2080 Ti與GeForce RTX 2080則能流暢運行處理。其中GeForce GTX 1080 Founders Edition的8GB GDDR5X內存無法達到DEMO門檻,幀數只能計為0。
如果說RT Core是顯卡通向新世界的門檻。誕生於Volta的Tensor Core則是另一個。
在GeForce RTX中,Tensor Core被負責用於神經圖形加速。事實上,它本身是一個被英偉達經過與訓練的內核。在圖靈架構中,Tensor Core引入了INT8和INT4進行深度推理加速,最終引出了與我們遊戲息息相關的技術:深度學習超採樣DLSS。
用形象的例子來說,深度學習超採樣DLSS就像是一群訓練有素、認真聽話的三好學生,他們未必知道遊戲世界的畫面長啥樣,所有訓練均來自雲端的深度學習,並伴隨著每次驅動升級而更新。因此它們可以通過一副干擾的圖像,自動補完成近似於64X超採樣的畫面。
這是什麼概念?你可以隨便打開一個3A大作,4K解析度下,將超採樣開到MSAA X16級別。銳利畫面與低幀數並行不可避免。
通過以下相同畫面的TAA與DLSS對比,可以看出DLSS 4K解析度畫面已經足夠與TAA X2抗鋸齒水平媲美,至少直觀感受下不會有太大差距,反倒在細節上DLSS會更為圓滑。
此為TAA
此為DLSS
但這只是一幀。Tensor Core的高效率釋放了GPU的性能,在同一張顯卡下,DLSS模式能比TAA獲得最高30%左右的提升。而GeForce GTX 10系列並沒有Tensor Core加持,自然不會有這樣的福利。
需要注意的是,DLSS仍然需要遊戲支持,目前宣布遊戲支持列表已經包括《最終幻想15》、《絕地求生》在內的25款遊戲,相比增加光線追蹤功能,增加DLSS對於開發商而言更為簡單,特別是對PUBG絕地求生這樣的遊戲而言,能夠在相同畫質下提升幀數無疑相當擁有吸引力。
HDR與超頻齊飛
在新顯卡中,英偉達為其加入了HDR BT.2100支持,三個DispalyPort介面支持到1.4a版本,最高支持8K@60Hz,帶寬8.1Gbps。第四個介面則變成了兼容USB Type-C和VirtualLink介面,VirtualLink可以在提供HBR3四信道DP的同時支持SuperSpeed USB 3傳輸反饋信號,同時VirtualLink強制5W供電,可選27W。
在支持VirtualLink的一體化頭戴設備出現之前,我們用到最多的自然是三個DispalyPort 1.4a介面。而HDR高刷新率高解析度顯示器也已經正式開賣,下面這台ROG SWIFT PG27UQ 4K HDR 144Hz IPS G-SYNC顯示器就是最好的例子。
ROG SWIFT PG27UQ 4K HDR 144Hz IPS G-SYNC
在這款逆天的顯示器加持下,我們先將顯示設置中的HDR和WCG打開,並且在NVIDIA控制面板中獎NVIDIA顏色設置改成最高(32位)、12bpc、YCbCr444。其中YCbCr444即是YUV 4:4:4,一般會將第一個不壓縮的亮度信號設置為4,並最終以4:X:Y表示,後面的X、Y數值都不會大於前者。也就是說,YUV 4:4:4(YCrCb444)只意味著一件事情,這個信號是無損的。
在GTX 10時代,完成HDR、高刷新率輸出,需要兩塊GeForce GTX 1080 Ti組成SLI HB解決,並且當時理想的可選顯示設備也鳳毛稜角,再加上當年諸如索尼旗艦A1 HDR電視的搬運困難,玩上真正HDR畫質遊戲的玩家基本上只有不缺錢、愛折騰的頂級玩家。
當然,售價2萬元的ROG SWIFT PG27UQ 4K HDR 144Hz IPS G-SYNC顯示器同樣也不便宜,但至少這是一款針對台式機設計,用來完全發揮GeForce RTX 2080 Ti性能剛好合適。
與此同時,新推出的大作中都已經加入了HDR支持。舉個最明顯的例子,在《古墓麗影:暗影》中原本灰朦的暗部變得更為擁有層次感,至少,我們在開始頁面中終於看清楚了勞拉姐姐在做什麼。
HDR開啟,相機屏攝,全手動參數,畫面不做修改
HDR關閉,相機屏攝,全手動參數,畫面不做修改
當然,我們也曾經擔心過HDR輸出會影響遊戲的實際幀數,但從目前的測試來看,幀數確實會有1到2幀的降低,並不會影響到遊戲的實際運行效果。
另外一個讓人心動的話題就是超頻。TechPowerUP傳言在識別GeForce RTX 2080 Ti的時候發現了兩個不同版本的設備ID,包括一套TU102-400和一套TU102-400A,其中只有TU102-400A,超頻體制良好的GPU會被用上定價更高的顯卡上。
傳言暫且放在一邊,英偉達倒是為GeForce RTX系列引入了GPU Boost 4.0以及NVIDIA Scanner技術。其中Boost 4.0其實是在Boost 3.0的基礎上加入了一套安全範圍內的調節空間,提供超頻玩家進一步在安全範圍內調節頻率與功率曲線,而英偉達也會提供相應的API,通過各種版本非公版調試軟體獲得超頻功能。
但不是所有玩家都有時間超頻或者熟悉超頻,NVIDIA Scanner自動超頻API便應運而生。具體而言,就是你給軟體設定一個目標值,剩下的功耗牆、頻率、電壓、風扇轉速均由顯卡自行調節,整個自檢和自動測試的過程大概需要20分鐘時間。
當然,不要指望自動超頻能夠給顯卡帶來多大的性能提升,反倒是NVIDIA Scanner所提供的功能給不會超頻的玩家獲得了不小的新鮮感和好奇。至於是否真的從此走上超頻不歸路,還是要看玩家自己。
同時得益於這一代Founders Edition雙風扇設計,以及厚實的金屬背板和外殼,都給散熱和超頻提供了良好的基礎。老規矩,我們在最大負載下分別運行四款顯卡,GPU溫度和紅外線圖片都顯示了GeForce RTX Founders Edition在散熱上的良好表現。
寫在最後:嫌貴,是我們的錯
比起性能追求,GeForce RTX 2080與GeForce RTX 2080 Ti更像是在設置一道遊戲的新門檻。在未來,3A遊戲如果沒有RT Core加速光線追蹤,畫質只能低人一等。如果沒有Tensor Core支持DLSS深度學習超採樣,那麼只能忍受在同畫質下的低幀率。
事實上,英偉達為了推動RTX,在去年年底宣布放棄了自家的MetalRay,頗有一股壯士斷腕的決心。由此可見,RTX對英偉達而言,非常重要。
我們不能否認GeForce RTX 2080性能其實與非公版超頻的GeForce GTX 1080 Ti相當,但是前者手握RT Core和Tensor Core才是真正殺招。在沒有對手的情況下,英偉達以同樣的價格維持了同樣的性能,並同時加入更高階的技術提高遊戲門檻,推動遊戲視覺的發展。
如果你在GeForce RTX 2080和GeForce 1080 Ti之間猶豫,我們會建議你直接入手GeForce RTX 2080,畢竟光線追蹤才是未來的趨勢。
定價9999元的GeForce RTX 2080 Ti當然是旗艦玩家唯一的選擇。它如同iPhone Xs Max 512GB,不管怎麼抱怨和吐槽價格,它都將是現在旗艦唯一的選擇。是的,檢驗N飯錢包厚度的時刻這次真的來了。
※蘋果Emoji表情包又?叒增加了70個 對粉絲而言這可是大事
※倍耐力有個新夢想 給客廳放個死貴的輪胎音箱
TAG:愛活網 |