英偉達的RTX卡是對遊戲未來的一場賭博
英偉達的RTX系列gpu已經有很長一段時間了。該公司最近一次有意義的硬體升級是在2016年5月推出的10系列。而實時光線追蹤技術(RTX cards據稱使其成為現實的密集渲染技術)幾十年來一直是人們夢寐以求的。但是,儘管RTX並沒有佔據那麼多的頭條,但它帶來的最重要的變化是從原始力量向演算法和人工智慧的轉變。
但是,我有點過頭了。首先,讓我們快速看看英偉達到底想賣給你什麼。下周,兩款售價700美元的RTX 2080和售價1000美元的RTX 2080 Ti將爭奪你的現金,10月份緊隨其後的是售價500美元的RTX 2070。
從底部開始,就原始功率而言,RTX 2070大致相當於GTX 1080;rtx2080與gtx1080 Ti完全一致;rtx2080 Ti是它自己的聯盟。2070和2080有8GB的GDDR6 RAM;2080 Ti有11GB。這三家公司都是基於公司新的圖靈架構,這意味著他們有專門用於AI(張量)和光線追蹤(RT)的核心。預計第四張可能是RTX 2060,它將在未來幾個月大幅降低入門價格,隨後是一系列針對預算較低的玩家的降價選擇(10系列的價格降至100美元以下的GTX 1030)。在頂部也有擴展空間:RTX 2080 Ti Founders Edition能夠每秒處理14.2萬億的浮點運算(TFLOPS),而圖靈圖102晶元這些新卡是基於推高達16.3 TFLOPS的數據。這是通過更高的時鐘速度和更多CUDA核心(2080 Ti有4,352個,完全配置的TU102有4,608個)的組合來實現的。
RTX也帶來了很多幕後改進。有一個更快的緩存系統,它有一個共享的內存體系結構、一個新的圖形管道以及浮點和整數計算的並發處理。如果這對您沒有任何意義,那麼不要太擔心:從soup這個詞中可以得到的啟示是,RTX範圍不僅具有更強大的原始功能,而且能夠更有效地使用這些功能。
這就是關鍵。Ray-tracing佔據了新聞頭條,我對開發者如何使用它很感興趣,但是它的效率確實讓我對RTX感到興奮。遊戲系統的最終目標,無論是2000美元的遊戲PC還是300美元的任天堂交換機,都是計算屏幕上每個像素的顏色值。即使是一個關於現代圖形管道如何工作的簡化指南,也會有中篇小說那麼長的篇幅,但這裡有一個三句話的總結:cpu不是用來呈現現代圖形的。相反,CPU會向GPU發送它想要繪製的圖形的計劃,GPU有數百或數千個內核,可以獨立地在圖像的小塊上工作。GPU在CPU計划上執行,運行著色器——非常小的程序——來定義每個像素的顏色。
那麼,對於圖形卡製造商和遊戲開發者來說,挑戰在於規模。這款售價300美元的交換機在便攜模式下通常每秒能計算2700萬像素的值,而使用三年的移動英偉達(NVIDIA)晶元也能做到這一點。如果你的目標是4K幀數為60FPS(這是許多購買RTX卡的玩家想要的),你的系統需要每秒推出近5億像素。這給系統帶來了巨大的壓力,尤其是當你認為你的PC機不是憑空挑選這些顏色,而是實時模擬複雜的3D環境作為計算的一部分時。
已經有很多技術可以用來減少這種壓力。一種是以較低的解析度渲染場景的全部或部分,並將結果拉伸出來。當你的遊戲在1080p的屏幕上以720p運行時,這是非常明顯的,但是當霧雲在四分之一解析度下被繪製時就不那麼明顯了。這就是英偉達的優化目的:在你不會注意到的地方降低質量。
英偉達的新圖形管道可以採用幾種新的陰影技術來裁剪拐角。在很多方面,這都是建立在虛擬現實中不太靈活的節能措施上的,比如MRS(多解析度陰影)和LMS(鏡頭匹配陰影)。在上圖中,你可以看到一個GPU實時地將一個場景分解成網格。未著色的方塊是高細節的,並以1:1的比例著色,就像一個常規的遊戲場景。彩色的不需要同樣的注意力。例如,紅色方塊只使用4x4像素的方塊著色,而更詳細但不重要的藍色方塊使用2x2方塊著色。由於圖像中這些區域的細節水平較低,這種變化基本上是不明顯的。
你可以採用這個基本的概念,像素著色率不需要在整個圖像中固定,並以有針對性的方式應用它。在賽車遊戲中,你的目光基本上集中在你的汽車和地平線上。屏幕中央和上半部分的像素可以按1:1填充,但角落可以是4x4。(當然,2x2和2x1會在過渡過程中出現阻礙。)英偉達表示,這在運動中基本上是不可感知的,可以減少材質內核的負載,從而提高幀速率。
英偉達正在開發更高級的著色技術,例如,允許開發人員在多個框架上重用紋理著色,或者改變你眼睛無法分辨的移動對象的著色質量。它們都是效率遊戲,旨在從相同的硬體中榨取更多。上個月在RTX發布會上展示的一個例子是《沃爾芬斯坦2:運行自適應陰影的新巨人》:英偉達表示,它可以提供15%到20%的幀率改進,而對圖像的影響可以忽略不計。但是,如果你能完全移除這些陰影核心的負載呢?這就是DLSS(深度學習超級抽樣)背後的概念。DLSS是一種新的反鋸齒(AA),一種應用於平滑粗糙邊緣的遊戲的效果。它根本不運行在CUDA核上,而是使用AI和新的張量核。
對於DLSS, NVIDIA使用超級計算機創建了一個特定於遊戲的演算法。再一次簡化了解釋,超級計算機查看了超高解析度的圖像,並將數據與低解析度版本進行了比較。然後,它將嘗試數百萬次失敗,以找到一種方法,使低解析度的圖像看起來像超高解析度的圖像。一旦成功,英偉達就會打包遊戲的演算法,並通過其GeForce體驗應用程序發送給玩家使用。
在實踐中,它看起來非常棒。結果通常比你在許多現代遊戲中看到的TAA(時間抗混疊)更尖銳。和所有的AA技術一樣,它也有自己的優點和缺點:它在解析細節方面的能力令人難以置信,而直邊並不總是完美無缺的。儘管我個人更喜歡它,而不是我見過的任何TAA實現,但它存在的事實可能就足夠了:這是免費的AA。特別是如果你是那種運行MSAA之類的程序的人,你可以節省大量的GPU能力,以獲得非常相似的結果。
像所有的AA技術一樣,DLSS也有它的優點和缺點。
DLSS的主要限制是兼容性:NVIDIA需要為每個遊戲創建一個自定義演算法。如果遊戲開發者感興趣,它將免費提供這項服務,但不知道有多少人會接受該公司的提議。英偉達在硬體鎖定功能(如髮際擺飾)上的使用率通常並不高。但據稱DLSS對於開發者來說幾乎不需要什麼工作,所以它可能會流行起來。還有一些遊戲即將推出,包括《最終幻想15》、《殺手2》、《PUBG》和《古墓麗影》。
最後,英偉達展示了一個非常令人印象深刻的演示,演示了一個充滿幾何形狀的小行星場。CPU沒有要求GPU繪製每個小行星,而是發送了一個對象列表。這個列表隨後被處理、繪製並覆蓋在數千個核上。這種CPU-GPU通信的新方法在很大程度上消除了一個常見的瓶頸,即當遊戲中發生太多事情時,坦克幀速率會下降,同時也會增加場景的複雜性。
演示中顯示的技術還可以改變開發人員處理lod(詳細級別設置)的方式。lod定義對象和紋理被載入到場景中的距離。雖然在主機上通常是靜態定義的,但在PC上您通常可以選擇低、中、高等等。在史詩設置上玩遊戲,你會看到草,樹,建築和類似的東西呈現在地平線上。在低處,只有一小部分樹葉會被渲染,遠處的建築可能會消失或被低多邊形佔位符取代。
細節級別集成到CPU發送給GPU的列表中:開發人員創建大量高質量資產,然後GPU不斷掃描場景,根據屏幕上對象的大小指定在任何給定時間顯示哪些內容。這允許高質量的資產在只佔用幾個像素的時候減少到粗糙的幾何形狀。這種技術可以適用於遵循動態解析度原則,調整非關鍵對象的質量,而不僅僅是原始解析度,從而進一步提高性能。所有這些提高性能的新策略——英偉達白皮書中的內容比我剛剛提到的要多得多——對於未來幾年的遊戲來說,都比光線追蹤大得多。儘管我們不得不等待評論的到來,但很有可能,在我們現有的硬體上,實時光線追蹤只是提供了一個次要的視覺裝飾。但是DLSS和可變陰影的好處是立竿見影的,超過了三張RTX卡,甚至超過了英偉達。
你不需要繼續提升權力的想法是令人信服的。我們已經接近硅的極限了,我們已經看到每年的原材料價格上漲從一個跳躍到一個混亂。
「雲」經常被引用作為一個模糊的修復,但它不可能是唯一的答案。一旦世界沉浸在高速互聯網接入之中,轉移負載就會有所幫助,但最終,數據中心的設計師無法接觸到迄今為止從未被描述過的奇異材料,他們將面臨與消費者同樣的性能限制。隨著顯示器製造商對解析度的渴望越來越高,而人類也越來越渴望買到更好的東西,我們需要找到更智能的方式來呈現我們的遊戲。
很難看到顯卡能夠實時呈現一款8K的遊戲,如果沒有像英偉達那樣的人工智慧和流水線上的改進,英偉達就很難宣傳其新卡。當然,這些進步不僅僅來自英偉達;我們需要看到AMD的gpu將AI繁忙的工作卸下,而微軟和Khronos必須將這些新想法整合到DirectX和Vulkan中。(為此,英偉達表示打算將其高級遮陽技術添加到DirectX中。)
當參與制作我們的遊戲的公司想出更多的節約能源的方法時,整個行業都會感受到好處。同樣的技術可以讓2080 Ti在60FPS下達到4K,也可以幫助供電,例如,一個開關2,它在運行時的危害要小得多。考慮到英偉達已經在交換機中製造了晶元,這兩家公司未來的遊戲機幾乎沒有理由不能添加一些張量核心,從而大幅減少需要陰影的像素數量,或者運行超級採樣的AA通道來掩蓋低渲染解析度。就在昨天,蘋果公司宣布其新的手機晶元有8個核心用於運行人工智慧——這種向更智能計算的轉變即將到來,所有玩家都將從中受益。