3 月 13 日訊,昨日,有爆料消息稱英偉達的下一代 GPU 架構(gòu)將基于三星 10nm 制程,而不是之前報道的臺積電 7nm 工藝,據(jù)稱使用的 10nm 制程更接近于三星提供的 8LPP 技術(shù),另外新的 Tegra 芯片也將使用相同的制程。
之前放出兩張疑似是 Ampere GPU 核心架構(gòu)圖的 Twitter 帳號@CorgiKitty 在昨天也發(fā)布了新的傳言,稱新一代芯片將會使用三星的 10nm 節(jié)點工藝,而不是此前坊間傳聞中的 7nm EUV 工藝。
外媒表示,英偉達安培架構(gòu)曝光的 GPU 有 GA102、GA103、GA104、GA106 和 GA1075 款,配置最高的是 GA102。報道還稱英偉達新款 GPU 將全部支持 RTX(實時光線跟蹤),這意味著英偉達在安培架構(gòu)上對 RT 核心設(shè)計進行升級,使其在性能較弱的顯卡中也能實現(xiàn)光線追蹤的效果。
一、實時光線跟蹤
英偉達新款 GPU 將全部支持 RTX(實時光線跟蹤),這意味著英偉達在安培架構(gòu)上對 RT 核心設(shè)計進行升級,使其在性能較弱的顯卡中也能實現(xiàn)光線追蹤的效果。
使用基于光線追蹤的算法(包括 ray tracing, path tracing, photon mapping, beam tracing, cone tracing 等等 )進行圖形渲染。渲染對象是包含真實剛體及柔體物理模擬的動態(tài)場景。場景分辨率需達到 720P,并需要允許動態(tài)攝像機以及多光源(點 / 面光源)。渲染幀率需不低于 30 并以 60 為目標(biāo),渲染結(jié)果應(yīng)該有較小的(肉眼難于分辨的)噪點。如果是 path tracing 等蒙特卡洛方法,則還需要無偏的結(jié)果(不然會出現(xiàn)局部模糊等 artifacts)。
目前的應(yīng)用包括各類照片級渲染應(yīng)用中場景設(shè)計的快速原型生成,視頻游戲中的部分場景渲染。未來的應(yīng)用領(lǐng)域會更加廣闊。但實時的光線追蹤的難點在于場景復(fù)雜度和需要的真實感渲染效果決定了遍歷和相交檢測的巨大計算量(場景分割數(shù)據(jù)結(jié)構(gòu)的重構(gòu)和光線與場景的相交測試是兩項主要計算)。這是渲染領(lǐng)域以及任何模擬計算領(lǐng)域里終極的矛盾:效率和質(zhì)量的矛盾。
目前的解決方案有兩個方向的努力:軟件角度和硬件角度,軟件角度又可以分為自低向上和自頂向下的優(yōu)化:BVH 和其他層級結(jié)構(gòu)的場景分割(kd-tree, oc-tree, BSP-tree 等)是自頂向下的方法,在對場景進行分割時還有一項十分常用的優(yōu)化算法:Surface Area Heuristic (SAH)。硬件角度的優(yōu)化又可以分為采用 GPU 和 SIMD 的優(yōu)化以及專門的 ray tracing 硬件。前者就是對上述軟件優(yōu)化的算法進行針對 GPU 或 SIMD 的優(yōu)化,同時一些并行環(huán)境下的數(shù)學(xué)庫函數(shù)和其他基本算法如排序等也間接起到了加速的作用。后者就是指將 ray tracing 中獨有的相交檢測,場景分割等部分采用專門的硬件來優(yōu)化。此次英偉達新款 GPU 將全部支持 RTX(實時光線跟蹤),RT 核心方面的設(shè)計已逐步完善。
二、NVIDIA 的新核心比上代性能提升了 40%
在 GeekBench 5 測試數(shù)據(jù)庫里面,曝光了兩組 NVIDIA 的新核心,參數(shù)暴漲,規(guī)格相當(dāng)?shù)膹姶?,但都達不到 8192 個 CUDA 核心。其中一塊核心擁有 118 組計算單元,假如每組繼續(xù)延續(xù) 64 個流處理器的規(guī)格,那么 CUDA 核心數(shù)量就是 7552 個,低于在此之前爆料的 8192 個 CUDA 核心。
另一塊核心削減了 108 組計算單元,于是 CUDA 核心就只有 6912 個,至于頻率在 1.01GHz 左右。這樣的參數(shù)遠于 8912 個 CUDA 核心。
但我們可不可以這么認(rèn)為,128 組計算單元對應(yīng) 8192 個 CUDA 核心數(shù)是這塊核心的最大規(guī)格,至于 118 組計算單元和 108 組計算單元,是閹割后的版本,分別適用于不同的領(lǐng)域。
配置最低的 GA107 為 1280 流處理器,4GB 顯存,最高的 GA102 GPU 為 5376 流處理器,12GB 顯存,其中 GA102 比上代的 RTX 2080Ti 性能提升了 40%。
圖片來源:GeekBench 5 測試數(shù)據(jù)庫