123,123,123

三星8nm工艺，最高售价1500美元，英伟达新一代显卡面世

日期： 2020-09-02

來源：半导体行业观察

關鍵詞： NVIDIA GeForceRTX 8nm

　微信圖片_20200902120413.png

　　在寄予了很大的期望，并泄漏了不少信息后，NVIDIA終于在今天上午發(fā)布了其下一代視頻卡GeForce RTX 30系列。這系列是基于NVIDIA Ampere架構的游戲和圖形變體設計，并基于三星8nm工藝的優(yōu)化版本打造。NVIDIA方面表示，這些新卡在游戲性能方面取得了重大改進。最新一代的GeForce還將具有一些新功能，以進一步將這些卡與NVIDIA基于Turing的RTX 20系列分別開來。

　　NVIDIA新發(fā)布的RTX 30系列的前三張卡分別是：RTX 3090，RTX 3080和RTX3070。這些卡都將在下個月半的時間內推出。其中RTX 3090和RTX 3080更是必須一提。這兩款顯卡將分別作為NVIDIA GeForce RTX 2080 Ti和RTX 2080 / 2080S的后繼產品，他們創(chuàng)下了圖形性能的新高。當然，RTX 3090的價格也創(chuàng)下了歷史新高。

　　第一款上市的顯卡是GeForce RTX3080。NVIDIA表示，新顯卡是上一代產品RTX 2080性能的兩倍，該顯卡將于9月17 日以700美元的價格發(fā)售。一周后，功能更強大的GeFoce RTX 3090將在9月24 日上市，售價為1500美元。而TX 3070被定位為更多傳統的甜蜜點卡，它將在下個月將以499美元的價格上市。

　　游戲領域的Ampere架構：GA102

　　與NVIDIA過往的做法一樣，他們在今天上午的公開演講不是深入探討架構。但NVIDIA仍然繼續(xù)其成功的發(fā)布經驗。這意味著要進行大量的演示，推薦和宣傳視頻，并概要介紹最新一代GPU所采用的幾種技術和工程設計決策。最終的結果是，我們對RTX 30系列有一個不錯的了解，但是我們必須等待NVIDIA提供一些深入的技術介紹，才能了解得更透徹。

　　據了解，頂級顯卡中使用的Ampere和GA102 GPU為NVIDIA的產品線帶來了幾項主要的硬件改進。其中最大的改進是晶體管尺寸的不斷縮小，這要歸功于三星8nm工藝的定制版本。我們對此工藝的信息有限，因為它沒有被使用太多的地方，但從較高的層次上講，這是三星公司最密集的傳統非EUV工藝，源自其較早的10nm工藝。

　　總而言之，NVIDIA在采用更小的工方面已經有些遲了，但是由于該公司已經重新開發(fā)了首先交付大型GPU的親和力，因此他們需要更高的晶圓產量（更少的缺陷）才能將芯片交付市場。

　　對于NVIDIA的產品而言，三星的8nm工藝是對他們先前工藝的完整升級，臺積電的12nm“ FFN”本身就是臺積電16nm工藝的優(yōu)化版本。因此新工藝讓NVIDIA的晶體管密度顯著提高，

　　就GA102而言，在它里面集成了280億個晶體管，這在大量的CUDA內核和其他可用硬件中得到了體現。圖靈（Turing）和麥克斯韋（Maxwell）等中代架構在架構水平上獲得了大部分收益，而安培（Ampere）（如之前的帕斯卡（Pascal））則受益于光刻工藝的適當改進。所有這一切的唯一障礙是Dennard Scaling 它已經死了并且不會回來。因此，盡管NVIDIA可以在芯片中封裝比以往更多的晶體管，但功耗卻在提高，這在顯卡的TDP中得到了體現。

　　NVIDIA沒有為我們提供GA102的特定die尺寸，但是根據一些照片，我們有足夠的信心相信它會超過500平方毫米。它比754平方毫米的 TU102的尺寸要小得多，但它仍然是一個相當大的芯片，并且是三星生產的最大芯片之一。

　　繼續(xù)，讓我們談談Ampere架構本身。作為NVIDIA A100加速器的一部分，這個架構于今年春天推出，直到現在我們也僅是從面向計算的角度看到了Ampere。GA100缺少幾個圖形功能，因此NVIDIA可以最大化分配給計算的芯片空間，因此，像GA102這樣的以圖形為重點的Ampere GPU仍然是Ampere系列的成員，兩者之間有很多區(qū)別。這就是說，到目前為止，NVIDIA一直能夠對Ampere的游戲方面的能力保持神秘。

　　從計算的角度來看，Ampere看起來與Volta相當，而從圖形的角度來看也是如此。GA102并未引入任何新奇的功能塊，如RT核或張量核，但已對其功能和相對大小進行了調整。此處最顯著的變化是，與Ampere GA100一樣，應用在游戲的Ampere繼承并更新了功能更強大的張量內核，NVIDIA將其稱為第三代張量內核。單個Ampere SM可以提供比Turing SM兩倍的張量吞吐量，盡管只有一半的張量核心數量。而且，NVIDIA似乎在GA102上保留了基本的設置。那就使得NVIDIA的FP16張量核心性能比上一代提高了一倍以上。

　　同時，NVIDIA已經確認GA102中使用的張量內核，其他Ampere圖形GPU也支持稀疏性以實現更高的性能，那就意味著NVIDIA在張量內核功能方面沒有退步。總體而言，對張量核心性能的關注，強調了NVIDIA對深度學習和AI性能的承諾，因為該公司認為深度學習不僅是其數據中心業(yè)務的驅動器，而且也是其游戲業(yè)務的驅動器。我們只需深入研究NVIDIA的深度學習超級采樣（Deep Learning Super Sampling ：DLSS）技術，即可了解原因。DLSS部分依賴于張量內核來提供盡可能多的性能，而NVIDIA仍在尋找更多方法來充分利用其張量內核。

　　光線追蹤（RT）核心也得到了增強，盡管我們不確定到什么程度。除了具有更多SM的GA102在整體上具有更多的功能外，據說各個RT內核的速度最高可快2倍，而NVIDIA可能專門引用了光線/三角形相交性能。NVIDIA的演示幻燈片中也有一些關于RT核心并發(fā)的簡短說明，但是該公司在簡短演示中并未對該主題進行任何真正的詳細介紹，因此我們正在等待技術簡介以獲取更多詳細信息。

　　總體而言，更快的RT內核對于游戲行業(yè)的光線追蹤野心是一個好消息，因為光線追蹤在RTX 20系列卡上的性能成本很高。話雖如此，但NVIDIA所做的任何事情都無法完全消除這種損失。光線追蹤是一項艱巨的工作，需要一段時間，但更多且經過重新平衡的硬件可以幫助降低成本。

　　最后但同樣重要的是，我們要關注一下著色器核心（ shader cores）。這是對游戲性能最重要的領域，也是NVIDIA今天所說得最少的領域。我們知道，新的RTX 30系列卡包含了數量驚人的FP32 CUDA內核，這要歸功于NVIDIA在其SM配置中將其標記為“ 2x FP32”。結果，即使是中端的RTX 3080也提供29.8 TFLOP的FP32著色器性能，是上一代RTX 2080 Ti的兩倍以上。簡而言之，這些GPU中有數量驚人的ALU，坦率地說，考慮到晶體管數量，ALU比我預期的要多得多。

　　當然，Shading 性能并不是一切，這就是為什么NVIDIA自己對這些顯卡的性能要求不如僅Shading 性能方面的提高那么高。但是，考慮到計算機圖形的令人尷尬的并行性，著色器在很多時候肯定是瓶頸。這就是為什么在此問題上投入更多的硬件（在這種情況下，更多的CUDA內核）是一種有效的策略的原因。

　　此時的主要問題是這些附加的CUDA內核是如何組織的，以及對于SM中的執(zhí)行模型意味著什么。我們誠然在這里進入了更詳細的技術細節(jié)，但是Ampere如何輕松地填充這些額外的內核將成為其能夠更好地發(fā)揮所有這些teraFLOP性能的關鍵因素。這是由線程扭曲中額外的IPC提取驅動的嗎？還是運行進一步的扭曲？

　　最后一點，當我們在等待有關新卡的更多技術信息時，值得注意的是，NVIDIA的規(guī)格表或其他材料均未提及卡中的任何其他圖形功能。值得稱道的是，圖靈已經領先一步，提供的功能將在兩年內成為新的DirectX 12 Ultimate /功能級別12_2，比其他任何供應商都要早。因此，隨著Microsoft和其他領域的追趕，NVIDIA并沒有立即追求的更高功能。不過，看到NVIDIA從其廣為人知的帽子中抽出一兩個新的圖形功能來吸引眾人，還是很不尋常。

　　I / O：PCI Express4.0，SLI和RTX IO

　　NVIDIA在 GeForce卡中引入了Ampere，也將Ampere改進的I / O功能帶入了消費市場。盡管這里沒有什么是開創(chuàng)性的，但這里的一切都有助于保持NVIDIA最新一代顯卡的良好運轉。

　　據了解，I / O前端的功能包括對PCI-Express 4.0的支持。這是在NVIDIA的A100加速器上引入的，因此，它的加入是在意料之中，但這仍然是自8年前GTX 680推出以來NVIDIA PCIe帶寬的首次增加。借助完整的PCIe 4.0 x16插槽，RTX 30系列卡在每個方向上的I / O帶寬達到32GB /s，是RTX 20系列卡訪問速度的兩倍。

　　至于PCIe 4.0對性能的影響，我們目前預計不會有太大的不同，因為很少有證據表明Turing卡受到PCIe 3.0速度的限制，即使PCIe 3.0 x8在大多數情況下也已足夠使用。安培的更高性能無疑會增加對更多帶寬的需求，但幅度不會太大。這可能就是為什么甚至NVIDIA都沒有大力推廣PCIe 4.0支持的原因（盡管在這里僅次于AMD可能是一個因素）。

　　同時，似乎SLI支持將持續(xù)存在至少至少一代。NVIDIA的RTX 3090卡包括一個用于SLI和其他多GPU用途的NVLInk連接器。因此，多GPU渲染即使幾乎沒有發(fā)生，也仍然有效。NVIDIA今天的演講沒有對該功能進行任何進一步的詳細介紹，但是值得注意的是，Ampere架構引入了NVLink 3，如果NVIDIA將其用于RTX 3090，則意味著3090的NVLink帶寬可能是上一代的RTX 2080 Ti的兩倍，每個方向的速度為100GB/s。

　　總體而言，我懷疑RTX 3090上包含NVLInk連接器對于計算用戶來說是一個新玩法，由于知道VRAM容量對先進的深度學習模型的重要習慣，許多用戶將對擁有24GB VRAM的快速消費級卡感到垂涎三尺……不過，NVIDIA絕不會放棄在圖形方面進行追加銷售的機會。

　　最終，隨著RTX 30系列的發(fā)布，NVIDIA還宣布了他們稱為RTX IO的新I / O功能套件。從高層次看，這似乎是NVIDIA對Microsoft即將推出的DirectStorage API 的實現，就像在首次啟動的XboxSeries X控制臺上一樣，它允許從存儲到GPU的直接連接，實現異步assets流的傳輸，通過繞開CPU來完成大部分工作，DirectStorage（以及擴展為RTX IO）可以通過讓GPU更直接地獲取所需的資源來改善I / O延遲和GPU的吞吐量。

　　除了Microsoft為該技術提供標準化API之外，這里最重要的創(chuàng)新是Ampere GPU能夠直接解壓縮assets。游戲assets經常被壓縮以用于存儲目的-至少Flight Simulator 2020占用甚至更多的 SSD空間，并且當前將這些assets解壓縮為GPU可以使用的東西是CPU的工作。將其從CPU卸載不僅可以將其釋放給其他任務，而且最終完全擺脫了中間人，這有助于改善assets流性能和游戲加載時間。

　　務實地說，我們已經知道該技術已經應用于Xbox Series X和PlayStation 5，因此很大程度上是Microsoft和NVIDIA與下一代游戲機保持同等水平。但是，它確實需要在GPU端進行一些真正的硬件改進，以處理所有這些I / O請求并能夠有效地解壓縮各種類型的assets。

　　Ampere功耗效率改進：1.9倍？可能不是

　　除了整體視頻卡性能之外，NVIDIA的第二大技術支柱是整體功耗效率。功率效率是GPU設計的基石，因為圖形工作負載有令人尷尬地并行化，并且GPU性能受到總功耗的限制。功率效率是所有GPU發(fā)布中經常關注的焦點。NVIDIA為確保RTX 30系列的發(fā)布而給予了一定的關注。

　　總體而言，NVIDIA聲稱Ampere的功耗效率提高了1.9倍。對于后Dennard時代的制造工藝節(jié)點的全面發(fā)展，這實際上是一個令人驚訝的說法。請注意，這絕非不可能，但這遠超NVIDIA從Pascal升級到Turing所獲得的提升。

　　但是，如果深入研究NVIDIA的說法，這個1.9倍的提升就顯得越來越夸張。

　　此處的直接奇怪之處是，通常功耗效率是以固定的功耗水平而不是固定的性能水平來衡量的。隨著晶體管的功耗大約增加電壓的三次方，像Ampere這樣具有更多功能塊的“更寬”部分可以以更低的頻率進行時鐘輸出，從而達到與Turing相同的整體性能。本質上，這張圖是將最壞的Turing與最好的Ampere進行比較，那么問題來了，如果我們將Ampere降頻到與Turing一樣慢，那會是什么樣？而不是“在相同約束下安培比圖靈快多少？”。

　　換句話說，在特定的功耗下，NVIDIA的圖表并未向我們展示了直接的性能比較。

　　如果您實際上進行了固定的功耗比較，那么Ampere在NVIDIA的圖表中看起來就不會那么好。在此示例中，Turing在240W時達到60fps，而Ampere的性能曲線大約為90fps?？梢钥隙ǖ氖?，這仍然是一個很大的改進，但是每瓦性能僅提高了50％。最終，功耗效率的確切提高將取決于您在圖表中的采樣位置，但是很顯然，按照更常規(guī)的指標定義，NVIDIA使用Ampere的功耗效率提高不會達到NVIDIA幻燈片所聲稱的90％。

　　所有這些都反映在新RTX 30系列卡的TDP中。RTX 3090消耗的功耗高達350瓦，甚至RTX 3080也消耗320W的功率。如果我們信奉NVIDIA的性能要求，RTX 3080提供的性能比RTX 2080高出100％，功耗增加了49％，那么每瓦性能的有效提高僅為34％。而RTX 3090的比較則更加苛刻，NVIDIA宣稱性能提高了50％，功耗增加了25％，那就意味著其凈功耗效率僅增加了20％。

　　最終，很明顯，NVIDIA在Ampere一代產品中獲得的大部分性能提升將來自更高的功耗限制。有了280億的晶體管，這些卡將變得更快，但是它將需要比以往更多的電源來點亮它們。

　　支持PAM的GDDR6X

　　除了核心GPU架構本身之外，GA102還引入了對另一種新內存類型的支持：GDDR6X。這是由Micron和NVIDIA開發(fā)的GDDR6演進版技術，GDDR6X旨在通過在內存總線上使用多級信令來實現更高的內存總線速度（并因此獲得更大的內存帶寬）。通過采用這種策略，NVIDIA和美光科技可以繼續(xù)推動具有成本效益的獨立存儲技術的發(fā)展，從而繼續(xù)滿足NVIDIA最新一代GPU的要求。這標志著NVIDIA在過去幾代產品中的第三種存儲技術，從GDDR5X到GDDR6再到GDDR6X。

　　美光公司上個月發(fā)布了有關該技術的一些早期技術文件時表示，通過采用脈沖幅度調制4（ulse Amplitude Modulation-4 ：PAM4），GDDR6X能夠每個時鐘發(fā)送四個不同的符號，實質上是每個時鐘移動兩位，而不是通常每個時鐘移動一位。為了簡潔起見，我不會完全重述該討論，但我將重點介紹。

　　在非常高的水平上，PAM4與NRZ（二進制編碼）的區(qū)別是使單個單元（或在這種情況下為傳輸）將保持的電氣狀態(tài)數增加一倍。PAM4使用4種信號電平，而不是傳統的0/1高/低信令，因此一個信號可以編碼為四種可能的兩位模式：00/01/10/11。這樣一來，PAM4可以承載的數據量是NRZ的兩倍，而不必將傳輸帶寬加倍，這將帶來更大的挑戰(zhàn)。

　　反過來，PAM4需要更復雜的存儲控制器和存儲設備來處理多種信號狀態(tài)，但同時也會降低存儲總線頻率，從而簡化了其他方面。對于NVIDIA來說，最重要的一點可能是它的電源效率更高，每位帶寬消耗降低約15％?？梢钥隙ǖ氖?，總的DRAM功耗仍在上升，因為這遠遠超出了帶寬獲得的補償，但是DRAM上節(jié)省的每一焦耳都被應用在GPU的其他方面。

　　根據美光的文件，該公司設計的第一代GDDR6X達到21Gbps。但是NVIDIA在這里顯得略為保守，RTX 3090的速度為19.5Gbps，RTX 3080的速度為19Gbps。即使在這些速度下，假設內存總線大小相同的情況下，內存帶寬仍比上一代卡提高了36％-39％?？傮w而言，這種進展仍然是規(guī)范的例外。從歷史上講，我們通?？床坏竭B續(xù)幾代產品都能獲得如此大的內存帶寬。但是，隨著提供更多的SM，我只能想象NVIDIA的產品團隊很高興擁有它。

　　但是，GDDR6X確實存在一個明顯的缺點：容量。

　　盡管美光計劃在將來開發(fā)16Gbit芯片，但從今天開始，他們將來只會生產8Gbit芯片。此密度與NVIDIA RTX 20系列卡及其GTX 1000系列卡上的存儲芯片相同。因此，至少對于這些卡而言，沒有“免費”的存儲容量升級。RTX 3080僅獲得10GB的VRAM，而RTX 2080僅為8GB，這是因為使用了較大的320位內存總線（即10個芯片而不是8個芯片）。同時，RTX 3090獲得24GB的VRAM，但是只能通過在384位內存總線上以clamshell 模式使用12對芯片，從而使存儲芯片的數量做到RTX 2080 Ti的兩倍多。

　　HDMI 2.1和AV1引入，VirtualLink出局

　　最后，在顯示I / O面板上，Ampere和新的GeForce RTX 30系列卡在此處進行了幾個顯著更改。最重要的是，他們終于有了對HDMI 2.1的支持。HDMI 2.1已經在電視中（并將在今年的主機中交付）面世，它為桌面帶來了一些功能，其中最引人注目的是支持更大的電纜帶寬。

　　HDMI 2.1電纜可以傳輸高達48Gbps的數據，是HDMI 2.0的2.6倍以上，從而可以提供更高的顯示分辨率和刷新率，例如以165Hz以上的頻率運行的8K電視或4K顯示器。帶寬的飛躍甚至使HDMI領先于DisplayPort。DisplayPort 1.4僅提供大約66％的帶寬。雖然DisplayPort 2.0 最終會擊敗它，但目前看來，Ampere對于該技術而言還為時過早。

　　綜上所述，我仍在等待NVIDIA確認其新GeForce卡是否支持全48Gbps信號速率。因為某些HDMI 2.1電視已經發(fā)貨，支持更低的數據速率，因此，NVIDIA在這里做同樣的事情并非不可想象。

　　從游戲的角度來看，HDMI 2.1的其他功能是通過HDMI支持可變刷新率。但是，此功能不是HDMI 2.1獨有的，確實已經被移植到NVIDIA的RTX 20卡，因此，隨著電纜帶寬的增加，對它的支持將在這里變得更加有用，但從技術上講，它并不是NVIDIA卡的新功能……

　　同時，RTX 20系列卡上引入的VirtualLink端口即將淘汰。業(yè)界試圖建立一個端口，以將視頻，數據和電源整合起來，用于VR頭戴式耳機中，但這個嘗試已經失敗了，三大頭戴式VR制造商（Oculus，HTC，Valve）都沒有使用該端口。因此，您不會在RTX 30系列卡上找到該端口。

　　最后，當我們討論視頻時，NVIDIA還確認了新的Ampere GPU包括其NVDEC視頻解碼模塊的更新版本。該芯片制造商將這一功能提高到了NVIDIA所謂的Gen 5，增加了對新AV1視頻編解碼器的解碼支持。

　　人們普遍期望，即將出現的免版稅編解碼器將成為H.264 / AVC的事實上的繼任者，因為HEVC進入市場已經有很多年了（并且最近所有的GPU都已經支持了）。編解碼器附近的madcap專利使用費情況不利于其采用。相比之下，AV1在分發(fā)中的使用應提供與HEVC相似或略好于HEVC的質量，但無需支付版稅，這使其對內容供應商的吸引力更大。迄今為止，AV1的一個缺點是CPU負擔很重，即使在高端臺式機中，硬件解碼支持也很重要，以便避免占用CPU資源并確保流暢，無干擾的播放。

　　NVIDIA在這里沒有詳細介紹其AV1支持的內容，但是另一篇博客文章提到了10位色彩支持和8K解碼，因此聽起來NVIDIA已經覆蓋了基礎。

　　同時，沒有提及對該公司NVENC區(qū)塊的進一步改進。最近針對Turing發(fā)布進行了修改，從而擴大了NVIDIA HEVC編碼功能的范圍以及整體HEVC和H.264圖像質量。否則，對于硬件AV1編碼，我們還為時過早，因為該編解碼器的某些獨特屬性正在使硬件編碼更難破解。

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

三星8nm工艺，最高售价1500美元，英伟达新一代显卡面世

日期： 2020-09-02

來源：半导体行业观察

相關內容