《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業(yè)界動態(tài) > 性能翻倍,英偉達最強消費級顯卡RTX 3090出爐:半價買泰坦

性能翻倍,英偉達最強消費級顯卡RTX 3090出爐:半價買泰坦

2020-09-02
來源: 機器之心
關鍵詞: 英偉達 GeForceRTX30

  英偉達說,這是 PC 游戲領域自 1999 年以來取得的最大突破。

  對于全球游戲玩家和 AI 從業(yè)者來說,一個重要時刻到來了。

  剛剛,同樣是在自家廚房,英偉達創(chuàng)始人黃仁勛向世人發(fā)布了最新一代消費級顯卡 GeForce RTX 30 系列的最初三個型號 GeForce RTX 3070、RTX 3080、RTX 3090。

  「無論性能還是能效,安培架構 GPU 都是圖靈的兩倍,」黃仁勛說道。「從架構、定制流程設計、電路、邏輯、封裝、series IO、顯存、供電、散熱、軟件和算法…… 我們在所有層面壓榨 GPU 的性能,最終實現了世界水平?!?/p>

  關于這次發(fā)布,網上早已有各類信息提前曝光。但大家最為關心的就是 GeForce RTX 30 系列的性能與報價。用老黃的話說就是,與 2080 價位相同,但速度提升了一倍。而 3090 更是 GPU 中的猛獸,黃仁勛稱之為 BFGPU(big ferocious)。

微信圖片_20200902134845.jpg

  這些公版GPU的國行價格也第一時間出現在了英偉達中國官網上:

微信圖片_20200902134906.jpg

  當今最強 GPU

  在深度學習、光線追蹤的一系列熱場后,黃仁勛突然從放置抹刀的瓶子后,拿出了了一塊 RTX 3080,開始正式介紹 RTX30 系列。

  總體來說,GeForce RTX 30 系列確實占據了 GPU 界的多項「第一」:首款有著 24GB  GDDR6X 顯存的游戲圖形卡;首批支持 HDMI 2.1 的 GPU,一塊顯卡即可實現 4k 高刷新率或 8k 游戲;首批支持 AV1 編譯碼器的獨立 GPU,實現以更少的帶寬觀看更高分辨率的視頻流。

  最大號的 GeForce RTX 3090,當然還是要從烤箱里拿出來。

  RTX 3090 是世界上第一個 8K 游戲 GPU。為什么一定要 8K?在英偉達看來,分辨率的提高會讓視覺效果更加清晰銳利,讓玩家更好地辨認出遠方的游戲元素,以及讓細節(jié)更加真實,比如頭發(fā)、衣服縫線和皮膚皺紋。

  這款顯卡更類似于 Titan 系列,比上一代「正常范圍內」的最高級顯卡 GeForce RTX 2080 Ti 的性能要強大許多。RTX 3090 將于 9 月 24 日上市,起始價為 1499 美元。如果說沒有傳說中 40G 顯存的新泰坦,它就是旗艦 GPU 了。

  在具體參數上,RTX 3090 使用代號為 GA102 的核心,和前代泰坦一樣擁有 24G 顯存,但型號升級為 DDR6X(鎂光提供),顯存速度 19.5Gbps,384bit 位寬,擁有 10496 個等效 CUDA 核心,相比 GeForce RTX 2080 Ti,3090 的核心數量增加一倍不止,功耗則達到了 350W。

  另外,RTX 3080 是 320bit 位寬,內建 8704 個 CUDA,顯存 10G,功耗 320W。RTX 3070 則有 5888 個 CUDA。

  相比之下,2080Ti 的 CUDA 核心是 4300 個,所以黃仁勛在發(fā)布中說 3070 性能超過 2080Ti,看來是沒什么問題的。

  單從核心數量上來看,這巨大的提升讓最近買了 RTX 20 系列的人有了四九年入國軍的感覺。不過需要注意的是,英偉達官方標記的數據是等效核心,與之前的物理核心不同。

  Nvidia GeForce 性能對比,來源:ANANDTECH

  這些顯卡均支持 PCIe 4.0,還有 HDMI 2.1 和 DP 1.4a 等接口,并內含第二代光追核心 RTX Core、第三代張量核心 Tensor Core。

  可以看到,RTX 3090 和 RTX 3080 顯存容量差距較大,這或許是在為稍后推出的 RTX 3080 Super 留位置。另外,3090 的 24G 內存和 1399 美元的價格或許能夠讓很多對深度學習有需求的用戶省下買泰坦的預算。如果你真的想要「Titan Ampere」,預計它會是一個顯存 40G,售價 3000 美元的夸張顯卡。

  另外需要注意的是 GPU 代工廠,今天發(fā)布的 GeForce RTX 30 系列均采用了三星的 8 納米制程「英偉達定制工藝」,選擇三星而不是臺積電,不知是出于什么樣的考慮。

  安培架構,AI 算力再上臺階

  這些強大的 GPU,采用的都是今年 5 月剛剛推出的最新 7 納米制程架構安培(Ampere),其首先被 Tesla A100 所采用。

  在當時的 GTC 大會上,英偉達推出的安培架構計算卡 A100,成為了當時人類制造出的最大 7 納米制程芯片。這塊 AI 計算卡采用先進的臺積電(TSMC)7 納米工藝,擁有 540 億個晶體管,它還是一塊 3D 堆疊芯片,面積高達 826mm^2,最大功率達到了 400W。

  除了制程提高,安培架構還有一些針對 AI 計算特有的機制,其中的三代 Tensor Core 會對稀疏張量運算進行特別加速:執(zhí)行速度提高一倍,也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系統會自動將數據轉為 TF32 格式加速運算,現在你無需修改任何代碼量化了,直接自動訓練即可。

  針對稀疏矩陣的加速可以讓安培架構 GPU 處理 AI 任務的效率提高一倍。

  最終在跑 AI 模型時,如果用 PyTorch 框架,相比上一代 V100 芯片,A100 在 BERT 模型的訓練上性能提升 6 倍,BERT 推斷時性能提升 7 倍。

  不過由于消費級和專業(yè)級芯片的結構不盡相同,我們不能把 Ampere A100 芯片的 AI 訓練性能簡單地直接拿來作為參考,還需要等待官方公布,以及最終實測的數據。

  黃仁勛表示,GeForce RTX 30 系列顯卡具備三項基礎處理技術:30TFLOPS 算力的可編程著色器(Turing 架構是 11),雙倍吞吐量,用于光追的 RT Core(58 RT TFLOPS,Turing 架構是 34),以及可自動忽略次要 DNN 權重的 Tensor Core(238Tensor TFLOPS,舊版為 89)。

  三個方面,性能相比前一代都是翻倍。

  AI 是目前科技領域最強大的技術力量,可以讓計算機從大量數據中學習知識,甚至據此編寫出軟件。在圖形領域,我們仍然可以通過 Tensor Core 的力量增強視頻的畫面?!肝覀儸F在可以只計算低分辨率圖像的光追,再用 Tensor Core 通過 DLSS 將其還原成高分辨率,同時還能提高畫面幀率?!裹S仁勛說道。

  英偉達通過自己的超級計算機訓練了多種不同場景的圖像,并將訓練好的模型以顯卡驅動的程序安置在你的電腦中。在游戲運行時,AI 會通過上一幀高清圖對現有低分辨圖進行渲染,最終達到超過原畫的效果。據介紹,在最新版的 DLSS 2.0 上,Tensor Core 可以把 RTX 的性能提升一倍——這也意味著游戲的有效幀數可以變成兩倍,現在光線追蹤、高分辨率和高幀率可以同時擁有了。

  用它來打游戲會是什么樣?

  除了新的圖像增強工具 DLSS 2.0,隨著安培架構的 GeForce 顯卡,英偉達推出了 Nvidia Reflex、Nvidia Broadcast、Machinima 等工具,基于 RTX 的強大算力,現在人們不僅可以獲得更好的游戲畫面,也可以在游戲時獲得更低的延遲、直播時屏蔽環(huán)境噪音,替換背景,實現綠幕效果、甚至直接用游戲里的元素創(chuàng)作出你想要的電影。

  如今,大型 3D 游戲的容量已經超過了 200G,大量圖像材質需要從被解壓縮,進而交由 GPU 處理。在使用了 PCIe-4 和固態(tài)硬盤之后,CPU 解壓縮成為了這個流程的瓶頸?,F在,通過新技術 RTX IO,GPU 可以無損進行解壓縮工作了。

  自 Turner Whitted 等人首次發(fā)表光線追蹤的論文以來,已過去了 40 年,如今這項技術從計算及圖形的圣杯變成了人人都可以體驗的實時游戲畫面。黃仁勛還宣布《堡壘之夜》已經支持英偉達的光線追蹤技術?!脯F在,全球排名前二的最受歡迎游戲,《我的世界》和《堡壘之夜》,都已支持光追?!裹S仁勛說道。

  為了讓新一代 GeForce 顯卡能夠充分發(fā)揮作用,英偉達還發(fā)布了一款夸張的 360Hz 刷新率 G-Sync 屏幕,預計今年秋天就會出現在宏基、華碩、微星、外星人等品牌的電腦配置單上。

  幾個月前,黃仁勛在 GTC 上展示了 Turing 進行數百光源的光追實時渲染的 Marbles 撞球游戲視頻,使用 Turing RTX Quadro 8000,達到 720p 25 幀。而使用安培架構的 GPU,現在我們可以實現 1440p、30 幀,并增加更多的特效,這是超過四倍的性能。

  還想要更好的效果?你也可以通過 NVLink 把兩張 GeForce RTX 3090 進行 SLI,以達到性能的大幅度擴展。不過看看一張卡的價格,這種事估計只有玩微軟模擬飛行的時候才會有人干吧。

  最后,對于 RTX 3090 在常規(guī)任務中的性能,目前已有了一些傳聞,據稱基于 GA102 的未定型顯卡在未優(yōu)化完整的游戲中以 4K 分辨率跑起來比 RTX 2080 Ti 的幀數高 40%,而優(yōu)化過的游戲中性能更是要高出 50%,在針對安培架構進行優(yōu)化最佳情況下,性能提升可高達 70%。想要在 4K 分辨率下看高刷新率畫面,現在不是問題了。

  采用英偉達大量最新技術的游戲《賽博朋克 2077》,預定在今年 11 月 19 日與人們見面。

  在星際迷航中,劇中人會使用 Holodeck 創(chuàng)造虛擬現實環(huán)境進行任務,現在這種科幻的夢想很大程度上成為了現實?!肝磥恚珿eForce 就是你的 Holodeck,你的光速飛船,你的時間機器?!裹S仁勛說道。

  正如人們所預料,RTX 3090 的性能絕對強勁?,F在,問題來到了我們這邊,1 萬元一塊的泰坦級顯卡,你會不會買?

  不久之前, KDD 2020 公布了最佳論文、最佳學生論文等多個獎項。其中,最佳學生論文獎由杜克大學的李昂、楊幻睿、陳怡然和北航段逸驍、楊建磊摘得。

  為了幫助讀者們更細致的了解這篇論文,9月3日最新一期的機器之心線上論文分享邀請到最佳學生論文一作李昂,為我們介紹該研究。

  

本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。