編者按:因為擁有強悍的GPU,英偉達在多個領域擁有強悍的競爭力,這就吸引了更多的廠商進去其專注的市場,英特爾和AMD就虎視眈眈。
我們知道,Nvidia 并不是唯一一家創(chuàng)建了專門計算單元的公司,這些計算單元擅長支持 AI 訓練的矩陣數(shù)學和張量處理,并且可以重新用于運行 AI 推理。英特爾已經(jīng)收購了兩家這樣的公司——Nervana Systems,緊隨其后的是 Habana Labs,這都是他們叫板Nvidia 的 “武器”。
英特爾是一家優(yōu)秀的公司,正在追逐該公司認為在未來五年內(nèi)將產(chǎn)生 500 億美元的人工智能計算機會(用于訓練和推理),從現(xiàn)在到 2027 年以 25% 的復合年增長率增長,以達到這一水平。鑒于“Ponte Vecchio”Xe HPC GPU 加速器中的大量矩陣和矢量數(shù)學,以及即將推出的“Sapphire Rapids”Xeon SP CPU 中的 AMX 矩陣數(shù)學單元中很可能有足夠的推理能力,有理由想知道有多少英特爾預計出售的Gaudi訓練和Goya 推理芯片。
我們知道,英特爾在 2016 年 8 月完成 3.5 億美元的 Nervana Systems 交易和 2019 年 12 月以 20 億美元收購 Habana Labs時,是在追求知識產(chǎn)權和人才,當然,因為這就是這場 IT 戰(zhàn)爭的打法,但我們一直想知道如果這些設備以及來自競爭對手 GraphCore、Cerebras、SambaNova Systems 和 Groq 的非常優(yōu)雅和有趣的設計能夠部署在類似于主流的東西中。私募股權投資者一直渴望搭上這輛 AI 芯汁列車,并進行了大量投資,上述四家公司迄今共籌集了 28.7 億美元。
陪審團仍未出局,所有這些產(chǎn)品都剛剛起步,這就是為什么英特爾在 Nervana 和 Habana 上對沖它的賭注,就像它對數(shù)據(jù)中心中的 FPGA 感到害怕(主要歸功于 Microsoft Azure)并于2015 年 6 月斥資 167 億美元收購 Altera。在 2015 年到 2020 年間,當英特爾在數(shù)據(jù)中心計算領域占據(jù)主導地位時,它試圖通過 Xeon CPU 計算來消除對其霸權地位的所有可能威脅,并且它有能力購買一些競爭對手。
現(xiàn)在,既然它想起了自己需要再次成為代工廠,它就不能再做出如此昂貴的進攻演習了,這些進攻實際上既是防守又是進攻。現(xiàn)在是時候嘗試將其支付給 Nervana 和 Habana 的部分錢賺回來了。目前尚不清楚英特爾是否能夠收回所有資金,即使它做出了 23.5 億美元的投資,但正如我們所說,也許這不是重點。也許關鍵是要對 GraphCore、Cerebras、SambaNova Systems 和 Groq 進行反駁,因為英特爾在其 Xeon SP CPU 中添加了 AI 功能,并在今年推出了其獨立 GPU。(Wave Computing 籌集了 2.033 億美元用于開發(fā)其 AI 芯片,于 2020 年 4 月破產(chǎn),一年后成為 MIPS 芯片技術的供應商,因此我們不再將其視為 AI 芯片的競爭者。)
在本周舉行的 Intel Vision 2022 大會上,Gaudi2 AI 訓練芯片是這家芯片制造商推出的新的大型計算引擎,順便說一下,它并不是英特爾實際制造的芯片,而是與其前身Gaudi1一樣,由競爭對手臺積電制造。
與 Nervana Systems 一樣,Habana Labs 非常認真地創(chuàng)建了一組芯片,為 AI 工作負載提供最佳性價比和最佳性能。Habana Goya HL-1000 推理芯片于 2019 年初發(fā)布,Gaudi1 AI 訓練芯片,也稱為 HL-2000,于當年夏天晚些時候首次亮相。
Gaudi1 架構有一個通用矩陣乘法 (GEMM) 前端,后端有 10 個張量處理器內(nèi)核或 TPC,該芯片僅向用戶公開了其中的 8 個,以幫助提高封裝的良率。(顯然,在英特爾收購 Habana Labs 后的某個時候,額外的兩個張量核心暴露出來了。)
Gaudi1 使用了第二代 TPC,而 Goya HL-1000 AI 推理芯片使用了不那么強大和不那么復雜的原始 TPC 設計。Gadui1 芯片中的 TPC 可使用 C 編程語言直接尋址,具有張量尋址,并支持 BF16 和 FP32 浮點以及 INT8、INT16 和 INT32 整數(shù)格式。TPC 指令集具有加速 Sigmoid、GeLU、Tanh 和其他特殊功能的電路。
Gaudi1 采用 TSMC 的 16 納米工藝實現(xiàn),具有 24 MB 片上 SRAM、四組 HBM2 內(nèi)存,容量為 32 GB,帶寬為 1 TB/秒。Gaudi1 插入 PCI-Express 4.0 x16 插槽并消耗 350 瓦的電量,并將幾乎所有的電量都轉(zhuǎn)化為熱量,就像芯片一樣。(少量能量用于操作和存儲信息。)
一個由 8 個 Gaudi2 服務器組成的集群,每個服務器有 8 個 Gaudi2 卡。
英特爾尚未透露對 Gaudi2 架構的深入了解,但這就是我們所知道的。
借助 Gaudi2,英特爾正在轉(zhuǎn)向臺積電的 7 納米工藝,隨著這種微縮,它能夠?qū)⑿酒系?TPC 數(shù)量從 10 個增加到 24 個,并增加了對 Nvidia 新的 8 位 FP8 數(shù)據(jù)格式的支持。使用 FP8 格式,開發(fā)者現(xiàn)在可以擁有相同格式的低分辨率推理數(shù)據(jù)和高分辨率訓練數(shù)據(jù),并且在從訓練轉(zhuǎn)移到推理時不必在浮點和整數(shù)之間轉(zhuǎn)換模型。這對 AI 來說是一個真正的福音,盡管較低精度的整數(shù)格式可能會在矩陣和矢量計算引擎中保留多年,以支持遺留代碼和其他類型的應用程序。
Gaudi2 芯片有 48 MB 的 SRAM——如果它與 TPC 數(shù)量成線性比例,您會期望 2.4 倍而不是 2 倍的 SRAM,或 57.6 MB。
掛在 Gaudi2 芯片上的是 HBM2e 內(nèi)存組,它提供 2.45 TB/秒的帶寬,是 Gaudi1 芯片的 2.45 倍。HBM2e 內(nèi)存組的數(shù)量沒有透露,但 Gaudi2 有 6 個 16 GB HBM2e 組,而 Gaudi1 有 4 個 8 GB HBM2 組。僅增加兩個 HBM2e 內(nèi)存控制器就可以將帶寬提高 1.33 倍,而剩余的帶寬增加來自于提高內(nèi)存速度。
Gaudi1 芯片有十個支持 RoCE 直接內(nèi)存訪問協(xié)議的 100 Gb/秒以太網(wǎng)端口——事實證明,每個 TPC 一個,但我們當時并不知道,因為只顯示了八個。但 Gaudi2 有 24 個以太網(wǎng)端口,以 100 Gb/秒的速度運行,每個 TPC 也有一個。它的功率為 650 瓦。我們假設該設備插入 PCI-Express 5.0 插槽,但英特爾尚未證實這一點。
假設沒有重大的架構變化和工藝從 16 納米縮小到 7 納米并沒有帶來時鐘速度適度提升,我們預計 Gaudi2 芯片將提供大約 2.5 倍的 Gaudi2 性能。(還假設任何給定應用程序的處理精度相同。)但英特爾實際上并沒有說明是否有任何架構變化(除了添加了一些媒體處理功能)以及時鐘速度如何變化,所以我們有來推斷。
我們通過查看這張關于 ResNet-50 機器視覺訓練操作的圖表來做到這一點,該圖表將 Gaudi1 和 Gaudi2 與過去兩代 Nvidia GPU 加速器進行對比:
根據(jù)這個 ResNet-50 比較,Gaudi2 的性能是 Gaudi1 的 3.2 倍,但很難估計性能有多少是由于芯片容量的增加。這個特定的測試運行 TensorFlow 框架來進行圖像識別訓練,顯示的數(shù)據(jù)是每秒處理的圖像數(shù)量。
沒有顯示但很重要的一件事是 Gaudi2 加速器將如何疊加到 Hopper GPU,但 Nvidia 尚未透露任何特定測試的性能結(jié)果。但由于 H100 中的 HBM3 內(nèi)存運行速度比 A100 加速器中使用的 HBM2e 內(nèi)存快 1.5 倍,而 FP16、TF32 和 FP64 在新張量核心上提供 3 倍的性能,因此可以合理地預期 H100 將提供介于在 ResNet-50 視覺訓練工作負載上的性能是 1.5 倍和 3 倍,因此 H100 在 ResNet-50 測試中每秒可提供 4,395 到 8,790 張圖像的性能。我們的猜測是,它將比前者更接近后者,并且比英特爾可以通過 Gaudi2 提供的優(yōu)勢有相當大的優(yōu)勢。
與使用 BERT 模型的自然語言處理相比,圖像識別和視頻處理相對容易。以下是 Gaudi2 與 Nvidia V100 和 A100 的對比,請注意 Gaudi1 的缺失:
BERT 模型也在 TensorFlow 框架之上運行,該數(shù)據(jù)顯示了在兩個不同的訓練階段中每秒吞吐量的序列數(shù)。Habana Labs 部門的首席商務官 Eitan Medina 在一次簡報中表示,Gaudi2 的性能幾乎是 A100 的 2 倍。但 H100 擁有自己的 FP8 格式和 Transformer 引擎,可以動態(tài)地改變 AI 訓練工作流程不同部分的數(shù)據(jù)和處理精度,可以做得更好。我們不知道多少,但我們強烈懷疑 Nvidia 至少可以縮小與 Gaudi2 的差距,并且很有可能超越它。
為了讓事情變得有趣,英特爾在 Amazon Web Services 上啟動了 DL1 Gaudi1 實例,然后分別基于 A100 和 V100 GPU 啟動了 p4d 和 p3 實例,并進行了一些性價比分析以計算在 ResNet 中識別的每張圖像的成本-50 基準??纯催@個:
這張圖表的意思是,Gaudi1 的性能略好于 V100——使用英特爾在上圖中針對 ResNet-50 的性能數(shù)據(jù)顯示了 27.3%——而且性價比高了大約 60%,這意味著 DL1 實例的成本大大低于使用 V100 的 p3 實例。隨著遷移到具有 40 GB HBM2e 內(nèi)存的基于 A100 的 p4d 實例,Nvidia 設備在 ResNet-50 上的吞吐量比 Gaudi1 高 58.6%,但 Gaudi1 處理每個圖像的成本降低了 46%。這意味著 A100 實例確實要貴一些。如果我們對 Hopper GPU 加速器定價的猜測是正確的,而 Nvidia 對大約 3 倍的性能收取大約 2 倍的費用,英特爾將不得不將出售給 AWS 的 Gaudi2 芯片的價格保持在 AWS 仍然可以顯示出比運行 AI 訓練的 H100 實例更好的性價比的地方。
而在這一切中,Trainium 在哪里?嗯。. . .
無論如何,英特爾在其實驗室中運行了超過 1,000 個 Gaudi2,因此它可以調(diào)整 SynapseAI 軟件堆棧,其中包括在 Habana 的圖形編譯器、內(nèi)核庫和通信庫上運行的 PyTorch 和 TensorFlow 框架。值得一提的是,Gaudi2 芯片現(xiàn)已發(fā)貨。
除了 Gaudi2 芯片,英特爾還在預覽其 Goya 后續(xù)的 Greco 推理引擎,該引擎也在臺積電制造。
Greco 推理卡具有 16 GB 的 LPDDR5 主內(nèi)存,提供 204 GB/秒的內(nèi)存帶寬,而之前的 Goya 推理引擎使用 16 GB 的 DDR4 內(nèi)存塊提供 40 GB/秒的內(nèi)存帶寬。Habana 架構的這種 Greco 變體支持 INT4、BF16 和 FP16 格式,功耗為 75 瓦,大大低于 2019 年初宣布的 HL-1000 設備的 200 瓦。如上圖所示,它被壓縮到更緊湊的半高、半長 PCI-Express 卡。目前還沒有關于這款產(chǎn)品的性能或價格的消息。
除了英特爾以外,AMD也更新了GPU產(chǎn)品線,以挑戰(zhàn)英偉達。
AMD 發(fā)布 Radeon RX 6950 XT、6750 XT 和 6650 XT
AMD 今天早上揭開了三款新的 Radeon RX 6000 系列顯卡的面紗,以完善其產(chǎn)品堆棧。新的產(chǎn)品涵蓋了從中端到旗艦市場的所有市場,其中, Radeon RX 6950 XT、RX 6750 XT 和 RX 6650 XT 將作為 Radeon 系列的中代產(chǎn)品發(fā)布,為 AMD 最重要的顯卡提供最后的性能提升. 利用更新的 18Gbps GDDR6 內(nèi)存以及略微改進的時鐘速度,今天發(fā)布的新卡承諾適度的性能提升,同時讓 AMD 有機會展示他們的 RDNA2 GPU 架構在經(jīng)過近 18 個月的改進后可以做什么。
從高層次上看,這三款新卡都是對 AMD 現(xiàn)有 Radeon RX 6900 XT、RX 6700 XT 和 RX 6600 XT 部件的小更新。為了利用 18Gbps GDDR6 不斷增加的可用性,AMD 選擇將其配備到 RX 6000 系列中的三款最重要的卡上,以便為它們提供適度的內(nèi)存帶寬提升。與此同時,AMD 也在利用這個機會來提高性能——無論是形象上還是字面上——稍微提高顯卡的 TDP 以允許稍微更高的 GPU 時鐘速度。
如前所述,整體變化很小,無論是在性能還是卡片構造方面。除了換成 18Gbps GDDR6 內(nèi)存外,這些更新的規(guī)格都可以通過當前的卡設計來實現(xiàn),并且沒有其他硬件變化。與此同時,AMD 自己對新卡性能提升的估計約為 5% 到 6%——內(nèi)存帶寬的增加受到 GPU 時鐘速度的小幅提升的影響。
盡管如此,對于 AMD 來說,這是一個進一步提高他們在一些最重要的視頻卡上的競爭定位的機會。在當前這一代顯卡的最后六個月左右,領先于 NVIDIA。NVIDIA 早就展示了他們自己的中代產(chǎn)品,如 3080Ti/3070TI 和 3080 12GB,因此 AMD 獲得了可能成為最后一步的優(yōu)勢(至少在性能上層) 。
更新的 Radeon RX 6000 產(chǎn)品堆棧:擴展和退役
這一切發(fā)生的時機確實讓 AMD 無意中抓住了一把落下的刀,然而,在經(jīng)歷了 18 個月的挫折之后,顯卡市場終于回歸常態(tài)。由于加密貨幣挖礦盈利能力大幅下降且供應情況有所改善,零售視頻卡價格正在接近其最初的建議零售價。這對于游戲玩家、計算機科學家和其他任何想要以(更)合理的價格購買顯卡的人來說都是個好消息,但對于 AMD 在嘗試定價和定位他們的新部件時會遇到更多問題。AMD 甚至在推出新卡之前就已經(jīng)需要重新定價一次,而現(xiàn)在這些被設計為優(yōu)質(zhì)、高價產(chǎn)品的卡將面臨更大的市場壓力。
除了將 RX 6950 XT、RX 6750 XT 和 RX 6650 XT 添加到 AMD 龐大的 Radeon RX 6000 系列產(chǎn)品堆棧之外,AMD 還利用這個機會淘汰了顯卡Radeon RX 6600 XT——原本最快的 Navi 23 卡,以及 AMD 中端顯卡努力的基石,最終將不復存在。該卡在市場上的地位正在被最快的 RX 6650 XT 所取代。
除此之外,RX 6900 XT 和 RX 6700 XT 將繼續(xù)生產(chǎn)。盡管最便宜的 6900XT 已經(jīng)達到 950 美元,但 AMD 及其合作伙伴可能很快就會發(fā)現(xiàn)自己不得不讓他們的新卡與其他產(chǎn)品堆棧一起降價。
順便說一句,我很高興看到 AMD 對這些新部件使用了合理的命名系統(tǒng)。將所有新卡指定為 xx50 可以很容易地判斷它們與現(xiàn)有卡有明顯的不同,并且可以很容易地判斷它們在更大的產(chǎn)品堆棧中的位置。AMD 有 4 位數(shù)字,很高興看到 AMD 至少使用了 3 個數(shù)字,而不是添加更多的后綴或完全用多種變體重載產(chǎn)品名稱。
Radeon RX 6950 XT、RX 9750 XT 和 RX 6650 XT
深入了解規(guī)格,讓我們開始研究新卡。
從頂部開始,我們擁有 AMD 的新旗艦 Radeon RX 6950 XT。這是原始 RX 6900 XT 的增強版,現(xiàn)在是 AMD 產(chǎn)品堆棧中功能最強大的顯卡,也是最昂貴的顯卡。
鑒于最初的 RX 6900 XT 已經(jīng)基于具有 40 個 CU 和 128MB 無限緩存的完全啟用的 Navi 21 GPU,AMD 除了提高 GPU 和內(nèi)存時鐘速度之外,幾乎沒有其他途徑來提高性能,所以這正是他們的目標,且已經(jīng)完成了。
除了將顯卡與 16GB 最新的 18Gbps GDDR6 內(nèi)存配對外,顯卡的 GPU 時鐘速度也得到了提升;官方游戲時鐘現(xiàn)在是 2100MHz (+10%),最大加速時鐘是 2310MHz (+3%)。這使 RX 6950 XT 的內(nèi)存帶寬增加了 12.5%,并且整個 GPU 本身的吞吐量平均提高了幾個百分點。
為了為這種改進的性能買單,AMD 還提高了 TBP。最初的 RX 6900 XT 是 300W 卡,而 RX 6950 XT 在參考規(guī)格下是 335W 卡,董事會合作伙伴可以隨時進一步提高。AMD 在這一點上處于電壓/頻率曲線的遠端,雖然提高 TBP 確實可以通過讓卡更頻繁地接近其最大 GPU 時鐘速度來提高性能,但它們正在逐漸減少此時返回。所有這些都進一步反映在 AMD 的官方性能數(shù)據(jù)中,RX 6950 XT 的著陸速度比原始的 RX 6900 快了約 4%。
關于這一點,值得指出的是,新的 18Gbps GDDR6 也可能是這些新卡 TBP 增加的一個因素。雖然最新 GDDR6 的電壓保持在 1.35v,但由于支持如此高的信號速率的電力成本,總體功耗仍會上升。AMD 沒有正式公布其顯卡的 GPU 和 DRAM 功耗,但如果在所有其他條件相同的情況下,RX 6950 XT 的 DRAM 功耗比 RX 更高,我一點也不感到驚訝6900 XT。在這一點上,如果 AMD 無論如何都需要增加 TBP(以保持時鐘速度恒定),為什么不增加一點以從 GPU 本身中擠出一些額外的空間。
同時,在 AMD Radeon 產(chǎn)品堆棧的中間位置,我們有 RX 6750 XT 和 RX 6650 XT。與 RX 6950 XT 一樣,這些卡的前身已經(jīng)基于完全啟用的 Navi GPU——分別為 Navi 22 和 Navi 23——因此 AMD 正在轉(zhuǎn)向提高時鐘速度以提高性能。
對于 RX 6750 XT,與最初的 RX 6700 XT 相比,其最大時鐘速度已提升至 2600MHz (+ <!%),而游戲時鐘現(xiàn)在為 2495MHz (+3%)。因此,來自最高 GPU 時鐘速度的預期性能提升是最小的,大部分提升將需要來自 18Gbps GDDR6。但盡管如此,AMD 自己的性能數(shù)據(jù)顯示,RX 6750 XT 比 RX 6950 XT 從這些升級中受益更多;AMD 的二線顯卡的數(shù)據(jù)速度略高于 7%。
同時,RX 6650 XT 完全取代了原始的 RX 6600 XT,最大時鐘速度為 2635MHz,游戲時鐘為 2410MHz,兩者都比原始卡快 2% 左右。而且,盡管 TBP 增加了,內(nèi)存帶寬增加了 12.5%,但它在 AMD 的官方數(shù)據(jù)中顯示出最小的增益,只有 2% 的性能提升。在這種情況下,AMD 不保留原始的 RX 6600 XT 是可以理解的,因為 RX 6650 XT 的速度不夠快,無法將自己與舊卡有意義地分開。
一旦這些卡開始出貨,我們將看到第三方基準測試如何發(fā)揮作用,但假設 AMD 的數(shù)據(jù)在這里是準確的,這證明了他們的片上 Infinity Cache 的價值。雖然內(nèi)存帶寬幾乎不會隨著 1 對 1 性能的提高而增加,但值得注意的是,額外帶寬所增加的性能是多么少 - 或者相反,Navi 23 GPU 已經(jīng)被 16Gbps GDDR6 在 128位內(nèi)存總線。即使只有 32MB 的緩存也在做大量工作來限制 1080p 的 DRAM 帶寬需求。
最后,與 RX 6950 XT 一樣,這兩張卡的 TBP 也在增加。RX 6750 XT 將搭載 250W 參考 TBP,比原始 RX 6700 XT 高 20W。同時,RX 6650 XT 將調(diào)整為 180W,這也比其前身 RX 6600 XT 高 20W。
驅(qū)動程序新聞:隱私視圖和 AMD 超級分辨率 1.1
在今天的產(chǎn)品公告中,還有一個關于 AMD 產(chǎn)品生態(tài)系統(tǒng)驅(qū)動程序方面的簡短更新。
AMD 的 GPU 加速隱私視圖功能,原定于第一季度推出,終于接近發(fā)布,應該在本月的驅(qū)動程序下降中。同時,根據(jù) AMD 的說法,他們基于驅(qū)動程序的 AMD 超分辨率技術的更新版本正在開發(fā)中。盡管此時他們沒有透露將針對 Super Resolution 1.1 調(diào)整或添加哪些功能。
合作伙伴卡和產(chǎn)品定位
鑒于今天的發(fā)布是對一些 AMD 現(xiàn)有卡的相對較小的更新,AMD 及其董事會合作伙伴正在開始使用新卡。除了合作伙伴自己的工作外,AMD 還發(fā)布了 RX 6950 XT 和 RX 6750 XT 參考卡的更新版本。因此,喜歡 AMD 參考設計的游戲玩家——甚至只是直接從 AMD 購買——將能夠這樣做。
與此同時,董事會合伙人將一如既往地做自己的事情。期望看到庫存時鐘和工廠超頻卡的通常組合,董事會合作伙伴希望從 AMD 的最新硬件中榨取更多。
除了今天發(fā)布的信息之外,AMD 并沒有向我們提供太多關于可用性的信息。但考慮到底層 GPU 的生產(chǎn)時間——以及最近幾周 6900XT/6700XT/6600XT 的可用性——這不應該是一個特別瘋狂或供應受限的發(fā)布。在過去的 18 個月之后,所有這些都是一個不錯的變化。
盡管當原始顯卡最終降到更合理的價格時,整個顯卡市場對新的高價 Radeon 顯卡有多大的胃口還有待觀察。由于 RX 6800 或 RX 6600 以外的任何產(chǎn)品的供應在這一點上基本上不受限制,因此新卡的大部分價值來自其略高的性能,這意味著生態(tài)系統(tǒng)沒有太多回旋余地來提供更高的性能和價格。或許 AMD 已經(jīng)在采取進一步措施來支撐視頻卡價格也就不足為奇了,包括即將推出的游戲捆綁優(yōu)惠,盡管它實際上還沒有上線,但它今天就開始了。
值得慶幸的是 ,AMD的競爭對手不是他們自己,而是市場領導者 NVIDIA。盡管 GeForce 卡的價格也有所下降,但對挖礦更友好的卡的降價速度較慢,因此其中許多卡的售價仍然比原來的建議零售價高出不少。因此,AMD 擁有龐大且現(xiàn)在甚至更大的產(chǎn)品堆棧,可以與 NVIDIA 堆棧中的所有產(chǎn)品相媲美——而且就目前而言,它通常具有顯著的價格優(yōu)勢。
AMD 認為它們也具有性能優(yōu)勢,雖然我非常懷疑 RX 6950 XT 是否會始終勝過 RTX 3090(AMD 選擇的競爭對手),但 RX 6750 XT 和 RX 6650 XT 相對于 NVIDIA 的基線表現(xiàn)更好分別是 RTX 3070 和 3060 卡。這次發(fā)布的重點之一是讓事情更上一層樓:讓 AMD 全力以赴,提供新的硬件素材來展示他們與 NVIDIA 的對比。
總結(jié)一下,期待今天早上在零售貨架上看到新的 Radeon 卡——如果不是更早的話。