AMD 本周出人意料地公布了其 Instinct MI250 加速器與英偉達(dá) A100 計(jì)算 GPU 相比的詳細(xì)性能數(shù)據(jù)??梢灶A(yù)見,AMD 的顯卡在所有情況下都比 Nvidia 的主板高出兩到三倍。
但是,盡管硬件公司展示其優(yōu)勢的情況并不少見,但很少在官方網(wǎng)站上公布與競爭對手的詳細(xì)性能數(shù)據(jù)。當(dāng)他們這樣做時,通常意味著一件事:他們對其產(chǎn)品非常有信心。
性能提升三倍
由于 AMD 的 Instinct MI200 主要針對 HPC 和 AI 工作負(fù)載(顯然 AMD 為 HPC 和超級計(jì)算機(jī)而不是 AI 定制了更多的 CDNA 2),因此 AMD 在處理代數(shù)、物理學(xué)、宇宙學(xué)、分子動力學(xué)和粒子相互作用。
有許多物理和分子動力學(xué) HPC 應(yīng)用程序被廣泛使用并具有行業(yè)認(rèn)可的測試,例如 LAMMPS 和 OpenMM。這些可以被視為現(xiàn)實(shí)世界的工作負(fù)載,在這里 AMD 的 MI250X 擁有超過 Nvidia A100 1.4 到 2.4 倍的性能。
還有許多 HPC 基準(zhǔn)測試可以模擬真實(shí)世界的代數(shù)、宇宙學(xué)和粒子交互工作負(fù)載。在這些情況下,AMD 的頂級計(jì)算加速器比 Nvidia 的旗艦加速器快 1.9 – 3.05 倍。
請記住,與 Nvidia 的 A100 相比,AMD 的 MI250X 在高時鐘下運(yùn)行的 ALU 數(shù)量要多得多,新卡顯著優(yōu)于其競爭對手也就不足為奇了。同時,值得注意的是,AMD 沒有運(yùn)行任何 AI 基準(zhǔn)測試。
新架構(gòu),更多 ALU
AMD 的 Instinct MI200 加速器由該公司最新的 CDNA 2 架構(gòu)提供支持,該架構(gòu)針對高性能計(jì)算 (HPC) 進(jìn)行了優(yōu)化,將為即將推出的 Frontier 超級計(jì)算機(jī)提供動力,該超級計(jì)算機(jī)有望提供約 1.5 FP64 TFLOPS 的持續(xù)性能 。MI200 系列 OAM 板使用由兩個圖形計(jì)算芯片 (GCD) 組成的AMD Aldebaran 計(jì)算 GPU ,每個芯片包含 291 億個晶體管,與 Navi 21 內(nèi)部的 268 億個晶體管相比略多。GCD 是使用臺積電的 N6 制造工藝制造的,這使 AMD 能夠通過封裝或者在更多層上使用極紫外光刻技術(shù)增加更多晶體管,并簡化生產(chǎn)過程。
AMD 的旗艦 Instinct MI250X 加速器具有 14,080 個流處理器(220 個計(jì)算單元),并配備 128GB 的 HBM2E 內(nèi)存。MI250X 計(jì)算 GPU 的額定性能為 95.7 FP32/FP64 TFLOPS(矩陣運(yùn)算性能相同)以及 383 BF16/INT8/INT4 TFLOPS/TOPS 性能。
相比之下,英偉達(dá)的 A100 GPU 由 542 億個晶體管組成,擁有 6,912 個活動 CUDA 核心,并搭配 80GB 的 HBM2E 內(nèi)存。在性能方面,加速器提供 19.5 FP32 TFLOPS、9.7 FP64 TFLOPS、19.5 FP64 Tensor TFLOPS、312 FP16/BF16 TFLOPS,以及高達(dá) 624 INT8 TOPS(或 1248 TOPS 稀疏)。
即使在紙面上,AMD 的 Instinct MI200 系列在傳統(tǒng) HPC 和矩陣工作負(fù)載中也能提供更高的性能,但 Nvidia 在 AI 案例中具有優(yōu)勢。在 AMD MI200 系列的情況下,這些峰值性能數(shù)字可以用相當(dāng)高的 ALU 數(shù)量來解釋
為了展示其旗艦計(jì)算加速器 Instinct MI250X 128GB HBM2E 的性能,AMD 使用了基于 1P 或 2P 64 核 AMD EPYC 7742 的系統(tǒng),配備了一個或四個 AMD Instinct MI250X 128GB HBM2E 計(jì)算 GPU 或一個或四個 Nvidia A100 80GB HBM2E。該公司使用了 AMD 優(yōu)化和 CUDA 優(yōu)化的軟件。
總結(jié)
根據(jù)其自己的數(shù)據(jù),目前,AMD 的 Instinct MI250X 是世界上性能最高的 HPC 加速器??紤]到 Aldebaran 擁有高達(dá) 14,080 個 ALU 并且額定為 95.7 FP32/FP64 TFLOPS 性能,它確實(shí)是最快的計(jì)算 GPU。
與此同時,AMD 推出了 Instinct MI250X,比 Nvidia 的 A100 晚了大約 1.5 年,比英特爾的 Ponte Vecchio 早了幾個月。2021 年的計(jì)算加速器的性能超過一年多前推出的競爭對手是很自然的,但我們很好奇的是,這款 GPU 將如何與英特爾的超級計(jì)算機(jī)綁定計(jì)算 Ponte Vecchio GPU 相抗衡。