AMD 本周出人意料地公布了其 Instinct MI250 加速器與英偉達(dá) A100 計(jì)算 GPU 相比的詳細(xì)性能數(shù)據(jù)。可以預(yù)見(jiàn),AMD 的顯卡在所有情況下都比 Nvidia 的主板高出兩到三倍。
但是,盡管硬件公司展示其優(yōu)勢(shì)的情況并不少見(jiàn),但很少在官方網(wǎng)站上公布與競(jìng)爭(zhēng)對(duì)手的詳細(xì)性能數(shù)據(jù)。當(dāng)他們這樣做時(shí),通常意味著一件事:他們對(duì)其產(chǎn)品非常有信心。
性能提升三倍
由于 AMD 的 Instinct MI200 主要針對(duì) HPC 和 AI 工作負(fù)載(顯然 AMD 為 HPC 和超級(jí)計(jì)算機(jī)而不是 AI 定制了更多的 CDNA 2),因此 AMD 在處理代數(shù)、物理學(xué)、宇宙學(xué)、分子動(dòng)力學(xué)和粒子相互作用。
有許多物理和分子動(dòng)力學(xué) HPC 應(yīng)用程序被廣泛使用并具有行業(yè)認(rèn)可的測(cè)試,例如 LAMMPS 和 OpenMM。這些可以被視為現(xiàn)實(shí)世界的工作負(fù)載,在這里 AMD 的 MI250X 擁有超過(guò) Nvidia A100 1.4 到 2.4 倍的性能。
還有許多 HPC 基準(zhǔn)測(cè)試可以模擬真實(shí)世界的代數(shù)、宇宙學(xué)和粒子交互工作負(fù)載。在這些情況下,AMD 的頂級(jí)計(jì)算加速器比 Nvidia 的旗艦加速器快 1.9 – 3.05 倍。
請(qǐng)記住,與 Nvidia 的 A100 相比,AMD 的 MI250X 在高時(shí)鐘下運(yùn)行的 ALU 數(shù)量要多得多,新卡顯著優(yōu)于其競(jìng)爭(zhēng)對(duì)手也就不足為奇了。同時(shí),值得注意的是,AMD 沒(méi)有運(yùn)行任何 AI 基準(zhǔn)測(cè)試。
新架構(gòu),更多 ALU
AMD 的 Instinct MI200 加速器由該公司最新的 CDNA 2 架構(gòu)提供支持,該架構(gòu)針對(duì)高性能計(jì)算 (HPC) 進(jìn)行了優(yōu)化,將為即將推出的 Frontier 超級(jí)計(jì)算機(jī)提供動(dòng)力,該超級(jí)計(jì)算機(jī)有望提供約 1.5 FP64 TFLOPS 的持續(xù)性能 。MI200 系列 OAM 板使用由兩個(gè)圖形計(jì)算芯片 (GCD) 組成的AMD Aldebaran 計(jì)算 GPU ,每個(gè)芯片包含 291 億個(gè)晶體管,與 Navi 21 內(nèi)部的 268 億個(gè)晶體管相比略多。GCD 是使用臺(tái)積電的 N6 制造工藝制造的,這使 AMD 能夠通過(guò)封裝或者在更多層上使用極紫外光刻技術(shù)增加更多晶體管,并簡(jiǎn)化生產(chǎn)過(guò)程。
AMD 的旗艦 Instinct MI250X 加速器具有 14,080 個(gè)流處理器(220 個(gè)計(jì)算單元),并配備 128GB 的 HBM2E 內(nèi)存。MI250X 計(jì)算 GPU 的額定性能為 95.7 FP32/FP64 TFLOPS(矩陣運(yùn)算性能相同)以及 383 BF16/INT8/INT4 TFLOPS/TOPS 性能。
相比之下,英偉達(dá)的 A100 GPU 由 542 億個(gè)晶體管組成,擁有 6,912 個(gè)活動(dòng) CUDA 核心,并搭配 80GB 的 HBM2E 內(nèi)存。在性能方面,加速器提供 19.5 FP32 TFLOPS、9.7 FP64 TFLOPS、19.5 FP64 Tensor TFLOPS、312 FP16/BF16 TFLOPS,以及高達(dá) 624 INT8 TOPS(或 1248 TOPS 稀疏)。
即使在紙面上,AMD 的 Instinct MI200 系列在傳統(tǒng) HPC 和矩陣工作負(fù)載中也能提供更高的性能,但 Nvidia 在 AI 案例中具有優(yōu)勢(shì)。在 AMD MI200 系列的情況下,這些峰值性能數(shù)字可以用相當(dāng)高的 ALU 數(shù)量來(lái)解釋
為了展示其旗艦計(jì)算加速器 Instinct MI250X 128GB HBM2E 的性能,AMD 使用了基于 1P 或 2P 64 核 AMD EPYC 7742 的系統(tǒng),配備了一個(gè)或四個(gè) AMD Instinct MI250X 128GB HBM2E 計(jì)算 GPU 或一個(gè)或四個(gè) Nvidia A100 80GB HBM2E。該公司使用了 AMD 優(yōu)化和 CUDA 優(yōu)化的軟件。
總結(jié)
根據(jù)其自己的數(shù)據(jù),目前,AMD 的 Instinct MI250X 是世界上性能最高的 HPC 加速器??紤]到 Aldebaran 擁有高達(dá) 14,080 個(gè) ALU 并且額定為 95.7 FP32/FP64 TFLOPS 性能,它確實(shí)是最快的計(jì)算 GPU。
與此同時(shí),AMD 推出了 Instinct MI250X,比 Nvidia 的 A100 晚了大約 1.5 年,比英特爾的 Ponte Vecchio 早了幾個(gè)月。2021 年的計(jì)算加速器的性能超過(guò)一年多前推出的競(jìng)爭(zhēng)對(duì)手是很自然的,但我們很好奇的是,這款 GPU 將如何與英特爾的超級(jí)計(jì)算機(jī)綁定計(jì)算 Ponte Vecchio GPU 相抗衡。