英偉達在其 Arm CPU 的推動下又獲得了另一個高調(diào)的聘用——這一次是在英特爾的眼皮子底下。
據(jù)報道, 英特爾以色列工廠的設(shè)計經(jīng)理,也是成功的 Tiger Lake 架構(gòu)背后的經(jīng)理之一Rafi Marom,最近跳槽到位于該國的 Nvidia 公司。他作為高級 CPU 總監(jiān)的新角色使他成為公司未來 Arm 產(chǎn)品的主要架構(gòu)師之一。
在其斥資數(shù)十億美元收購這家總部位于英國的公司失敗后,英偉達似乎正在將其Arm 核心設(shè)計能力加倍,因為它旨在進一步推動極限。英偉達需要其芯片設(shè)計來服務(wù)于它的目的;另一方面,Arm 押注于可應(yīng)用于多個產(chǎn)品類別和合作伙伴的通用設(shè)計。
挖角——或與現(xiàn)有承包商仍有聯(lián)系的合同人員——是一種相對常見的半導(dǎo)體行業(yè)做法。雖然該行業(yè)一直在顯示出巨大的增長——而且這種增長預(yù)計只會加速——但缺乏經(jīng)過適當培訓(xùn)的高水平技術(shù)工人是一個真正的問題。英特爾、AMD、英偉達甚至蘋果公司都經(jīng)常在他們之間雇傭貢獻者,這加強了他們的員工隊伍和設(shè)計能力,并剝奪了競爭對手的寶貴資產(chǎn)。
預(yù)計英偉達將利用 Marom 的知識來設(shè)計英偉達未來基于 Arm 的 CPU 產(chǎn)品。這些設(shè)計將在公司的GraceHopper Superchip之后推出,該芯片利用 72 個基于 Neoverse 的 Arm v9 內(nèi)核,并聲稱與典型的 x86 CPU 設(shè)計相比性能提高了 10 倍。
這一聲明自然引起了英特爾的注意,促使該公司認識到英偉達的目標是在 CPU 領(lǐng)域與這家藍色巨頭展開競爭。英特爾甚至設(shè)立了數(shù)十億美元的基金,旨在留住和吸引新人才,以防止此類情況發(fā)生。然而具有諷刺意味的是,英特爾自己的另一家公司現(xiàn)在將盡最大努力推進英偉達的目標。
英偉達發(fā)力CPU,背后打什么算盤?
在一年左右的時間里,隨著“Grace”Arm 服務(wù)器 CPU 的推出,Nvidia 的任何人相信或大聲說并非數(shù)據(jù)中心中的每個工作負載都需要 GPU 加速并不是異端邪說。
在某種程度上,隨著 BlueField 系列基于 Arm 的 DPU 處理器的采用,這種轉(zhuǎn)變已經(jīng)在 Nvidia 的系統(tǒng)架構(gòu)中發(fā)生。但隨著 Grace CPU 的發(fā)布,在一年前的 GTC 2021 大會上進行了預(yù)覽,在2023 年上半年的某個時候,如果一切順利,Nvidia 將立即成為 Arm 服務(wù)器芯片的可靠供應(yīng)商,可以在條款上與之競爭每瓦的性能,我們假設(shè),每瓦的每美元成本,同時具有最好的 X86、Arm 或 Power 架構(gòu)。 對于英偉達來說,從 GPU 加速器供應(yīng)商轉(zhuǎn)變?yōu)橹鳈C CPU 供應(yīng)商——以及擁有大量自己的向量數(shù)學(xué)能力的主機 CPU ——這將是一個重要事件。 非常重要的事情——將能夠運行整個 Nvidia HPC 和 AI 堆棧,包括編譯器、庫和其他系統(tǒng)軟件。Grace CPU 將與 Hopper GPU 完全匹敵,COBOL 發(fā)明前美國海軍少將可能會在隱喻意義上表示贊同。
十多年來,我們一直在倡導(dǎo) Nvidia 將 Arm 服務(wù)器芯片推向市場,當 Nvidia 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Jensen Huang在 1 月份宣布“Project Denver”Arm 服務(wù)器計劃時,我們對這種可能性感到興奮。2011 年,第一波 Arm 服務(wù)器芯片試圖沖破數(shù)據(jù)中心的大門。2014 年,當兩個 Denver Arm 內(nèi)核出現(xiàn)在 Tegra K1 “superchip” 混合 CPU-GPU 芯片上時,街上的消息是 Nvidia 提出了自己的 CPU 指令集架構(gòu) (ISA),并在此基礎(chǔ)上模擬 Arm ISA,而且,重要的是,它也能夠模擬 X86 ISA。(Transmeta 早在 20 年前就嘗試過這樣做,還記得嗎?)想象一下,如果 Nvidia 推出了可以模擬 Xeon 或 Opteron(現(xiàn)在是 Epyc)并且還可以運行 Arm 工作負載的全功能 Denver 服務(wù)器芯片,那么可能會引發(fā)訴訟,也許,它自己的原生模式。。 . .
但遺憾的是,我們不得不再等十幾年,英偉達以 400 億美元從軟銀收購 Arm Holdings 的交易落空,英偉達的更清潔的 Arm 服務(wù)器芯片計劃才出現(xiàn)。我們認為這是 Nvidia 在提出 SoftBank 提議之前最初的計劃——我們和 Huang 開玩笑說我們想要 Nvidia 的 Arm 服務(wù)器芯片,但 Nvidia 不需要Victor Kiam并購買整個公司。
也就是說,我們了解整個 Arm 的千載難逢的機會——從財務(wù)上來講,這是一個很好的機會,但主要是 Nvidia 股票,它像現(xiàn)金一樣支出,但實際上不是現(xiàn)金。而且我們還完全理解了未來 Aarmv9 架構(gòu)的影響,以及許多機器學(xué)習(xí)工作——當然大部分推理和可能的一些訓(xùn)練——將保留在 CPU 上并且不會遷移到 GPU 或其他加速器這一事實。正如我們在 2021 年 3 月仔細研究 Armv9 公告時所說的那樣就在 Grace 的努力獲得成功后的幾周和 Arm Holdings 交易宣布的 8 個月后,英偉達想要收購 Arm:它可以獲得矢量、矩陣和數(shù)字信號處理知識產(chǎn)權(quán)的許可資金,這將是添加到各種 CPU 正是因為系統(tǒng)架構(gòu)師不想進行 GPU 卸載。
進行任何類型的卸載都存在編碼和安全隱患——加密加速器、在線 FPGA 加速器或 GPU 加速器——許多企業(yè)和組織不想處理它們。那些需要 10 倍或 100 倍更好的 AI 性能和 10 倍更好的 HPC 性能的人別無選擇,只能使用 GPU——除非他們想制造具有大量內(nèi)核和大量矢量引擎的定制 CPU。富士通在日本 RIKEN 實驗室的“Fugaku”超級計算機上使用 A64FX Arm CPU 做到了這一點,國家并行計算機工程與技術(shù)研究中心為無錫國家超級計算中心的“太湖之光”和“海洋之光”超級計算機分別配備了神威SW26010和SW26010- pro處理器。這兩款機器都有令人印象深刻的結(jié)果。但高性價比和低功耗并不是這兩款機器的特點。(Fugaku三年前在 Green500 超級計算機排名中名列前茅,但已被英偉達“Ampere”A100 GPU 加速器加速的一長串機器推下榜單。“Hopper”H100 GPU 加速器只會讓這些比較變得更糟,而且隨著據(jù)我們所知,目前還沒有 A64FX-2 芯片與 A64FX 相比工藝縮小、時鐘速度提高、功率降低或價格/性能改進。
盡管如此,許多企業(yè)和組織仍將做出選擇,要么支付數(shù)百萬美元將其 C、C++ 和 Fortran 代碼拆開以進行 GPU 卸載,要么支付更多電費并花費更長的時間來得出答案并在 zippy CPU 上運行 AI 工作負載,該 CPU 可以很好地使用內(nèi)存子系統(tǒng)進行矩陣和矢量數(shù)學(xué)運算,但與 GPU 加速器的skinny sprinter HBM 內(nèi)存相比,內(nèi)存子系統(tǒng)具有大量內(nèi)存。
這就是 Grace CPU 對 Nvidia 如此重要的原因之一,Grace 將運行 Nvidia 為在 GPU 上運行而創(chuàng)建的所有軟件的聲明也是如此。
讓我們直接從 Huang 的 GTC 2022 主題演講的頂部寫下這一點:“Grace 將在人工智能、數(shù)據(jù)分析、科學(xué)計算和超大規(guī)模計算方面表現(xiàn)出色,Grace 將受到 Nvidia 的所有軟件平臺的歡迎——Nvidia RTX、HPC、英偉達 AI 和 Omniverse?!?/p>
Nvidia 加速計算高級總監(jiān) Paresh Kharya 對此更明確一點,因為在 Grace 上受到歡迎的軟件與在 Grace上運行的軟件不同:“我們正在按計劃執(zhí)行我們的 CPU 路線圖,并且Grace CPU 還將運行 Nvidia 的所有計算堆棧,包括 Nvidia RTX、HPC、Nvidia AI 和 Omniverse,這是我們在產(chǎn)品中使用 Arm CPU 的十多年旅程的延續(xù),包括三年前的一個關(guān)鍵里程碑,當時我們宣布將 CUDA 以及我們的全套 HPC 和 AI 軟件引入 Arm?!?/p>
這是我們了解到的關(guān)于 Grace CPU 的第一個重要的新事物。如果客戶想要它,它可以獨立運行,并且它可以進行任何類型的計算,就 Nvidia 而言,GPU 可以做到。
第二個重要的事情是,運行 HPC 或 AI 工作負載的混合 CPU-GPU 系統(tǒng)需要主機處理器,它們需要 CPU 和 GPU 之間更緊密的耦合,并且它們需要基于這兩種設(shè)備中盡可能相似技術(shù)的一致內(nèi)存。這是迄今為止,尚未完成的事情。藍色巨人用 Power9 芯片展示了它上面有一對 NVLink 端口,它可以在具有 HBM2 內(nèi)存的 Nvidia V100 GPU 網(wǎng)絡(luò)和 Power9 芯片上的 DRAM 之間相對無縫地共享內(nèi)存。但是帶寬并不是那么平衡。CPU 對自己內(nèi)存的訪問速度相對較慢,它成為機器中 GPU 集群的一種 DRAM 控制器,它們之間的對話速度要快得多。不同的是,進入 GPU 的 CPU 內(nèi)存帶寬為 64 GB/秒,而 GPU 相互通信時的帶寬為 8,000 GB/秒。(這是一個假設(shè)的比較,使用了每張卡運行速度為 2 TB/秒的 HBM2e 內(nèi)存,而不是運行速度為 3 TB/秒的高端 Hopper H100 封裝中的 HBM3 內(nèi)存。)
正如我們在一年前展示的那樣,通過結(jié)合 Grace-Hopper 混合芯片,Grace CPU 可以鏈接到它們的低功耗 DDR5 內(nèi)存(它們像 GPU 加速器上的 HBM 內(nèi)存一樣在封裝上安裝),NVLink 端口加起來多達500 GB/秒的總帶寬,在 Grace CPU 集合之間有 500 GB/秒的 NVLink 端口,因此它們可以共享數(shù)據(jù),并且在 Grace CPU 和 Hopper GPU 之間也有 500 GB/秒的鏈接。這就是 Nvidia 現(xiàn)在將其稱為 NVLink Chip to Chip,或簡稱為 NVLink C2C,它首次提供許可,以便其他芯片可以配備它。再一次,正如我們一年前所說:這種架構(gòu) Nvidia 可能正在創(chuàng)建 NVLink 內(nèi)存,NVLink SerDes 直接鏈接到某種緩沖 LPDRR5 內(nèi)存,就像 IBM 在 Power10 芯片中使用自己的信令 SerDes 作為 NUMA、I/O 和帶有緩沖 DDR5 內(nèi)存的內(nèi)存鏈接。
目前尚不清楚英偉達是否會將 Grace CPU 作為獨立產(chǎn)品出售給超大規(guī)模制造商、云構(gòu)建商、OEM 或 ODM 以創(chuàng)建自己的系統(tǒng)。在這一點上,我們知道有兩種不同的 Grace 變體即將上市,它們看起來像是高端 Hopper GPU 加速器中使用的 SXM5 外形尺寸的變體:
上圖左側(cè)是 Grace-Hopper 模塊,將 CPU 和 GPU 通過 NVLink 緊密耦合在一個包中,右側(cè)是一對 Grace CPU,每個都有 72 個內(nèi)核,512 GB 主存和 500 GB/秒的主內(nèi)存帶寬。
如果您在下面非常仔細地查看 Grace 裸片的細節(jié)。
然后你會看到每個 Grace die 都有四個象限的內(nèi)核。其中兩個象限各有 18 個內(nèi)核,兩個象限各有 24 個內(nèi)核,這是一個奇怪的比例,但確實如此。每個裸片有 84 個內(nèi)核,看起來很容易擴展到 96 個內(nèi)核,并在兩個象限中增加了另一行 12 個內(nèi)核。在上面的模型中,芯片彼此旋轉(zhuǎn) 180 度,這對于整個封裝的平衡原因可能很重要。
每個 Grace die 都有 8 組 LPDDR5X 內(nèi)存,我們假設(shè)它們來自三星,如果是這樣的話,它的運行頻率為 4.23 GHz,并且似乎在八個內(nèi)存通道上提供了 62.5 GB/秒的帶寬。Nvidia 安裝在 Grace 封裝上的 LPDDR5X 內(nèi)存具有 ECC 錯誤檢測和糾正清理功能,這是服務(wù)器工作負載所必需的。因此,在 Grace-Grace 對中,CPU 芯片與其主內(nèi)存之間有 1 TB 的內(nèi)存和總計 1 TB/秒的內(nèi)存帶寬。(據(jù)我們所知,兩個 Grace 芯片之間有一個 900 GB/秒的 NVLink 端口。)兩個 Grace 芯片上還有 396 MB 的 L3 高速緩存,每個 Grace 芯片 198 MB,每個內(nèi)核 2.75 MB . 如果緩存的產(chǎn)量是 100%,那就是。如果緩存的產(chǎn)量不是 100%,因為 CPU 的產(chǎn)量不是只有 84 個核心中的 72 個處于活動狀態(tài),
目前尚不清楚 Grace CPU 中的內(nèi)核是什么,但我們確信它們實現(xiàn)了 Armv9 指令集,并且我們認為它將成為市場上首批這樣做的 CPU 之一。(我們預(yù)計 Armv9 Graviton4 將在今年 11 月推出,如果 Amazon Web Services 保持其每年發(fā)布本土 CPU 的節(jié)奏,并從 2023 年初開始向其云中發(fā)貨。)但“波塞冬”平臺似乎不太可能以及它們的 N3 和 V2 內(nèi)核(這些是我們對Gravitron3 中使用的“Zeus”V1 Armv8.9 內(nèi)核和“Perseus”N2 Armv9 內(nèi)核的繼任者的命名,目前還沒有人發(fā)貨) 將準備好被扔進格蕾絲模具中。但是,Nvidia 總是有可能創(chuàng)建一個定制的 Armv9 內(nèi)核,該內(nèi)核具有兩個 256 位寬的 SVE2 向量,并且還使用其他 Armv9 功能。畢竟,Nvidia 不必等待 Arm 將 Poseidon 內(nèi)核投入該領(lǐng)域,它也可以做各種定制的 ISA 工作,就像多年前在 Project Denver 所做的那樣。
不要假設(shè)它們只是 Perseus N2 核心就是我們所說的。展望未來,即使 Grace 1 芯片確實使用 N2 內(nèi)核,也不要假設(shè) Grace 2 不會是定制內(nèi)核。Nvidia 在定制方面非常重視。我們有理由確定 Grace 將由臺積電以 5 納米工藝實現(xiàn)——比 Nvidia 在 Hopper GPU 上使用的定制 4N 工藝略胖——但如果 Grace 也在定制中實現(xiàn)也不要感到驚訝4N 工藝縮小模具并降低性能。
憑借Grace-Grace double-whammy模塊,Nvidia 預(yù)計該芯片將在 SPECrate2017_int_base 整數(shù)基準測試中提供超過 740 的評級。很難猜測 Grace 單元的時鐘速度可能在哪里,但是兩個 CPU(包括內(nèi)存)的功耗只有 500 瓦,我們預(yù)計它在 2 GHz 左右,可能高達 2.3 GHz。如果是這種情況,那么這兩個 128 位 SVE2 FMA 向量單元每個內(nèi)核每個時鐘可以執(zhí)行 8 次浮點運算,即在 2 GHz 和 2.3 GHz 上運行的浮點數(shù)學(xué)運算中,在 FP64 雙精度下為 2.3 teraflops 和 2.65 teraflops。這不是很大,請注意。但它與許多其他 CPU 具有競爭力,尤其是那些針對超大規(guī)模處理器的 CPU。也就是說,我們認為 Nvidia 很有可能希望在其 Grace 內(nèi)核中擁有一對 256 位 SVE2 向量,以將浮點性能提高一倍。這將使其與來自 AWS 的 Graviton3 相提并論,后者使用針對 HPC 和 AI 工作負載的“Zeus”V1 內(nèi)核。
我們會看到的。
這將我們帶到了 Grace-Hopper 混合 CPU-GPU 模塊:
這基本上是卡上完整的加速計算單元。除了用于軟件和暫存器的閃存以及與外部世界的鏈接之外,它不需要任何其他東西。默認情況下,運行速度為 900 GB/秒的 NVLink 端口存在。目前尚不清楚 Grace-Hopper 模塊中將使用哪種 Hopper 芯片,但我們強烈懷疑它將是 GPU 的減速版本,就像在 Hopper H100 GPU 加速器的 PCI-Express 5.0 版本中使用的那樣,它具有其 80 GB 的 HBM3 內(nèi)存提供 2 TB/秒的帶寬。這與 Nvidia 一年前為 Grace 制定的概述相吻合,GPU 及其 HBM3 內(nèi)存堆棧僅消耗 350 瓦。這意味著 Grace-Hopper 封裝的功耗約為 600 瓦,總內(nèi)存為 592 GB——略低于上表所示的 600 GB,但 Nvidia 正在四舍五入。
需要記住的一點是,Huang 在他的主題演講中表明,Grace GPU 和 Hopper GPU 的比率不是靜態(tài)的。當涉及到系統(tǒng)架構(gòu)時,這將是極其有限的,因為并非所有工作負載都具有相同的 CPU 與 GPU 比率。以下是黃展示的一些可能性:
左側(cè)是帶有 400 Gb/sec ConnectX-7 適配器的 Grace 模塊,可以安全地假設(shè)每個計算模塊如果在整個系統(tǒng)中共享數(shù)據(jù)都需要自己的網(wǎng)絡(luò)接口。NVLink 將用于在一個節(jié)點內(nèi)將這些組件捆綁在一起,如果看到 Nvidia 提出在盒子內(nèi)的 NVSwitch 上運行的可組合性軟件以及跨盒子的 NVLink Switch 以使 CPU 和 GPU 模塊的機架可組合,這將是一件有趣的事情。(我們將對此進行思考。)
上圖中有趣的一個顯示了一個獨立的 Grace CPU,它具有 512 GB 內(nèi)存,連接到 SXM5 外形尺寸的兩個獨立 Hopper GPU。這看起來像一個 MiniITX 風(fēng)格的板。之后,它只是一個 Grace-Grace 模塊與兩個、四個或八個 SXM5 版本的 Hopper GPU 的組合。我們假設(shè)每對 GPU 都需要一個 NVSwitch 3 ASIC 將 CPU 鏈接到 GPU,而 Grace-Grace 模塊和 GPU 之間的鏈接可能還需要另一個 NVSwitch ASIC。(我們在這個故事中討論了新的 NVSwitch 和 NVLink Switch 設(shè)備和拓撲。)目前尚不清楚,但我們將找出并跟進。