當(dāng)?shù)貢r(shí)間3月11日,Meta公司宣布,繼此前推出的兩代自研AI芯片MTIA(Meta Training and Inference Accelerators)系列(MTIA 100、MTIA 200)成功商用后,現(xiàn)在正在開(kāi)發(fā)四款全新的AI芯片,主要用于提升其生成式AI功能及內(nèi)容排名系統(tǒng)。

據(jù)介紹,這四款A(yù)I芯片分別為MTIA 300、MTIA 400、MTIA 450和MTIA 500,由Meta與博通公司合作開(kāi)發(fā),基于開(kāi)源的RISC-V構(gòu)架(采用的是Meta去年收購(gòu)的Rivos公司的內(nèi)核設(shè)計(jì)),并由全球領(lǐng)先的晶圓代工廠臺(tái)積電(TSMC)生產(chǎn)。目前,MTIA 300已經(jīng)開(kāi)始生產(chǎn),而其他三款芯片預(yù)計(jì)將在2027年初至年底之間出貨。
MTIA 100/200已部署數(shù)十萬(wàn)顆,兩年再推4款芯片
在ISCA'23和ISCA'25上,Meta就曾發(fā)表了研究論文,詳細(xì)介紹了前兩代MTIA芯片:MTIA 100和MTIA 200(以前稱為MTIA 1和MTIA 2i)。目前,Meta已經(jīng)在業(yè)務(wù)中部署了數(shù)十萬(wàn)個(gè)MTIA系列芯片,加入了許多內(nèi)部生產(chǎn)模型,并使用Llama等大型語(yǔ)言模型(LLM)測(cè)試了MTIA。
在MTIA 100和200推出之后,Meta正在連續(xù)開(kāi)發(fā)四代MTIA系列芯片,包括MTIA 300、MTIA 400、MTIA 450和MTIA 500。這些新芯片計(jì)劃在2026年或2027年部署,將覆蓋從排名和推薦(R?&R)推理擴(kuò)展到R?&R培訓(xùn)、通用GenAI工作負(fù)載和具有針對(duì)性優(yōu)化的GenAI推理。
Meta表示,人工智能模型的發(fā)展速度比傳統(tǒng)芯片開(kāi)發(fā)周期快。芯片設(shè)計(jì)基于預(yù)計(jì)的工作負(fù)載,但當(dāng)硬件投入生產(chǎn)時(shí)——通常是兩年后——這些工作負(fù)載可能已經(jīng)發(fā)生了實(shí)質(zhì)性的變化。與其下注并等待很長(zhǎng)一段時(shí)間,Meta故意采取了快速迭代的方法:即每一代MTIA芯片都建立在上一代之上,使用模塊化小芯片,結(jié)合最新的AI工作負(fù)載見(jiàn)解和硬件技術(shù),并以更短的節(jié)奏進(jìn)行部署。這種更緊密的循環(huán)使Meta的硬件更好地與不斷發(fā)展的模型保持一致,同時(shí)能夠更快地采用新技術(shù)。
具體來(lái)說(shuō),最新的四代MTIA系列芯片包括:
MTIA 300:經(jīng)濟(jì)高效的基礎(chǔ)
MTIA 300針對(duì)R?&R模型進(jìn)行了優(yōu)化,這是GenAI起飛前的主要Meta工作負(fù)載,其構(gòu)建的模塊為后續(xù)針對(duì)GenAI模型進(jìn)行優(yōu)化的芯片奠定了堅(jiān)實(shí)的基礎(chǔ)。
與前幾代產(chǎn)品相比,MTIA 300 的顯著特點(diǎn)還包括內(nèi)置網(wǎng)卡芯片、用于卸載通信任務(wù)的專用消息引擎以及用于歸約任務(wù)的近內(nèi)存計(jì)算。雖然最初是針對(duì) R?&R 訓(xùn)練進(jìn)行優(yōu)化的,但這些低延遲、高帶寬的通信組件為后續(xù) MTIA 芯片中高效的 GenAI 推理和訓(xùn)練奠定了基礎(chǔ)。

具體來(lái)說(shuō),MTIA 300 由一個(gè)計(jì)算芯片、兩個(gè)網(wǎng)絡(luò)芯片和多個(gè) HBM 內(nèi)存堆棧組成。每個(gè)計(jì)算芯片包含一個(gè)處理單元 (PE) 網(wǎng)格,其中一些 PE 具有冗余以提高良率。
每個(gè)PE包含:兩個(gè) RISC-V 向量核心、用于矩陣乘法的點(diǎn)積引擎、用于激活和元素級(jí)操作的特殊功能單元、用于累積和 PE 間通信的縮減引擎、DMA引擎用于本地暫存內(nèi)存的數(shù)據(jù)進(jìn)出。
具體配置參數(shù)方面,MTIA 300配備了216GB HBM;帶寬為6.1 TB/s;FP8/MX8 性能1.2 PFlops;BF16 性能 0.6 PFlops;加速器縱向擴(kuò)展域規(guī)模為16個(gè)節(jié)點(diǎn);縱向擴(kuò)展網(wǎng)絡(luò) 1 TB/s(單向帶寬);橫向擴(kuò)展網(wǎng)絡(luò)200 GB/s(單向帶寬);TDP為800W。
目前這款芯片正在生產(chǎn)中,用于R?&R培訓(xùn)。
MTIA 400:極具競(jìng)爭(zhēng)力的原始性能
MTIA 400主要是為了應(yīng)對(duì)GenAI需求的激增,以更好地支持GenAI模型,同時(shí)保持支持R?&R工作負(fù)載的能力。MTIA 400 相較于 MTIA 300 有了顯著提升,其 FP8 FLOPS 性能提升了 400%,HBM 帶寬提升了 51%。并且,MTIA 400具有72個(gè)加速器擴(kuò)展域,可提供與領(lǐng)先商業(yè)產(chǎn)品競(jìng)爭(zhēng)的高性能。
如果說(shuō),MTIA 300 是一款經(jīng)濟(jì)高效的產(chǎn)品,那么 MTIA 400 則是首款旨在不僅降低成本,而且提供與領(lǐng)先商用產(chǎn)品相媲美的原始性能的 MTIA 芯片。

MTIA 400集成了兩個(gè)計(jì)算芯片組,使計(jì)算密度翻倍,并且還支持增強(qiáng)版的 MX8 和 MX4,這兩種低精度格式對(duì)于高效的 GenAI 推理至關(guān)重要。一個(gè)機(jī)架可以包含 72 個(gè) MTIA 400,通過(guò)交換式背板連接,即可構(gòu)成一個(gè)單一的擴(kuò)展域。
具體參數(shù)方面,MTIA 400配備了288GB HBM;帶寬為 9.2TB/s;MX4性能 12 PFlops;FP8/MX8 性能 6 PFlops;BF16 性能 3 PFlops;加速器縱向擴(kuò)展域規(guī)模為72個(gè)節(jié)點(diǎn);縱向擴(kuò)展網(wǎng)絡(luò)1.2 TB/s(單向帶寬);橫向擴(kuò)展網(wǎng)絡(luò)100 GB/s(單向帶寬);TDP為1200W。
Meta已經(jīng)在實(shí)驗(yàn)室完成了MTIA 400的測(cè)試,并正計(jì)劃將其部署到Meta數(shù)據(jù)中心。
MTIA 450:GenAI推理的飛躍
考慮到GenAI推理需求的快速增長(zhǎng),Meta將MTIA 400升級(jí)到MTIA 450,通過(guò)在以下四個(gè)方面進(jìn)行改進(jìn),使其更適合 GenAI 推理:
將 HBM 帶寬比上一版本提高一倍,以加快解碼速度。
將 MX4 FLOPS 提高 75%,以加快混合專家 (MoE) 前饋網(wǎng)絡(luò) (FFN) 的計(jì)算速度。
引入硬件加速,使注意力機(jī)制和 FFN 計(jì)算更加高效(例如,通過(guò)緩解 Softmax 和 FlashAttention 的瓶頸)。
低精度數(shù)據(jù)類型的創(chuàng)新。
MTIA 450 超越了 FP8/MX8,其 MX4 FLOPS 是 FP16/BF16 的 6 倍,這體現(xiàn)了低精度 FLOPS 對(duì)推理的重要性。MTIA 450 還支持混合低精度計(jì)算,而無(wú)需承擔(dān)數(shù)據(jù)類型轉(zhuǎn)換帶來(lái)的軟件開(kāi)銷。此外,它還引入了Meta自主研發(fā)的數(shù)據(jù)類型創(chuàng)新,在保證模型質(zhì)量的同時(shí)提升 FLOPS,且對(duì)芯片面積的影響極小。

具體參數(shù)方面,MTIA 400配備了288GB HBM;帶寬為18.4 TB/s;MX4性能21 PFlops;FP8/MX8 性能 7 PFlops;BF16 性能 3.5 PFlops;加速器縱向擴(kuò)展域規(guī)模依然是72個(gè)節(jié)點(diǎn);縱向擴(kuò)展網(wǎng)絡(luò)1.2 TB/s(單向帶寬);橫向擴(kuò)展網(wǎng)絡(luò)100 GB/s(單向帶寬);TDP為1400W。
MTIA 450計(jì)劃于2027年初大規(guī)模部署。
MTIA 500:以更少的資源實(shí)現(xiàn)更多GenAI推理
隨著 GenAI 推理需求的持續(xù)增長(zhǎng),Meta將 MTIA 450 升級(jí)為 MTIA 500,以更具成本效益的方式支持 GenAI 推理。
MTIA 500 的 HBM 帶寬提升了 50%,HBM 容量提升了高達(dá) 80%,MX4 FLOPS 提升了 43%。MTIA 500 進(jìn)一步強(qiáng)化了模塊化理念,采用 2x2 的小型計(jì)算芯片組配置,周圍環(huán)繞著多個(gè) HBM 堆棧和兩個(gè)網(wǎng)絡(luò)芯片組,以及一個(gè)提供 PCIe 連接以連接主機(jī) CPU 和橫向擴(kuò)展網(wǎng)卡的 SoC 芯片組。與 MTIA 450 一樣,MTIA 500 也引入了額外的硬件加速和數(shù)據(jù)類型創(chuàng)新,以解決 GenAI 推理中遇到的瓶頸問(wèn)題。

具體參數(shù)方面,MTIA 500配備了384-512 GB HBM,帶寬為 27.6 TB/s;MX4性能 30 PFlops;FP8/MX8 性能 10 PFlops;BF16 性能 5 PFlops;加速器縱向擴(kuò)展域規(guī)模為72個(gè)節(jié)點(diǎn);縱向擴(kuò)展網(wǎng)絡(luò)1.2 TB/s(單向帶寬);橫向擴(kuò)展網(wǎng)絡(luò)100 GB/s(單向帶寬);TDP為1700W。
MTIA 500計(jì)劃于2027年大規(guī)模部署。

總結(jié)來(lái)看,從MTIA 300到MTIA 500,HBM帶寬增加了4.5倍,計(jì)算性能(FLOPS)增加了25倍,這一切都將發(fā)生在不到兩年的時(shí)間里,這一快速發(fā)展凸顯了Meta加速戰(zhàn)略的好處。
Meta的策略:高速迭代、推理優(yōu)先、原生 PyTorch
在競(jìng)爭(zhēng)激烈的AI芯片領(lǐng)域,Mtea的MTIA戰(zhàn)略基于三大支柱:高速迭代芯片開(kāi)發(fā)、以推理為先導(dǎo)、通過(guò)基于 PyTorch 等行業(yè)標(biāo)準(zhǔn)進(jìn)行原生構(gòu)建,實(shí)現(xiàn)無(wú)縫采用。
高速迭代
鑒于人工智能創(chuàng)新日新月異,Meta已具備大約每6個(gè)月推出一款新芯片的能力。這種快速的研發(fā)速度帶來(lái)了兩個(gè)優(yōu)勢(shì):
快速適應(yīng)不斷發(fā)展的 AI 技術(shù):隨著新的模型架構(gòu)、低精度數(shù)據(jù)類型和服務(wù)技術(shù)的出現(xiàn),Mtea可以針對(duì)這些進(jìn)步優(yōu)化其最新的芯片,為重要操作引入硬件加速,并解決計(jì)算、內(nèi)存和 I/O 之間的瓶頸轉(zhuǎn)移。
快速采用最新硬件技術(shù):例如最新的工藝節(jié)點(diǎn)、HBM 和封裝技術(shù)。
Meta通過(guò)貫穿所有層面的可重用模塊化設(shè)計(jì)實(shí)現(xiàn)高速發(fā)展:從芯片組、機(jī)箱、機(jī)架到網(wǎng)絡(luò)基礎(chǔ)設(shè)施。Meta將加速器架構(gòu)為芯片組系統(tǒng)——獨(dú)立的、可重用的計(jì)算、I/O 和網(wǎng)絡(luò)構(gòu)建模塊。由于每個(gè)芯片組都可以單獨(dú)升級(jí),Meta可以在數(shù)月內(nèi)而非數(shù)年內(nèi)完成改進(jìn)。此外,不同的芯片組可以在不同的工藝節(jié)點(diǎn)上制造,從而在滿足性能和功耗要求的同時(shí),最大限度地降低成本。
在系統(tǒng)層面,MTIA 400、450 和 500 均采用相同的機(jī)箱、機(jī)架和網(wǎng)絡(luò)基礎(chǔ)設(shè)施。因此,每一代新芯片都可以安裝在相同的物理空間內(nèi),從而加快從芯片設(shè)計(jì)到生產(chǎn)部署的過(guò)渡。Meta模塊化、可復(fù)用的設(shè)計(jì)也最大限度地減少了開(kāi)發(fā)和部署多代芯片所需的資源,而這些高度優(yōu)化的芯片所帶來(lái)的優(yōu)勢(shì)足以抵消開(kāi)發(fā)和部署過(guò)程中所消耗的資源。
推理優(yōu)先
主流GPU通常是為最苛刻的工作負(fù)載——大規(guī)模GenAI預(yù)訓(xùn)練——而設(shè)計(jì)的,然后才被應(yīng)用于其他工作負(fù)載,例如GenAI推理,而后者往往成本效益較低。Meta采用不同的方法:MTIA 450和500首先針對(duì)GenAI推理進(jìn)行優(yōu)化,然后可根據(jù)需要用于支持其他工作負(fù)載,包括R?&R訓(xùn)練和推理,以及GenAI訓(xùn)練。這使得MTIA能夠很好地適應(yīng)預(yù)期中GenAI推理需求的增長(zhǎng)。
無(wú)摩擦采用
MTIA 從一開(kāi)始就基于行業(yè)標(biāo)準(zhǔn)的軟硬件生態(tài)系統(tǒng)——PyTorch、vLLM、Triton 和開(kāi)放計(jì)算項(xiàng)目 (OCP)——原生構(gòu)建,而非將兼容性和可移植性視為事后考慮。由于PyTorch 起源于 Meta,并且已成為應(yīng)用最廣泛的機(jī)器學(xué)習(xí)框架,MTIA 自然而然地采用了 PyTorch 原生架構(gòu)。PyTorch、vLLM 和 Triton 共同為開(kāi)發(fā)者提供了一套熟悉的軟件棧,支持開(kāi)源社區(qū)資源的復(fù)用,并簡(jiǎn)化了模型遷移。除了行業(yè)標(biāo)準(zhǔn)的軟件之外,MTIA 的系統(tǒng)和機(jī)架解決方案也符合 OCP 標(biāo)準(zhǔn),從而能夠無(wú)縫部署到數(shù)據(jù)中心。
MTIA 軟件棧:一種基于 PyTorch 的原生方法
MTIA 軟件棧在所有芯片代際中都能提供一致的編程體驗(yàn)。它采用 PyTorch 原生架構(gòu),為開(kāi)發(fā)者提供了一個(gè)熟悉且完整的生態(tài)系統(tǒng)。

該軟件棧的關(guān)鍵屬性包括:
無(wú)縫模型部署: MTIA 同時(shí)支持 eager 模式和 graph 模式。在 graph 模式下,它直接與PyTorch 2.0 的編譯流程集成。開(kāi)發(fā)者可以使用熟悉的工具——torch.compile 和 torch.export——來(lái)捕獲和優(yōu)化模型圖。無(wú)需對(duì) MTIA 進(jìn)行任何特定的重寫(xiě)即可啟用模型。這種可移植性使得Meta的生產(chǎn)模型能夠同時(shí)部署在 GPU 和 MTIA 上。
編譯器:在 PyTorch 前端之下,MTIA 專用編譯器將高級(jí)圖表示轉(zhuǎn)換為高度優(yōu)化的設(shè)備代碼。圖編譯器基于 Torch FX IR 和 TorchInductor 構(gòu)建。內(nèi)核編譯器和底層后端基于 Triton、MLIR 和 LLVM,并針對(duì) MTIA 進(jìn)行了增強(qiáng)和優(yōu)化。Meta改進(jìn)并定制了 TorchInductor 的 Triton 代碼生成和內(nèi)核融合功能,使其更適用于 MTIA,并引入了 MTIA 感知的 MLIR 方言和 Triton DSL 擴(kuò)展。這些擴(kuò)展可選擇性地用于對(duì)性能要求極高的內(nèi)核。編譯器堆棧具有自動(dòng)調(diào)優(yōu)功能,可使用多種編譯策略自動(dòng)優(yōu)化工作負(fù)載。
內(nèi)核編寫(xiě): MTIA 支持編譯器驅(qū)動(dòng)的內(nèi)核生成和融合,支持使用 Triton 和 C++ 進(jìn)行自動(dòng)生成和用戶手動(dòng)內(nèi)核編寫(xiě),并提供內(nèi)核自動(dòng)調(diào)優(yōu)和優(yōu)化功能。此外,Meta還構(gòu)建了智能體 AI 系統(tǒng)來(lái)實(shí)現(xiàn)內(nèi)核生成的自動(dòng)化。
通信與傳輸: MTIA 的通信庫(kù) Hoot Collective Communications Library (HCCL) 與 GPU 通信庫(kù)類似,但具有多項(xiàng)差異化優(yōu)勢(shì)。它利用 MTIA 芯片內(nèi)置的網(wǎng)絡(luò)芯片實(shí)現(xiàn)高效通信,將集體操作卸載到專用消息引擎,并使用近內(nèi)存計(jì)算來(lái)加速需要大量歸約的集體操作。HCCL 還支持融合計(jì)算內(nèi)核和集體內(nèi)核以最大限度地降低延遲。最后,其傳輸協(xié)議棧針對(duì)低延遲事務(wù)進(jìn)行了優(yōu)化,并將整個(gè)數(shù)據(jù)路徑卸載到主機(jī),從而降低主機(jī)協(xié)議棧的運(yùn)行時(shí)開(kāi)銷。
運(yùn)行時(shí)和固件: MTIA 運(yùn)行時(shí)管理設(shè)備內(nèi)存、內(nèi)核調(diào)度以及跨多個(gè)設(shè)備的執(zhí)行協(xié)調(diào)。它支持即時(shí)執(zhí)行模式和圖執(zhí)行模式。此外,它還以 Inductor 原生的即時(shí)圖模式編排計(jì)算和集體操作。這種方法能夠?qū)⒂?jì)算和通信一起捕獲和調(diào)度,從而以最小的開(kāi)銷提供類似 GPU 的體驗(yàn)。運(yùn)行時(shí)與基于 Rust 的用戶空間驅(qū)動(dòng)程序交互,而不是傳統(tǒng)的內(nèi)核級(jí) Linux 驅(qū)動(dòng)程序。固件采用裸機(jī) Rust 編寫(xiě),具有低延遲和高性能,并內(nèi)置內(nèi)存和線程安全機(jī)制。
vLLM 支持: vLLM 的插件架構(gòu)使其能夠輕松與 MTIA 集成。Meta的 MTIA 插件使用 MTIA 專用內(nèi)核替換了 FlashAttention 和融合 LayerNorm 等重要運(yùn)算符。通過(guò)自定義的 torch.compile 后端支持圖模式執(zhí)行。MTIA 繼承并受益于 vLLM 的諸多特性,例如預(yù)填充解碼分解和連續(xù)批處理。
生產(chǎn)工具:為了確保數(shù)十萬(wàn)顆 MTIA 芯片在生產(chǎn)環(huán)境中可靠運(yùn)行,MTIA 提供與主流 GPU 同類產(chǎn)品相媲美的生產(chǎn)級(jí)監(jiān)控、性能分析和調(diào)試工具,同時(shí)還提供獨(dú)特的功能,例如跨主機(jī)和設(shè)備的全棧式、大規(guī)??捎^測(cè)性,涵蓋軟件、固件和硬件層面。其調(diào)試器支持精細(xì)控制,包括 PE 級(jí)別的斷點(diǎn)和協(xié)同單步執(zhí)行。
總結(jié)
雖然Meta大規(guī)模部署的前兩代 MTIA 芯片已展現(xiàn)出強(qiáng)大的 R?&R 推理能力,但Meta預(yù)計(jì)最新的四代產(chǎn)品——包括近期發(fā)布或計(jì)劃于 2026 年或 2027 年發(fā)布的產(chǎn)品——將進(jìn)一步拓展 GenAI 推理的邊界,實(shí)現(xiàn) R?&R 訓(xùn)練,并為未來(lái)的 GenAI 訓(xùn)練奠定基礎(chǔ)。
Meta表示,每一代 MTIA 芯片都汲取了前代產(chǎn)品的經(jīng)驗(yàn),與其軟件棧協(xié)同設(shè)計(jì),并以未來(lái) AI 模型的發(fā)展軌跡為指導(dǎo)。MTIA 芯片的模塊化、多芯片設(shè)計(jì)和垂直整合的協(xié)同設(shè)計(jì)方法,能夠在保持系統(tǒng)級(jí)兼容性的同時(shí),實(shí)現(xiàn)快速且持續(xù)的性能提升。這些產(chǎn)品將共同助力我們實(shí)現(xiàn)目標(biāo):為平臺(tái)上的每一位用戶提供當(dāng)今乃至未來(lái)最強(qiáng)大的 AI 體驗(yàn)。

