123,123,123

Meta连发四款AI芯片每6个月升级一代

日期： 2026-03-16

來源：芯智讯

關(guān)鍵詞： META AI芯片 MTIA ASIC

當?shù)貢r間3月11日，Meta公司宣布，繼此前推出的兩代自研AI芯片 MTIA（Meta Training and Inference Accelerators）系列（MTIA 100、MTIA 200）成功商用后，現(xiàn)在正在開發(fā)四款全新的AI芯片，主要用于提升其生成式AI功能及內(nèi)容排名系統(tǒng)。

據(jù)介紹，這四款A(yù)I芯片分別為MTIA 300、MTIA 400、MTIA 450和MTIA 500，由Meta與博通公司合作開發(fā)，基于開源的RISC-V構(gòu)架（采用的是Meta去年收購的Rivos公司的內(nèi)核設(shè)計），并由全球領(lǐng)先的晶圓代工廠臺積電（TSMC）生產(chǎn)。目前，MTIA 300已經(jīng)開始生產(chǎn)，而其他三款芯片預(yù)計將在2027年初至年底之間出貨。

MTIA 100/200已部署數(shù)十萬顆，兩年再推4款芯片

在ISCA'23和ISCA'25上，Meta就曾發(fā)表了研究論文，詳細介紹了前兩代MTIA芯片：MTIA 100和MTIA 200（以前稱為MTIA 1和MTIA 2i）。目前，Meta已經(jīng)在業(yè)務(wù)中部署了數(shù)十萬個MTIA系列芯片，加入了許多內(nèi)部生產(chǎn)模型，并使用Llama等大型語言模型（LLM）測試了MTIA。

在MTIA 100和200推出之后，Meta正在連續(xù)開發(fā)四代MTIA系列芯片，包括MTIA 300、MTIA 400、MTIA 450和MTIA 500。這些新芯片計劃在2026年或2027年部署，將覆蓋從排名和推薦（R?&R）推理擴展到R?&R培訓(xùn)、通用GenAI工作負載和具有針對性優(yōu)化的GenAI推理。

Meta表示，人工智能模型的發(fā)展速度比傳統(tǒng)芯片開發(fā)周期快。芯片設(shè)計基于預(yù)計的工作負載，但當硬件投入生產(chǎn)時——通常是兩年后——這些工作負載可能已經(jīng)發(fā)生了實質(zhì)性的變化。與其下注并等待很長一段時間，Meta故意采取了快速迭代的方法：即每一代MTIA芯片都建立在上一代之上，使用模塊化小芯片，結(jié)合最新的AI工作負載見解和硬件技術(shù)，并以更短的節(jié)奏進行部署。這種更緊密的循環(huán)使Meta的硬件更好地與不斷發(fā)展的模型保持一致，同時能夠更快地采用新技術(shù)。

具體來說，最新的四代MTIA系列芯片包括：

MTIA 300：經(jīng)濟高效的基礎(chǔ)

MTIA 300針對R?&R模型進行了優(yōu)化，這是GenAI起飛前的主要Meta工作負載，其構(gòu)建的模塊為后續(xù)針對GenAI模型進行優(yōu)化的芯片奠定了堅實的基礎(chǔ)。

與前幾代產(chǎn)品相比，MTIA 300 的顯著特點還包括內(nèi)置網(wǎng)卡芯片、用于卸載通信任務(wù)的專用消息引擎以及用于歸約任務(wù)的近內(nèi)存計算。雖然最初是針對 R?&R 訓(xùn)練進行優(yōu)化的，但這些低延遲、高帶寬的通信組件為后續(xù) MTIA 芯片中高效的 GenAI 推理和訓(xùn)練奠定了基礎(chǔ)。

具體來說，MTIA 300 由一個計算芯片、兩個網(wǎng)絡(luò)芯片和多個 HBM 內(nèi)存堆棧組成。每個計算芯片包含一個處理單元 (PE) 網(wǎng)格，其中一些 PE 具有冗余以提高良率。

每個PE包含：兩個 RISC-V 向量核心、用于矩陣乘法的點積引擎、用于激活和元素級操作的特殊功能單元、用于累積和 PE 間通信的縮減引擎、DMA引擎用于本地暫存內(nèi)存的數(shù)據(jù)進出。

具體配置參數(shù)方面，MTIA 300配備了216GB HBM；帶寬為6.1 TB/s；FP8/MX8 性能1.2 PFlops；BF16 性能 0.6 PFlops；加速器縱向擴展域規(guī)模為16個節(jié)點；縱向擴展網(wǎng)絡(luò) 1 TB/s（單向帶寬）；橫向擴展網(wǎng)絡(luò)200 GB/s（單向帶寬）；TDP為800W。

目前這款芯片正在生產(chǎn)中，用于R?&R培訓(xùn)。

MTIA 400：極具競爭力的原始性能

MTIA 400主要是為了應(yīng)對GenAI需求的激增，以更好地支持GenAI模型，同時保持支持R?&R工作負載的能力。MTIA 400 相較于 MTIA 300 有了顯著提升，其 FP8 FLOPS 性能提升了 400%，HBM 帶寬提升了 51%。并且，MTIA 400具有72個加速器擴展域，可提供與領(lǐng)先商業(yè)產(chǎn)品競爭的高性能。

如果說，MTIA 300 是一款經(jīng)濟高效的產(chǎn)品，那么 MTIA 400 則是首款旨在不僅降低成本，而且提供與領(lǐng)先商用產(chǎn)品相媲美的原始性能的 MTIA 芯片。

MTIA 400集成了兩個計算芯片組，使計算密度翻倍，并且還支持增強版的 MX8 和 MX4，這兩種低精度格式對于高效的 GenAI 推理至關(guān)重要。一個機架可以包含 72 個 MTIA 400，通過交換式背板連接，即可構(gòu)成一個單一的擴展域。

具體參數(shù)方面，MTIA 400配備了288GB HBM；帶寬為 9.2TB/s；MX4性能 12 PFlops；FP8/MX8 性能 6 PFlops；BF16 性能 3 PFlops；加速器縱向擴展域規(guī)模為72個節(jié)點；縱向擴展網(wǎng)絡(luò)1.2 TB/s（單向帶寬）；橫向擴展網(wǎng)絡(luò)100 GB/s（單向帶寬）；TDP為1200W。

Meta已經(jīng)在實驗室完成了MTIA 400的測試，并正計劃將其部署到Meta數(shù)據(jù)中心。

MTIA 450：GenAI推理的飛躍

考慮到GenAI推理需求的快速增長，Meta將MTIA 400升級到MTIA 450，通過在以下四個方面進行改進，使其更適合 GenAI 推理：

將 HBM 帶寬比上一版本提高一倍，以加快解碼速度。

將 MX4 FLOPS 提高 75%，以加快混合專家 (MoE) 前饋網(wǎng)絡(luò) (FFN) 的計算速度。

引入硬件加速，使注意力機制和 FFN 計算更加高效（例如，通過緩解 Softmax 和 FlashAttention 的瓶頸）。

低精度數(shù)據(jù)類型的創(chuàng)新。

MTIA 450 超越了 FP8/MX8，其 MX4 FLOPS 是 FP16/BF16 的 6 倍，這體現(xiàn)了低精度 FLOPS 對推理的重要性。MTIA 450 還支持混合低精度計算，而無需承擔數(shù)據(jù)類型轉(zhuǎn)換帶來的軟件開銷。此外，它還引入了Meta自主研發(fā)的數(shù)據(jù)類型創(chuàng)新，在保證模型質(zhì)量的同時提升 FLOPS，且對芯片面積的影響極小。

具體參數(shù)方面，MTIA 400配備了288GB HBM；帶寬為18.4 TB/s；MX4性能21 PFlops；FP8/MX8 性能 7 PFlops；BF16 性能 3.5 PFlops；加速器縱向擴展域規(guī)模依然是72個節(jié)點；縱向擴展網(wǎng)絡(luò)1.2 TB/s（單向帶寬）；橫向擴展網(wǎng)絡(luò)100 GB/s（單向帶寬）；TDP為1400W。

MTIA 450計劃于2027年初大規(guī)模部署。

MTIA 500：以更少的資源實現(xiàn)更多GenAI推理

隨著 GenAI 推理需求的持續(xù)增長，Meta將 MTIA 450 升級為 MTIA 500，以更具成本效益的方式支持 GenAI 推理。

MTIA 500 的 HBM 帶寬提升了 50%，HBM 容量提升了高達 80%，MX4 FLOPS 提升了 43%。MTIA 500 進一步強化了模塊化理念，采用 2x2 的小型計算芯片組配置，周圍環(huán)繞著多個 HBM 堆棧和兩個網(wǎng)絡(luò)芯片組，以及一個提供 PCIe 連接以連接主機 CPU 和橫向擴展網(wǎng)卡的 SoC 芯片組。與 MTIA 450 一樣，MTIA 500 也引入了額外的硬件加速和數(shù)據(jù)類型創(chuàng)新，以解決 GenAI 推理中遇到的瓶頸問題。

具體參數(shù)方面，MTIA 500配備了384-512 GB HBM，帶寬為 27.6 TB/s；MX4性能 30 PFlops；FP8/MX8 性能 10 PFlops；BF16 性能 5 PFlops；加速器縱向擴展域規(guī)模為72個節(jié)點；縱向擴展網(wǎng)絡(luò)1.2 TB/s（單向帶寬）；橫向擴展網(wǎng)絡(luò)100 GB/s（單向帶寬）；TDP為1700W。

MTIA 500計劃于2027年大規(guī)模部署。

總結(jié)來看，從MTIA 300到MTIA 500，HBM帶寬增加了4.5倍，計算性能（FLOPS）增加了25倍，這一切都將發(fā)生在不到兩年的時間里，這一快速發(fā)展凸顯了Meta加速戰(zhàn)略的好處。

Meta的策略：高速迭代、推理優(yōu)先、原生 PyTorch

在競爭激烈的AI芯片領(lǐng)域，Mtea的MTIA戰(zhàn)略基于三大支柱：高速迭代芯片開發(fā)、以推理為先導(dǎo)、通過基于 PyTorch 等行業(yè)標準進行原生構(gòu)建，實現(xiàn)無縫采用。

高速迭代

鑒于人工智能創(chuàng)新日新月異，Meta已具備大約每6個月推出一款新芯片的能力。這種快速的研發(fā)速度帶來了兩個優(yōu)勢：

快速適應(yīng)不斷發(fā)展的 AI 技術(shù)：隨著新的模型架構(gòu)、低精度數(shù)據(jù)類型和服務(wù)技術(shù)的出現(xiàn)，Mtea可以針對這些進步優(yōu)化其最新的芯片，為重要操作引入硬件加速，并解決計算、內(nèi)存和 I/O 之間的瓶頸轉(zhuǎn)移。

快速采用最新硬件技術(shù)：例如最新的工藝節(jié)點、HBM 和封裝技術(shù)。

Meta通過貫穿所有層面的可重用模塊化設(shè)計實現(xiàn)高速發(fā)展：從芯片組、機箱、機架到網(wǎng)絡(luò)基礎(chǔ)設(shè)施。Meta將加速器架構(gòu)為芯片組系統(tǒng)——獨立的、可重用的計算、I/O 和網(wǎng)絡(luò)構(gòu)建模塊。由于每個芯片組都可以單獨升級，Meta可以在數(shù)月內(nèi)而非數(shù)年內(nèi)完成改進。此外，不同的芯片組可以在不同的工藝節(jié)點上制造，從而在滿足性能和功耗要求的同時，最大限度地降低成本。

在系統(tǒng)層面，MTIA 400、450 和 500 均采用相同的機箱、機架和網(wǎng)絡(luò)基礎(chǔ)設(shè)施。因此，每一代新芯片都可以安裝在相同的物理空間內(nèi)，從而加快從芯片設(shè)計到生產(chǎn)部署的過渡。Meta模塊化、可復(fù)用的設(shè)計也最大限度地減少了開發(fā)和部署多代芯片所需的資源，而這些高度優(yōu)化的芯片所帶來的優(yōu)勢足以抵消開發(fā)和部署過程中所消耗的資源。

推理優(yōu)先

主流GPU通常是為最苛刻的工作負載——大規(guī)模GenAI預(yù)訓(xùn)練——而設(shè)計的，然后才被應(yīng)用于其他工作負載，例如GenAI推理，而后者往往成本效益較低。Meta采用不同的方法：MTIA 450和500首先針對GenAI推理進行優(yōu)化，然后可根據(jù)需要用于支持其他工作負載，包括R?&R訓(xùn)練和推理，以及GenAI訓(xùn)練。這使得MTIA能夠很好地適應(yīng)預(yù)期中GenAI推理需求的增長。

無摩擦采用

MTIA 從一開始就基于行業(yè)標準的軟硬件生態(tài)系統(tǒng)——PyTorch、vLLM、Triton 和開放計算項目 (OCP)——原生構(gòu)建，而非將兼容性和可移植性視為事后考慮。由于PyTorch 起源于 Meta，并且已成為應(yīng)用最廣泛的機器學(xué)習(xí)框架，MTIA 自然而然地采用了 PyTorch 原生架構(gòu)。PyTorch、vLLM 和 Triton 共同為開發(fā)者提供了一套熟悉的軟件棧，支持開源社區(qū)資源的復(fù)用，并簡化了模型遷移。除了行業(yè)標準的軟件之外，MTIA 的系統(tǒng)和機架解決方案也符合 OCP 標準，從而能夠無縫部署到數(shù)據(jù)中心。

MTIA 軟件棧：一種基于 PyTorch 的原生方法

MTIA 軟件棧在所有芯片代際中都能提供一致的編程體驗。它采用 PyTorch 原生架構(gòu)，為開發(fā)者提供了一個熟悉且完整的生態(tài)系統(tǒng)。

該軟件棧的關(guān)鍵屬性包括：

無縫模型部署： MTIA 同時支持 eager 模式和 graph 模式。在 graph 模式下，它直接與PyTorch 2.0 的編譯流程集成。開發(fā)者可以使用熟悉的工具——torch.compile 和 torch.export——來捕獲和優(yōu)化模型圖。無需對 MTIA 進行任何特定的重寫即可啟用模型。這種可移植性使得Meta的生產(chǎn)模型能夠同時部署在 GPU 和 MTIA 上。

編譯器：在 PyTorch 前端之下，MTIA 專用編譯器將高級圖表示轉(zhuǎn)換為高度優(yōu)化的設(shè)備代碼。圖編譯器基于 Torch FX IR 和 TorchInductor 構(gòu)建。內(nèi)核編譯器和底層后端基于 Triton、MLIR 和 LLVM，并針對 MTIA 進行了增強和優(yōu)化。Meta改進并定制了 TorchInductor 的 Triton 代碼生成和內(nèi)核融合功能，使其更適用于 MTIA，并引入了 MTIA 感知的 MLIR 方言和 Triton DSL 擴展。這些擴展可選擇性地用于對性能要求極高的內(nèi)核。編譯器堆棧具有自動調(diào)優(yōu)功能，可使用多種編譯策略自動優(yōu)化工作負載。

內(nèi)核編寫： MTIA 支持編譯器驅(qū)動的內(nèi)核生成和融合，支持使用 Triton 和 C++ 進行自動生成和用戶手動內(nèi)核編寫，并提供內(nèi)核自動調(diào)優(yōu)和優(yōu)化功能。此外，Meta還構(gòu)建了智能體 AI 系統(tǒng)來實現(xiàn)內(nèi)核生成的自動化。

通信與傳輸： MTIA 的通信庫 Hoot Collective Communications Library (HCCL) 與 GPU 通信庫類似，但具有多項差異化優(yōu)勢。它利用 MTIA 芯片內(nèi)置的網(wǎng)絡(luò)芯片實現(xiàn)高效通信，將集體操作卸載到專用消息引擎，并使用近內(nèi)存計算來加速需要大量歸約的集體操作。HCCL 還支持融合計算內(nèi)核和集體內(nèi)核以最大限度地降低延遲。最后，其傳輸協(xié)議棧針對低延遲事務(wù)進行了優(yōu)化，并將整個數(shù)據(jù)路徑卸載到主機，從而降低主機協(xié)議棧的運行時開銷。

運行時和固件： MTIA 運行時管理設(shè)備內(nèi)存、內(nèi)核調(diào)度以及跨多個設(shè)備的執(zhí)行協(xié)調(diào)。它支持即時執(zhí)行模式和圖執(zhí)行模式。此外，它還以 Inductor 原生的即時圖模式編排計算和集體操作。這種方法能夠?qū)⒂嬎愫屯ㄐ乓黄鸩东@和調(diào)度，從而以最小的開銷提供類似 GPU 的體驗。運行時與基于 Rust 的用戶空間驅(qū)動程序交互，而不是傳統(tǒng)的內(nèi)核級 Linux 驅(qū)動程序。固件采用裸機 Rust 編寫，具有低延遲和高性能，并內(nèi)置內(nèi)存和線程安全機制。

vLLM 支持： vLLM 的插件架構(gòu)使其能夠輕松與 MTIA 集成。Meta的 MTIA 插件使用 MTIA 專用內(nèi)核替換了 FlashAttention 和融合 LayerNorm 等重要運算符。通過自定義的 torch.compile 后端支持圖模式執(zhí)行。MTIA 繼承并受益于 vLLM 的諸多特性，例如預(yù)填充解碼分解和連續(xù)批處理。

生產(chǎn)工具：為了確保數(shù)十萬顆 MTIA 芯片在生產(chǎn)環(huán)境中可靠運行，MTIA 提供與主流 GPU 同類產(chǎn)品相媲美的生產(chǎn)級監(jiān)控、性能分析和調(diào)試工具，同時還提供獨特的功能，例如跨主機和設(shè)備的全棧式、大規(guī)?？捎^測性，涵蓋軟件、固件和硬件層面。其調(diào)試器支持精細控制，包括 PE 級別的斷點和協(xié)同單步執(zhí)行。

總結(jié)

雖然Meta大規(guī)模部署的前兩代 MTIA 芯片已展現(xiàn)出強大的 R?&R 推理能力，但Meta預(yù)計最新的四代產(chǎn)品——包括近期發(fā)布或計劃于 2026 年或 2027 年發(fā)布的產(chǎn)品——將進一步拓展 GenAI 推理的邊界，實現(xiàn) R?&R 訓(xùn)練，并為未來的 GenAI 訓(xùn)練奠定基礎(chǔ)。

Meta表示，每一代 MTIA 芯片都汲取了前代產(chǎn)品的經(jīng)驗，與其軟件棧協(xié)同設(shè)計，并以未來 AI 模型的發(fā)展軌跡為指導(dǎo)。MTIA 芯片的模塊化、多芯片設(shè)計和垂直整合的協(xié)同設(shè)計方法，能夠在保持系統(tǒng)級兼容性的同時，實現(xiàn)快速且持續(xù)的性能提升。這些產(chǎn)品將共同助力我們實現(xiàn)目標：為平臺上的每一位用戶提供當今乃至未來最強大的 AI 體驗。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

Meta连发四款AI芯片 每6个月升级一代

日期： 2026-03-16

來源：芯智讯

相關(guān)內(nèi)容

Meta连发四款AI芯片每6个月升级一代