英偉達2月12日發(fā)布博文,宣布在AI推理領(lǐng)域的“token經(jīng)濟學”(Tokenomics)方面,其 Blackwell 架構(gòu)取得里程碑式進展。
英偉達在博文中指出,通過推行“極致軟硬件協(xié)同設(shè)計”策略,優(yōu)化硬件在處理復雜 AI 推理負載時的效率,解決了隨著模型參數(shù)膨脹帶來的算力成本激增問題。數(shù)據(jù)顯示相比上一代 Hopper 架構(gòu),Blackwell 平臺將單位 Token 生成成本降低至十分之一。

行業(yè)落地方面,包括 Baseten、DeepInfra、Fireworks AI 及 Together AI 在內(nèi)的多家推理服務提供商已開始利用 Blackwell 平臺托管開源模型。
援引博文介紹,英偉達指出,通過結(jié)合開源前沿智能模型、Blackwell 的硬件優(yōu)勢以及各廠商自研的優(yōu)化推理棧,這些企業(yè)成功實現(xiàn)了跨行業(yè)的成本縮減。

例如,專注于多智能體(Multi-agent)工作流的 Sentient Labs 反饋,其成本效率相比 Hopper 時代提升了 25% 至 50%;而游戲領(lǐng)域的 Latitude 等公司也借此實現(xiàn)了更低的延遲和更可靠的響應。

Blackwell 的高效能核心在于其旗艦級系統(tǒng) GB200 NVL72。該系統(tǒng)采用 72 個芯片互聯(lián)的配置,并配備了高達 30TB 的高速共享內(nèi)存。這種設(shè)計完美契合了當前主流的“混合專家(MoE)”架構(gòu)需求,能夠?qū)?Token 批次高效地拆分并分散到各個 GPU 上并行處理。

在 Blackwell 大獲成功的同時,英偉達已將目光投向下一代代號為“Vera Rubin”的平臺。據(jù)悉,Rubin 架構(gòu)計劃通過引入針對預填充(Prefill)階段的 CPX 等專用機制,進一步推高基礎(chǔ)設(shè)施的效率天花板。

