《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模拟设计 > 业界动态 > 国产GPU单卡FP8算力突破1000T

国产GPU单卡FP8算力突破1000T

2026-02-13
來源:芯智讯
關(guān)鍵詞: 摩尔线程 GPU S5000

馬年農(nóng)歷春節(jié)前夕,國產(chǎn)智算卡再度迎來好消息!單卡FP8算力終于沖上1000TFLOPS了。

雖然國產(chǎn)GPU廠商摩爾線程在兩年前就推出了專門面向大模型訓(xùn)練、推理及高性能計(jì)算設(shè)計(jì)的全功能GPU智算卡MTT S5000,但是具體的架構(gòu)、參數(shù)和性能一直并未對外公布。

近日,摩爾線程首度公開了其旗艦產(chǎn)品S5000的詳細(xì)參數(shù):基于“平湖”架構(gòu),單卡FP8算力突破1000T,集成80GB顯存,1.6TB/s帶寬,F(xiàn)P8到FP64全精度覆蓋,訓(xùn)練精度緊咬H100,差距不到1%!

101858.jpg

這不僅是國產(chǎn)GPU首次在單卡吞吐量上摸到國際頂尖門檻,更是為萬億參數(shù)大模型提供了真正可用的自主算力底座。

一、 核心參數(shù)對標(biāo):1000TFLOPS與全精度覆蓋

MTT S5000在設(shè)計(jì)之初便定位于“訓(xùn)推一體”的全功能基座,其硬件參數(shù)展現(xiàn)了極強(qiáng)的競爭優(yōu)勢:

●算力峰值: S5000單卡AI算力(FP8)最高可達(dá) 1000TFLOPS(即1 PFLOPS)。這一數(shù)據(jù)標(biāo)志著國產(chǎn)GPU在單卡吞吐量上已可與國際主流一較高下。

●計(jì)算精度: 該卡實(shí)現(xiàn)了從 FP8、BF16、FP16到FP32、FP64 的全精度計(jì)算支持。業(yè)內(nèi)實(shí)測顯示,S5000在產(chǎn)品計(jì)算精度上已超越英偉達(dá)H100,并在高精度計(jì)算能力上直追其最新的Blackwell架構(gòu)。

●存儲規(guī)格: 配置 80GB顯存,顯存帶寬達(dá) 1.6TB/s。這一指標(biāo)確保了在處理超大規(guī)模參數(shù)模型(如DeepSeek-V3)時(shí),數(shù)據(jù)讀取不會(huì)成為瓶頸。

●互聯(lián)帶寬: 卡間互聯(lián)帶寬達(dá)到 784GB/s,支持萬卡規(guī)模的高效協(xié)同,極大提升了分布式訓(xùn)練的效率。

二、 架構(gòu)優(yōu)勢:第四代MUSA與原生FP8引擎

S5000參數(shù)表現(xiàn)卓越的背后,是摩爾線程自主研發(fā)的 第四代MUSA架構(gòu)“平湖”。

作為國內(nèi)首批原生支持 FP8精度 的訓(xùn)練GPU,S5000內(nèi)置了硬件級FP8 Tensor Core加速單元。相比傳統(tǒng)的BF16/FP16,F(xiàn)P8能將數(shù)據(jù)位寬減半,使顯存帶寬壓力降低50%,理論計(jì)算吞吐量直接翻倍。實(shí)測證明,在DeepSeek、Qwen等前沿模型架構(gòu)下,S5000的FP8引擎可提升 30%以上的訓(xùn)練性能。

1_101858.jpg

此外,S5000搭載了獨(dú)創(chuàng)的 ACE(異步計(jì)算引擎)技術(shù)。該技術(shù)能將復(fù)雜的通信任務(wù)從計(jì)算核心中卸載,實(shí)現(xiàn)計(jì)算與通信的零沖突并行。實(shí)測顯示,從64卡擴(kuò)展至1024卡,系統(tǒng)始終保持90%以上的線性擴(kuò)展效率,確保了算力參數(shù)能充分轉(zhuǎn)化為實(shí)戰(zhàn)性能。

2_101858.jpg

三、 性能實(shí)測:高精度訓(xùn)練對標(biāo)H100

在典型任務(wù)實(shí)測中,S5000的參數(shù)優(yōu)勢轉(zhuǎn)化成為顯著的效率:

●對比H20:在互聯(lián)網(wǎng)廠商的端到端任務(wù)測試中,S5000的綜合性能表現(xiàn)約為英偉達(dá)H20的 2.5倍。


●對比H100: 智源研究院基于S5000千卡集群訓(xùn)練具身大腦模型RoboBrain 2.5,其訓(xùn)練損失值(loss)與H100集群的差異僅為 0.62%,關(guān)鍵指標(biāo)誤差在千分之幾,實(shí)現(xiàn)了對頂尖算力的高度對齊。

值得一提的是,S5000在推理場景同樣表現(xiàn)優(yōu)異。比如在2025年12月,摩爾線程聯(lián)合硅基流動(dòng)基于MTT S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試。

101858.png

實(shí)測S5000單卡Prefill吞吐超過4000 tokens/s,Decode吞吐超過1000 tokens/s,刷新了國產(chǎn)GPU的推理紀(jì)錄。

四、 生態(tài)落地:智譜GLM-5的Day-0適配驗(yàn)證

參數(shù)的強(qiáng)大最終體現(xiàn)在對頂尖模型的支撐能力上。近日,在智譜正式發(fā)布大模型 GLM-5 的當(dāng)天,摩爾線程宣布MTT S5000已圓滿完成對該模型的 Day-0全流程適配與驗(yàn)證。

依托MUSA全棧軟件平臺對SGLang、PyTorch、vLLM等主流框架的原生適配,S5000不僅能實(shí)現(xiàn)CUDA生態(tài)代碼的“零成本”遷移,更憑借其80GB顯存和1.6TB/s帶寬的參數(shù)底蘊(yùn),為GLM-5等萬億參數(shù)模型的快速迭代提供了堅(jiān)實(shí)的國產(chǎn)算力支撐。

值得注意的是,雖然S5000是2024年就已推出的產(chǎn)品,但其選擇在2026年初首次公開詳細(xì)性能參數(shù),這一時(shí)機(jī)頗耐人尋味——是否正是摩爾線程為新一代“花港”架構(gòu)的S6000系列預(yù)熱的前奏?作為2025年12月發(fā)布的全功能GPU新架構(gòu),“花港”不僅支持FP4到FP64的全精度計(jì)算,更實(shí)現(xiàn)了計(jì)算密度提升50%、能效比躍升10倍的突破。基于新架構(gòu),專攻AI訓(xùn)推的“華山”與高性能渲染的“廬山”芯片是否已蓄勢待發(fā)?S5000的不俗表現(xiàn),加上“花港”架構(gòu)所展現(xiàn)的技術(shù)縱深,已為國產(chǎn)算力的持續(xù)進(jìn)化打開更多想象空間。

2.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。