123,123

国产GPU单卡FP8算力突破1000T

日期： 2026-02-13

來源：芯智讯

關(guān)鍵詞： 摩尔线程 GPU S5000

馬年農(nóng)歷春節(jié)前夕，國產(chǎn)智算卡再度迎來好消息！單卡FP8算力終于沖上1000TFLOPS了。

雖然國產(chǎn)GPU廠商摩爾線程在兩年前就推出了專門面向大模型訓(xùn)練、推理及高性能計算設(shè)計的全功能GPU智算卡MTT S5000，但是具體的架構(gòu)、參數(shù)和性能一直并未對外公布。

近日，摩爾線程首度公開了其旗艦產(chǎn)品S5000的詳細(xì)參數(shù)：基于“平湖”架構(gòu)，單卡FP8算力突破1000T，集成80GB顯存，1.6TB/s帶寬，F(xiàn)P8到FP64全精度覆蓋，訓(xùn)練精度緊咬H100，差距不到1%！

這不僅是國產(chǎn)GPU首次在單卡吞吐量上摸到國際頂尖門檻，更是為萬億參數(shù)大模型提供了真正可用的自主算力底座。

一、核心參數(shù)對標(biāo)：1000TFLOPS與全精度覆蓋

MTT S5000在設(shè)計之初便定位于“訓(xùn)推一體”的全功能基座，其硬件參數(shù)展現(xiàn)了極強(qiáng)的競爭優(yōu)勢：

●算力峰值： S5000單卡AI算力（FP8）最高可達(dá) 1000TFLOPS（即1 PFLOPS）。這一數(shù)據(jù)標(biāo)志著國產(chǎn)GPU在單卡吞吐量上已可與國際主流一較高下。

●計算精度：該卡實現(xiàn)了從 FP8、BF16、FP16到FP32、FP64 的全精度計算支持。業(yè)內(nèi)實測顯示，S5000在產(chǎn)品計算精度上已超越英偉達(dá)H100，并在高精度計算能力上直追其最新的Blackwell架構(gòu)。

●存儲規(guī)格：配置 80GB顯存，顯存帶寬達(dá) 1.6TB/s。這一指標(biāo)確保了在處理超大規(guī)模參數(shù)模型（如DeepSeek-V3）時，數(shù)據(jù)讀取不會成為瓶頸。

●互聯(lián)帶寬：卡間互聯(lián)帶寬達(dá)到 784GB/s，支持萬卡規(guī)模的高效協(xié)同，極大提升了分布式訓(xùn)練的效率。

二、架構(gòu)優(yōu)勢：第四代MUSA與原生FP8引擎

S5000參數(shù)表現(xiàn)卓越的背后，是摩爾線程自主研發(fā)的第四代MUSA架構(gòu)“平湖”。

作為國內(nèi)首批原生支持 FP8精度的訓(xùn)練GPU，S5000內(nèi)置了硬件級FP8 Tensor Core加速單元。相比傳統(tǒng)的BF16/FP16，F(xiàn)P8能將數(shù)據(jù)位寬減半，使顯存帶寬壓力降低50%，理論計算吞吐量直接翻倍。實測證明，在DeepSeek、Qwen等前沿模型架構(gòu)下，S5000的FP8引擎可提升 30%以上的訓(xùn)練性能。

此外，S5000搭載了獨(dú)創(chuàng)的 ACE（異步計算引擎）技術(shù)。該技術(shù)能將復(fù)雜的通信任務(wù)從計算核心中卸載，實現(xiàn)計算與通信的零沖突并行。實測顯示，從64卡擴(kuò)展至1024卡，系統(tǒng)始終保持90%以上的線性擴(kuò)展效率，確保了算力參數(shù)能充分轉(zhuǎn)化為實戰(zhàn)性能。

三、性能實測：高精度訓(xùn)練對標(biāo)H100

在典型任務(wù)實測中，S5000的參數(shù)優(yōu)勢轉(zhuǎn)化成為顯著的效率：

●對比H20：在互聯(lián)網(wǎng)廠商的端到端任務(wù)測試中，S5000的綜合性能表現(xiàn)約為英偉達(dá)H20的 2.5倍。

●對比H100：智源研究院基于S5000千卡集群訓(xùn)練具身大腦模型RoboBrain 2.5，其訓(xùn)練損失值（loss）與H100集群的差異僅為 0.62%，關(guān)鍵指標(biāo)誤差在千分之幾，實現(xiàn)了對頂尖算力的高度對齊。

值得一提的是，S5000在推理場景同樣表現(xiàn)優(yōu)異。比如在2025年12月，摩爾線程聯(lián)合硅基流動基于MTT S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試。

實測S5000單卡Prefill吞吐超過4000 tokens/s，Decode吞吐超過1000 tokens/s，刷新了國產(chǎn)GPU的推理紀(jì)錄。

四、生態(tài)落地：智譜GLM-5的Day-0適配驗證

參數(shù)的強(qiáng)大最終體現(xiàn)在對頂尖模型的支撐能力上。近日，在智譜正式發(fā)布大模型 GLM-5 的當(dāng)天，摩爾線程宣布MTT S5000已圓滿完成對該模型的 Day-0全流程適配與驗證。

依托MUSA全棧軟件平臺對SGLang、PyTorch、vLLM等主流框架的原生適配，S5000不僅能實現(xiàn)CUDA生態(tài)代碼的“零成本”遷移，更憑借其80GB顯存和1.6TB/s帶寬的參數(shù)底蘊(yùn)，為GLM-5等萬億參數(shù)模型的快速迭代提供了堅實的國產(chǎn)算力支撐。

值得注意的是，雖然S5000是2024年就已推出的產(chǎn)品，但其選擇在2026年初首次公開詳細(xì)性能參數(shù)，這一時機(jī)頗耐人尋味——是否正是摩爾線程為新一代“花港”架構(gòu)的S6000系列預(yù)熱的前奏？作為2025年12月發(fā)布的全功能GPU新架構(gòu)，“花港”不僅支持FP4到FP64的全精度計算，更實現(xiàn)了計算密度提升50%、能效比躍升10倍的突破。基于新架構(gòu)，專攻AI訓(xùn)推的“華山”與高性能渲染的“廬山”芯片是否已蓄勢待發(fā)？S5000的不俗表現(xiàn)，加上“花港”架構(gòu)所展現(xiàn)的技術(shù)縱深，已為國產(chǎn)算力的持續(xù)進(jìn)化打開更多想象空間。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

国产GPU单卡FP8算力突破1000T

日期： 2026-02-13

來源：芯智讯

相關(guān)內(nèi)容