《電子技術應用》
您所在的位置:首頁 > 模拟设计 > 业界动态 > 国产GPU单卡FP8算力突破1000T

国产GPU单卡FP8算力突破1000T

2026-02-13
來源:芯智讯
關鍵詞: 摩尔线程 GPU S5000

馬年農(nóng)歷春節(jié)前夕,國產(chǎn)智算卡再度迎來好消息!單卡FP8算力終于沖上1000TFLOPS了。

雖然國產(chǎn)GPU廠商摩爾線程在兩年前就推出了專門面向大模型訓練、推理及高性能計算設計的全功能GPU智算卡MTT S5000,但是具體的架構、參數(shù)和性能一直并未對外公布。

近日,摩爾線程首度公開了其旗艦產(chǎn)品S5000的詳細參數(shù):基于“平湖”架構,單卡FP8算力突破1000T,集成80GB顯存,1.6TB/s帶寬,F(xiàn)P8到FP64全精度覆蓋,訓練精度緊咬H100,差距不到1%!

101858.jpg

這不僅是國產(chǎn)GPU首次在單卡吞吐量上摸到國際頂尖門檻,更是為萬億參數(shù)大模型提供了真正可用的自主算力底座。

一、 核心參數(shù)對標:1000TFLOPS與全精度覆蓋

MTT S5000在設計之初便定位于“訓推一體”的全功能基座,其硬件參數(shù)展現(xiàn)了極強的競爭優(yōu)勢:

●算力峰值: S5000單卡AI算力(FP8)最高可達 1000TFLOPS(即1 PFLOPS)。這一數(shù)據(jù)標志著國產(chǎn)GPU在單卡吞吐量上已可與國際主流一較高下。

●計算精度: 該卡實現(xiàn)了從 FP8、BF16、FP16到FP32、FP64 的全精度計算支持。業(yè)內實測顯示,S5000在產(chǎn)品計算精度上已超越英偉達H100,并在高精度計算能力上直追其最新的Blackwell架構。

●存儲規(guī)格: 配置 80GB顯存,顯存帶寬達 1.6TB/s。這一指標確保了在處理超大規(guī)模參數(shù)模型(如DeepSeek-V3)時,數(shù)據(jù)讀取不會成為瓶頸。

●互聯(lián)帶寬: 卡間互聯(lián)帶寬達到 784GB/s,支持萬卡規(guī)模的高效協(xié)同,極大提升了分布式訓練的效率。

二、 架構優(yōu)勢:第四代MUSA與原生FP8引擎

S5000參數(shù)表現(xiàn)卓越的背后,是摩爾線程自主研發(fā)的 第四代MUSA架構“平湖”。

作為國內首批原生支持 FP8精度 的訓練GPU,S5000內置了硬件級FP8 Tensor Core加速單元。相比傳統(tǒng)的BF16/FP16,F(xiàn)P8能將數(shù)據(jù)位寬減半,使顯存帶寬壓力降低50%,理論計算吞吐量直接翻倍。實測證明,在DeepSeek、Qwen等前沿模型架構下,S5000的FP8引擎可提升 30%以上的訓練性能。

1_101858.jpg

此外,S5000搭載了獨創(chuàng)的 ACE(異步計算引擎)技術。該技術能將復雜的通信任務從計算核心中卸載,實現(xiàn)計算與通信的零沖突并行。實測顯示,從64卡擴展至1024卡,系統(tǒng)始終保持90%以上的線性擴展效率,確保了算力參數(shù)能充分轉化為實戰(zhàn)性能。

2_101858.jpg

三、 性能實測:高精度訓練對標H100

在典型任務實測中,S5000的參數(shù)優(yōu)勢轉化成為顯著的效率:

●對比H20:在互聯(lián)網(wǎng)廠商的端到端任務測試中,S5000的綜合性能表現(xiàn)約為英偉達H20的 2.5倍。


●對比H100: 智源研究院基于S5000千卡集群訓練具身大腦模型RoboBrain 2.5,其訓練損失值(loss)與H100集群的差異僅為 0.62%,關鍵指標誤差在千分之幾,實現(xiàn)了對頂尖算力的高度對齊。

值得一提的是,S5000在推理場景同樣表現(xiàn)優(yōu)異。比如在2025年12月,摩爾線程聯(lián)合硅基流動基于MTT S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試。

101858.png

實測S5000單卡Prefill吞吐超過4000 tokens/s,Decode吞吐超過1000 tokens/s,刷新了國產(chǎn)GPU的推理紀錄。

四、 生態(tài)落地:智譜GLM-5的Day-0適配驗證

參數(shù)的強大最終體現(xiàn)在對頂尖模型的支撐能力上。近日,在智譜正式發(fā)布大模型 GLM-5 的當天,摩爾線程宣布MTT S5000已圓滿完成對該模型的 Day-0全流程適配與驗證。

依托MUSA全棧軟件平臺對SGLang、PyTorch、vLLM等主流框架的原生適配,S5000不僅能實現(xiàn)CUDA生態(tài)代碼的“零成本”遷移,更憑借其80GB顯存和1.6TB/s帶寬的參數(shù)底蘊,為GLM-5等萬億參數(shù)模型的快速迭代提供了堅實的國產(chǎn)算力支撐。

值得注意的是,雖然S5000是2024年就已推出的產(chǎn)品,但其選擇在2026年初首次公開詳細性能參數(shù),這一時機頗耐人尋味——是否正是摩爾線程為新一代“花港”架構的S6000系列預熱的前奏?作為2025年12月發(fā)布的全功能GPU新架構,“花港”不僅支持FP4到FP64的全精度計算,更實現(xiàn)了計算密度提升50%、能效比躍升10倍的突破?;谛录軜嫞瑢9I訓推的“華山”與高性能渲染的“廬山”芯片是否已蓄勢待發(fā)?S5000的不俗表現(xiàn),加上“花港”架構所展現(xiàn)的技術縱深,已為國產(chǎn)算力的持續(xù)進化打開更多想象空間。

2.jpg

本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。