《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 摩爾線程發(fā)布大模型訓練仿真工具SimuMax v1.0

摩爾線程發(fā)布大模型訓練仿真工具SimuMax v1.0

顯存誤差僅1%
2025-09-12
來源:快科技

9月11日消息,摩爾線程正式發(fā)布并開源大模型分布式訓練仿真工具SimuMax v1.0,在顯存和性能仿真精度上實現(xiàn)了突破性提升,同時引入多項關鍵功能,進一步增強了模型兼容性、靈活性。

SimuMax是一款專為大語言模型(LLM)分布式訓練負載設計的仿真模擬工具,可為從單卡到萬卡集群提供仿真支持。

它無需實際執(zhí)行完整訓練過程,即可高精度模擬訓練中的顯存使用和性能表現(xiàn),幫助用戶提前了解訓練效率,優(yōu)化計算效能。

基于靜態(tài)分析模型,摩爾線程自研的SimuMax通過結合成本模型、內(nèi)存模型和屋頂模型,實現(xiàn)對訓練過程的精準仿真。

d6a57de0-10c2-4039-8aea-8251fde68ef6.png

該工具支持多種主流分布式并行策略與優(yōu)化技術,適用于以下多種應用場景:

1、并行策略:

數(shù)據(jù)并行(DP)、張量并行(TP)、序列并行(SP)、流水線并行(PP)、專家并行(EP)

2、優(yōu)化技術:

ZeRO-1、完整重計算、選擇性重計算、融合內(nèi)核等。

3、適用對象:

希望尋找最優(yōu)訓練策略以提升效率的用戶;

從事框架或大模型算法開發(fā)的工程師,用于優(yōu)化與調試;

芯片制造商,用于性能預測與硬件設計輔助。

SimuMax 1.0最顯著的更新在于其仿真精度的大幅提升,為用戶提供更可靠的分析結果。

針對Dense和MoE(混合專家)模型,顯存估計誤差穩(wěn)定控制在1%以內(nèi)。

經(jīng)測試,在多個主流GPU上,目前最優(yōu)性能估計誤差持續(xù)低于4%。

S25256147-d56f-4fb3-91f4-047faf8643b0.png

此外,SimuMax 1.0還引入了多項新特性,支持更廣泛的模型結構和高效率訓練需求:

MLA支持:

新增對MLA模型架構的支持;

流水線并行(PP)增強:

支持對首階段和末階段層的細粒度控制,優(yōu)化模型分片策略;

MoE靈活性提升:

在混合專家(MoE)模型中支持自定義Dense層,為模型設計提供了更大的靈活性。

Megatron兼容:

提供簡化的模型遷移流程,可輕松轉換和分析基于Megatron框架的模型,提升與現(xiàn)有生態(tài)的互操作性。

重計算策略優(yōu)化:

實現(xiàn)更細粒度的選擇性重計算,支持更精準的內(nèi)存和計算資源權衡。

全面的效率分析:

新增對不同張量形狀與內(nèi)存布局下計算效率與利用率的評估功能。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。