近日,摩爾線程正式發(fā)布開源大模型分布式訓(xùn)練仿真工具SimuMax的1.1版本。該版本在完整繼承v1.0高精度仿真能力的基礎(chǔ)上,實(shí)現(xiàn)了從單一工具到一體化全棧工作流平臺(tái)的重要升級(jí),為大模型訓(xùn)練的仿真與調(diào)優(yōu)提供系統(tǒng)化支持。
本次更新聚焦三大核心創(chuàng)新:用戶友好的可視化配置界面、智能并行策略搜索,以及融合計(jì)算與通信效率建模的System-Config生成流水線。新版本同時(shí)提升了對(duì)主流訓(xùn)練框架Megatron-LM的兼容性,并增強(qiáng)了對(duì)混合并行訓(xùn)練中復(fù)雜通信行為的建模精度,使仿真環(huán)境更貼近真實(shí)生產(chǎn)場(chǎng)景。
SimuMax是一款專為大語言模型(LLM)分布式訓(xùn)練負(fù)載設(shè)計(jì)的仿真模擬工具,可為單卡到萬卡集群提供仿真支持。它無需實(shí)際執(zhí)行完整訓(xùn)練過程,即可高精度模擬訓(xùn)練中的顯存使用和性能表現(xiàn),幫助用戶深入洞察訓(xùn)練效率,探索提升計(jì)算效能的優(yōu)化途徑。
平臺(tái)升級(jí):
從精準(zhǔn)仿真到智能工作流
SimuMax v1.1在高精度仿真能力的基礎(chǔ)上,通過以下多項(xiàng)功能構(gòu)建了更完整、更智能的工作流:
▼ 智能并行策略搜索:引入策略搜索支持,自動(dòng)探索并識(shí)別更優(yōu)的并行化及執(zhí)行策略,降低調(diào)參成本,提升訓(xùn)練效率;
▼ 系統(tǒng)配置生成流水線:新增系統(tǒng)配置文件生成流水線,包含計(jì)算效率與通信效率的刻畫,以實(shí)現(xiàn)更真實(shí)的系統(tǒng)級(jí)建模;
▼ 增強(qiáng)的框架兼容性與優(yōu)化:新增對(duì)Megatron-LM v0.14的支持,主要適配了新版本Moe Router的顯存優(yōu)化特性;
▼ 精細(xì)化帶寬爭(zhēng)用建模:專門優(yōu)化了在專家并行(EP)/張量并行(TP)與數(shù)據(jù)并行(DP)混合場(chǎng)景下的節(jié)點(diǎn)間網(wǎng)絡(luò)帶寬競(jìng)爭(zhēng)模擬,提升大規(guī)模集群仿真的準(zhǔn)確性。
體驗(yàn)革新:
可視化界面,賦能極簡(jiǎn)操作
SimuMax v1.1引入了直觀的可視化配置界面。用戶通過簡(jiǎn)單交互,即可快速完成從單卡到萬卡集群的訓(xùn)練任務(wù)定義,極大簡(jiǎn)化工作流,使工程師更專注于訓(xùn)練策略設(shè)計(jì)與深層性能優(yōu)化,提升模型研發(fā)與調(diào)優(yōu)效率。

圖示:SimuMax v1.1的可視化配置界面
快速開始:
四步啟動(dòng)高效仿真
開發(fā)者可通過以下步驟,快速體驗(yàn)SimuMax:
1、克隆倉庫:
git clone git@github.com:MooreThreads/SimuMax.git
cd SimuMax
2、安裝Python包:
pip install -r requirements.txt
pip install -v -e .
3、運(yùn)行示例:
參考項(xiàng)目中的教程和示例(如examples/perf_llama3_8b_tp1_pp2.py),即可開始使用SimuMax進(jìn)行訓(xùn)練仿真。
4、啟動(dòng)SimuMax應(yīng)用:
開發(fā)者可以選擇啟動(dòng)SimuMax應(yīng)用,訪問交互式配置界面。
cd app
bash install.sh
streamlit run streamlit_app.py
持續(xù)優(yōu)化與生態(tài)共建
SimuMax已在GitHub全面開源,開發(fā)者可訪問倉庫獲取源代碼、詳細(xì)文檔和示例。摩爾線程鼓勵(lì)開發(fā)者通過提交Issue報(bào)告問題或通過Pull Request貢獻(xiàn)代碼,共同促進(jìn)SimuMax功能的完善和軟件生態(tài)的繁榮。
▼SimuMax GitHub開源地址:
https://github.com/MooreThreads/SimuMax
▼ SimuMax v1.1版本:
https://github.com/MooreThreads/SimuMax/releases/tag/v1.1
摩爾線程始終致力于為開發(fā)者提供高效、創(chuàng)新的軟件工具鏈。SimuMax的發(fā)布,為大模型分布式訓(xùn)練提供了從可視化配置、自動(dòng)化策略推薦到高精度仿真的完整工作流,助力AI產(chǎn)業(yè)提升算力利用率,探索更高效、更智能的訓(xùn)練范式。
未來,SimuMax團(tuán)隊(duì)將持續(xù)迭代,計(jì)劃進(jìn)一步擴(kuò)展平臺(tái)能力,包括支持ViT模型、引入大規(guī)模訓(xùn)練的數(shù)據(jù)并行(DP)衰減估計(jì),以及支持計(jì)算通信重疊(TP/EP Overlap)模擬等功能,不斷突破訓(xùn)練仿真優(yōu)化的技術(shù)邊界。

