《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 華為創(chuàng)造AI算力新紀(jì)錄

華為創(chuàng)造AI算力新紀(jì)錄

萬(wàn)卡集群訓(xùn)練98%可用度 秒級(jí)恢復(fù)
2025-06-11
來(lái)源:快科技

大模型的落地能力,核心在于性能的穩(wěn)定輸出,而性能穩(wěn)定的底層支撐,是強(qiáng)大的算力集群。其中,構(gòu)建萬(wàn)卡級(jí)算力集群,已成為全球公認(rèn)的頂尖技術(shù)挑戰(zhàn)。

但是,在華為昇騰萬(wàn)卡算力集群,已經(jīng)可以做到近乎“永不罷工”了:

-訓(xùn)練可用度達(dá)98%:這就好比你開(kāi)著一輛車(chē),全年365天里,有358天無(wú)論刮風(fēng)下雨都能一腳油門(mén)就出發(fā),從不掉鏈子,有問(wèn)題可以隨時(shí)檢修,幾乎不會(huì)耽誤你的任何行程。

-線性度超95%:比如用1000臺(tái)算力卡干活比用100臺(tái)快9.5倍以上,疊加更多算力,訓(xùn)練速度近似等比提升,不浪費(fèi)資源。

-秒級(jí)恢復(fù)、分鐘級(jí)診斷:不論訓(xùn)練還是推理,故障后幾秒鐘就可恢復(fù);幾分鐘內(nèi)定位到具體是哪臺(tái)機(jī)器、哪個(gè)部件出問(wèn)題。

1.jpg

或許有小伙伴要問(wèn)了:AI算力需要如此24小時(shí)不間斷的運(yùn)作嗎?

答案是肯定的,需要,且有必要。

因?yàn)樾〉轿覀冇檬謾C(jī)導(dǎo)個(gè)航,背后都會(huì)有幾十個(gè)AI模型在發(fā)力來(lái)分析路況、預(yù)測(cè)擁堵;再如醫(yī)院用AI輔助診斷癌癥,系統(tǒng)得在瞬間處理掉成百上千的CT照片。

這些看似簡(jiǎn)單的智能應(yīng)用,其實(shí)都離不開(kāi)如 “超級(jí)大腦” 般的AI算力集群,需要它們?nèi)旌虿煌P剡\(yùn)轉(zhuǎn)著。

而要保證有這樣的能力,高訓(xùn)練可用度、高線性度、快速消除故障,就相當(dāng)于給AI發(fā)動(dòng)機(jī)上了一份強(qiáng)有力的保險(xiǎn)。

更嚴(yán)格來(lái)說(shuō),AI推理的可用度甚至還需要達(dá)到99.95%的程度。

那么華為又是如何做到這點(diǎn)的?

關(guān)于這一切背后的秘密,華為在今天首次把技術(shù)給公開(kāi)了出來(lái)。

高可用的核心:三套“智能保險(xiǎn)系統(tǒng)”

AI大集群出問(wèn)題時(shí),定位故障特別麻煩;畢竟系統(tǒng)規(guī)模龐大,軟件和硬件組成的技術(shù)棧錯(cuò)綜復(fù)雜,而且調(diào)用鏈條還很長(zhǎng)。

要解決問(wèn)題,首先得確定故障出在哪個(gè)大的領(lǐng)域,接著再在這個(gè)領(lǐng)域內(nèi)部一步步排查,確定具體的故障位置。在整個(gè)故障診斷過(guò)程中,面臨的挑戰(zhàn)非常大。

以往技術(shù)人員進(jìn)行故障定位時(shí),短則需數(shù)小時(shí),長(zhǎng)則可能耗時(shí)數(shù)天。這一過(guò)程不僅對(duì)技術(shù)人員的專(zhuān)業(yè)技能要求頗高,且往往難以快速鎖定故障設(shè)備及根本原因。

為此,華為團(tuán)隊(duì)針對(duì)AI大集群面臨的復(fù)雜挑戰(zhàn),構(gòu)建了三大基礎(chǔ)能力。

首先是全??捎^測(cè)能力。

它像是給集群裝了一套“火眼金睛”監(jiān)控系統(tǒng)(故障感知),主要包含這幾部分:

-集群運(yùn)行視圖:實(shí)時(shí)查看集群整體運(yùn)行狀態(tài),哪里 “卡殼” 一目了然;

-告警視圖:哪里出問(wèn)題了,系統(tǒng)會(huì)主動(dòng) “打報(bào)告”,快速發(fā)出警報(bào);

-網(wǎng)絡(luò)鏈路監(jiān)控:盯著網(wǎng)絡(luò)連接的 “血管”,確保數(shù)據(jù)傳輸順暢;

-告警接入和配置:統(tǒng)一管理各種警報(bào)信息,還能根據(jù)需求靈活設(shè)置提醒規(guī)則;

-網(wǎng)絡(luò)流可觀測(cè)能力:追蹤數(shù)據(jù)在網(wǎng)絡(luò)中的 “流動(dòng)軌跡”,哪里堵了馬上能發(fā)現(xiàn)。

2.png

同時(shí),華為還拿出了一套 “故障診斷組合拳”,包含四大核心能力:

-全棧故障模式庫(kù):就像一本 “故障字典”,收錄了各種可能的問(wèn)題模式,方便快速對(duì)照排查;

-跨域故障診斷:不管故障藏在哪個(gè) “領(lǐng)域”(軟件、硬件、網(wǎng)絡(luò)等),都能跨區(qū)域 “聯(lián)合破案”;

-計(jì)算節(jié)點(diǎn)故障診斷:精準(zhǔn)定位計(jì)算單元(比如服務(wù)器)的具體問(wèn)題,揪出 “罷工” 的節(jié)點(diǎn);

-網(wǎng)絡(luò)故障診斷:專(zhuān)門(mén)對(duì)付網(wǎng)絡(luò)里的 “疑難雜癥”,比如斷網(wǎng)、延遲高、鏈路異常等。

這套組合拳讓集群故障診斷更高效,就像給工程師配了 “智能偵探工具”,大大縮短了找問(wèn)題的時(shí)間。

最后,是一套“鋼鐵韌帶”自愈系統(tǒng)(容錯(cuò)設(shè)計(jì))。

想要把超平面網(wǎng)絡(luò)的厲害之處完全發(fā)揮出來(lái),超節(jié)點(diǎn)的規(guī)模就得足夠大。不過(guò)到現(xiàn)在,還沒(méi)有哪個(gè)團(tuán)隊(duì)能用光鏈路搭建超節(jié)點(diǎn)并成功的。

于是,華為團(tuán)隊(duì)就琢磨出一套超節(jié)點(diǎn)光鏈路軟件容錯(cuò)的好辦法。

這套辦法就像給超節(jié)點(diǎn)穿上了好幾層 “防護(hù)鎧甲”,用上 “超時(shí)代答”“綠色通道” 這些關(guān)鍵技術(shù)后,超節(jié)點(diǎn)基本不會(huì)出現(xiàn)大故障。

同時(shí),又通過(guò)鏈路級(jí)重傳、光模塊動(dòng)態(tài)調(diào)整Lane、重新執(zhí)行HCCL算子、借軌通信、雙層路由快速恢復(fù)、Step級(jí)重新調(diào)度等技術(shù),讓超節(jié)點(diǎn)對(duì)光模塊突然中斷這類(lèi)故障的承受能力變得超強(qiáng),能容忍超過(guò)99%的光模塊閃斷情況。

哪怕超節(jié)點(diǎn)里的光模塊數(shù)量一下子增加了10倍還多,依靠軟件提升可靠性的手段,再配合光鏈路壓力測(cè)試技術(shù),光模塊閃斷的概率能降低到和傳統(tǒng)電鏈路差不多的水平,穩(wěn)穩(wěn)保障超平面網(wǎng)絡(luò)不出問(wèn)題。

而且,華為團(tuán)隊(duì)還打造出Step級(jí)重調(diào)度能力,以前遇到頻繁的 HBM 多比特 ECC 故障,修復(fù)可能要花很長(zhǎng)時(shí)間,現(xiàn)在1分鐘內(nèi)就能搞定,用戶因?yàn)楣收蠐p失的算力也減少了5%,實(shí)實(shí)在在地省下了不少 “計(jì)算力”。

計(jì)算卡再多,也不影響效率

線性度指標(biāo),簡(jiǎn)單來(lái)說(shuō)就是看算力卡數(shù)量增加后,訓(xùn)練任務(wù)的速度或效率能提高多少(比如完成時(shí)間縮短的比例)。

舉個(gè)例子:如果算力卡增加2倍,訓(xùn)練速度也能接近2倍,說(shuō)明線性度高;如果速度只提高1.2倍,就說(shuō)明線性度差,資源沒(méi)被充分利用。

為了讓訓(xùn)練效率隨著算力卡增多而 “更成正比地提升”,華為團(tuán)隊(duì)研發(fā)了四項(xiàng)關(guān)鍵技術(shù):

TACO(拓?fù)涓兄膮f(xié)同編排技術(shù)):就像給算力卡 “排兵布陣”,根據(jù)硬件連接結(jié)構(gòu)(比如網(wǎng)絡(luò)拓?fù)洌┲悄芊峙淙蝿?wù),避免 “通信堵車(chē)”。

NSF(網(wǎng)絡(luò)級(jí)網(wǎng)存算融合技術(shù)):把網(wǎng)絡(luò)傳輸、數(shù)據(jù)存儲(chǔ)和計(jì)算能力 “打包優(yōu)化”,讓數(shù)據(jù)在算力卡之間流動(dòng)更順暢,減少等待時(shí)間。

NB(拓?fù)涓兄膶哟位贤ㄐ偶夹g(shù)):針對(duì)大規(guī)模集群設(shè)計(jì) “分層通信策略”,比如讓同一區(qū)域的算力卡先快速協(xié)作,再跨區(qū)域同步,提升整體通信效率。

AICT(無(wú)侵入通信跨層測(cè)量與診斷技術(shù)):不干擾正常訓(xùn)練的前提下,實(shí)時(shí) “監(jiān)控” 通信鏈路,快速發(fā)現(xiàn)哪里 “卡頓” 并修復(fù),確保數(shù)據(jù)傳輸穩(wěn)定。

通過(guò)這四項(xiàng)技術(shù),華為讓Pangu大模型的訓(xùn)練線性度(即效率隨算力卡增加的提升比例)明顯提高。

整體方案的思路大概如下圖所示:

3.png

實(shí)驗(yàn)及理論分析結(jié)果顯示,訓(xùn)練Pangu Ultra 135B稠密模型時(shí),4K卡Atlas 800T A2集群相比256卡基線,線性度為96%。

訓(xùn)練Pangu Ultra MoE 718B稀疏模型時(shí),8K卡Atlas 800T A2集群相比512卡基線,線性度95.05%;4K卡CloudMatrix 集群相比256卡基線,線性度96.48%。

具備秒級(jí)恢復(fù)的能力

在大規(guī)模AI集群運(yùn)行時(shí),經(jīng)常會(huì)因?yàn)楦鞣N硬件或軟件故障,導(dǎo)致訓(xùn)練任務(wù)突然中斷。

目前行業(yè)里常用的辦法是,在訓(xùn)練過(guò)程中定期保存 “進(jìn)度存檔”(CKPT),等故障修復(fù)后從存檔點(diǎn)繼續(xù)訓(xùn)練。

華為則憑借軟硬件全方面的技術(shù)創(chuàng)新,打造了一套 “分層分級(jí)” 的訓(xùn)練任務(wù)故障快速恢復(fù)系統(tǒng)。

簡(jiǎn)單來(lái)說(shuō),就是針對(duì)不同類(lèi)型、不同程度的故障,制定了對(duì)應(yīng)的 “快速重啟方案”,讓訓(xùn)練任務(wù)能更快 “續(xù)上”。

不同層級(jí)的故障恢復(fù)能力可以參考下面這張圖:

4.png

除此之外,華為采用了一系列提速 “黑科技”:比如優(yōu)化數(shù)據(jù)集查找速度、緩存模型編譯結(jié)果、加快通信鏈路建立、提升訓(xùn)練進(jìn)度保存效率。

這些技術(shù)效果顯著:如果是萬(wàn)卡規(guī)模的超大型集群,從故障中恢復(fù)訓(xùn)練,10分鐘內(nèi)就能搞定;要是用 “進(jìn)程級(jí)重調(diào)度恢復(fù)” 方法,3分鐘內(nèi)就能接著訓(xùn)練;要是用更厲害的 “進(jìn)程級(jí)在線恢復(fù)”,30秒就能重新開(kāi)始訓(xùn)練。

而且,不管集群規(guī)模有多大,模型有多復(fù)雜,恢復(fù)時(shí)間基本不受影響,還能把因?yàn)楣收蠈?dǎo)致的訓(xùn)練進(jìn)度倒退時(shí)間,壓縮到一次訓(xùn)練循環(huán)的時(shí)長(zhǎng)。

這么一來(lái),AI集群能用的時(shí)間大大增加,大模型訓(xùn)練的效率也快了很多。

在訓(xùn)練階段后的推理,也有諸多問(wèn)題亟待解決。

當(dāng)千億級(jí)MoE模型不斷升級(jí),模型部署的網(wǎng)絡(luò)結(jié)構(gòu)也跟著變了。以前單機(jī)8卡就足夠跑一個(gè)推理實(shí)例,如今,大EP模型架構(gòu)下,需要數(shù)十乃至上百?gòu)埧ú拍苤瓮评磉\(yùn)行。

但新架構(gòu)帶來(lái)個(gè)麻煩:用的設(shè)備越多,出故障的可能性就越大,而且一旦有問(wèn)題,影響的范圍會(huì)特別廣。

只要有一個(gè)硬件出故障,整個(gè)Decode實(shí)例(可以理解成模型運(yùn)行的一個(gè) “小團(tuán)隊(duì)”)就沒(méi)法工作了,直接導(dǎo)致AI推理業(yè)務(wù)出問(wèn)題,嚴(yán)重的話整個(gè)業(yè)務(wù)都會(huì)停擺。

為了解決大EP推理架構(gòu)容易出故障的難題,華為團(tuán)隊(duì)想出了一個(gè)分三步的 “保險(xiǎn)計(jì)劃”:

第一步是實(shí)例間切換,就像給業(yè)務(wù)準(zhǔn)備了 “備用團(tuán)隊(duì)”,一個(gè)實(shí)例不行了,馬上換另一個(gè)頂上;

第二步是實(shí)例內(nèi)重啟恢復(fù),發(fā)現(xiàn)實(shí)例里有問(wèn)題,快速重啟內(nèi)部程序,讓它重新正常工作;

第三步是實(shí)例內(nèi)無(wú)損恢復(fù),即使出故障也不丟失數(shù)據(jù),在不影響業(yè)務(wù)的情況下修復(fù)問(wèn)題。

這三步方案需要芯片驅(qū)動(dòng)、框架軟件、平臺(tái)系統(tǒng)各個(gè)層面緊密配合,組成一套完整的 “防護(hù)網(wǎng)”。遇到不同類(lèi)型的故障,就用最合適的恢復(fù)方法,盡可能減少對(duì)用戶的影響,讓AI推理業(yè)務(wù)穩(wěn)穩(wěn)運(yùn)行。

5.png

在實(shí)例內(nèi)重啟恢復(fù)技術(shù)中,通過(guò)構(gòu)建帶內(nèi)快速故障感知和重調(diào)度機(jī)制,搭配參數(shù)權(quán)重預(yù)熱和鏡像預(yù)熱技術(shù),能把實(shí)例內(nèi)部的重啟恢復(fù)時(shí)間壓縮到5分鐘以內(nèi)。

還有一項(xiàng)很厲害的TOKEN級(jí)重試技術(shù),當(dāng)遇到HBM KV Cache故障時(shí),從故障發(fā)生到重新輸出Token的整個(gè)恢復(fù)過(guò)程不到10秒。

對(duì)比業(yè)界通常需要10分鐘才能恢復(fù)實(shí)例的情況,這項(xiàng)技術(shù)能將故障帶來(lái)的影響降低60倍,幾乎讓用戶感覺(jué)不到故障發(fā)生,極大提升了系統(tǒng)的穩(wěn)定性和用戶體驗(yàn)。

總結(jié)來(lái)看,針對(duì)AI算力集群的高可用性,華為團(tuán)隊(duì)創(chuàng)新性提出了“3+3”雙維度技術(shù)體系,即故障感知診斷、故障管理、集群光鏈路容錯(cuò)等三大基礎(chǔ)能力,以及集群線性度、訓(xùn)練快恢、推理快恢等三大業(yè)務(wù)支撐能力。

這六大創(chuàng)新均帶來(lái)了非??捎^的收益,比如萬(wàn)卡集群訓(xùn)練可用度達(dá)到98%、集群訓(xùn)推最快達(dá)到秒級(jí)快恢、集群線性度達(dá)到95%+、千種故障模式庫(kù)與分鐘級(jí)故障診斷等。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。