2025年12月18日,在昆山舉行的光合組織2025人工智能創(chuàng)新大會(huì)(HAIC2025)上,中科曙光發(fā)布并展出了全球領(lǐng)先的大規(guī)模智能計(jì)算系統(tǒng)——scaleX萬(wàn)卡超集群,這也是國(guó)產(chǎn)萬(wàn)卡級(jí)AI集群系統(tǒng)首次以真機(jī)形式亮相。

“scaleX萬(wàn)卡超集群,是曙光發(fā)揮大型計(jì)算機(jī)系統(tǒng)研制經(jīng)驗(yàn)優(yōu)勢(shì),面向萬(wàn)億參數(shù)大模型、科學(xué)智能等復(fù)雜任務(wù)場(chǎng)景打造的大規(guī)模智能算力基礎(chǔ)設(shè)施方案”。中科曙光高級(jí)副總裁李斌表示,面對(duì)人工智能基礎(chǔ)設(shè)施對(duì)性能、效率、可靠性、可擴(kuò)展性等方面的極致需求,scaleX萬(wàn)卡超集群在超節(jié)點(diǎn)架構(gòu)、高速互連網(wǎng)絡(luò)、存儲(chǔ)性能優(yōu)化、系統(tǒng)管理調(diào)度等方面實(shí)現(xiàn)了多項(xiàng)創(chuàng)新突破,部分技術(shù)與能力已超越海外同類產(chǎn)品研發(fā)路線圖的2027年NVL576里程節(jié)點(diǎn),其核心技術(shù)優(yōu)勢(shì)如下:
優(yōu)勢(shì)1:全球首創(chuàng)單機(jī)柜級(jí)640卡超節(jié)點(diǎn)。scaleX萬(wàn)卡超集群由16個(gè)曙光scaleX640超節(jié)點(diǎn)通過(guò)scaleFabric高速網(wǎng)絡(luò)互連而成,可實(shí)現(xiàn)10240塊AI加速卡部署,總算力規(guī)模超5EFlops。作為世界首個(gè)單機(jī)柜級(jí)640卡超節(jié)點(diǎn),scaleX640采用超高密度刀片、浸沒(méi)相變液冷等技術(shù),將單機(jī)柜算力密度提升20倍,PUE值低至1.04。
優(yōu)勢(shì)2:自主研發(fā)原生RDMA高速網(wǎng)絡(luò)。曙光scaleFabric網(wǎng)絡(luò),基于國(guó)內(nèi)首款400G 類InfiniBand的原生RDMA網(wǎng)卡與交換芯片,可實(shí)現(xiàn)400Gb/s超高帶寬、低于1微秒端側(cè)通信延遲,超節(jié)點(diǎn)間的通信性能達(dá)到業(yè)內(nèi)領(lǐng)先水平,充分釋放萬(wàn)卡超集群算力,并可將超集群規(guī)模輕松擴(kuò)展至10 萬(wàn)卡以上,相比傳統(tǒng)IB網(wǎng)絡(luò)提升2.33倍,同時(shí)網(wǎng)絡(luò)總體成本降低 30%。
優(yōu)勢(shì)3:存、算、傳緊耦合深度優(yōu)化。通過(guò)“超級(jí)隧道”、AI數(shù)據(jù)加速等設(shè)計(jì),實(shí)現(xiàn)從芯片級(jí)、系統(tǒng)級(jí)到應(yīng)用級(jí)的三級(jí)數(shù)據(jù)傳輸協(xié)同優(yōu)化,使存力平臺(tái)高效應(yīng)對(duì)大模型訓(xùn)練時(shí)萬(wàn)卡并發(fā)讀寫(xiě)帶寬極致需求挑戰(zhàn),提升高通量AI推理時(shí)的響應(yīng)速度與結(jié)果精準(zhǔn)度,并可將AI加速卡資源利用率提高55%。
優(yōu)勢(shì)4:超集群數(shù)字孿生與智能調(diào)度。通過(guò)物理集群數(shù)字孿生,實(shí)現(xiàn)故障定位、修復(fù)等全流程可視化智能管理;智能化運(yùn)維平臺(tái)可支撐集群長(zhǎng)期可用性達(dá)99.99%;智能調(diào)度引擎可管理萬(wàn)級(jí)節(jié)點(diǎn)、服務(wù)十萬(wàn)級(jí)用戶,支持每秒萬(wàn)級(jí)作業(yè)調(diào)度。

作為 “AI計(jì)算開(kāi)放架構(gòu)”最新重磅成果,scaleX萬(wàn)卡超集群可支持多品牌加速卡以及主流計(jì)算生態(tài),并實(shí)現(xiàn)400+主流大模型、世界模型等適配優(yōu)化。在實(shí)際應(yīng)用中,該超集群可覆蓋大模型訓(xùn)練、金融風(fēng)控、地質(zhì)能源勘探及科學(xué)智能等多元場(chǎng)景。
“AI計(jì)算開(kāi)放架構(gòu)” 由中科曙光協(xié)同20多家AI產(chǎn)業(yè)鏈企業(yè)共同推出,以共享若干關(guān)鍵共性技術(shù)能力,依托系統(tǒng)工程思維推進(jìn)智算集群創(chuàng)新。通過(guò)scaleX萬(wàn)卡超集群,AI企業(yè)可降低智算集群研發(fā)門檻,并從技術(shù)“單點(diǎn)突圍”走向產(chǎn)業(yè)“生態(tài)共進(jìn)”,將開(kāi)放理念轉(zhuǎn)化為可落地普惠算力。

