3月12日,中科曙光宣布實(shí)現(xiàn)國(guó)產(chǎn)高端原生RDMA技術(shù)重大突破,正式發(fā)布首款全棧自研400G無(wú)損高速網(wǎng)絡(luò)——scaleFabric。該產(chǎn)品基于原生RDMA架構(gòu),從底層的112G SerDes IP、硬件設(shè)備到上層的管理軟件實(shí)現(xiàn)100%自主研發(fā),填補(bǔ)了國(guó)內(nèi)數(shù)據(jù)中心高速網(wǎng)絡(luò)領(lǐng)域的空白,以比肩國(guó)際頂尖同類(lèi)產(chǎn)品的性能表現(xiàn),為超大規(guī)模智算集群鋪就了一條高帶寬、低時(shí)延、真無(wú)損、超可靠的“算力大動(dòng)脈”。

高端智算互聯(lián)待破局
隨著AI大模型訓(xùn)練與高通量推理計(jì)算需求持續(xù)擴(kuò)大,萬(wàn)卡級(jí)乃至更大規(guī)模的算力集群正成為主流形態(tài)。研究表明,在大規(guī)模分布式訓(xùn)練中,網(wǎng)絡(luò)通信耗時(shí)占比已達(dá)到30-50%,網(wǎng)絡(luò)性能直接影響算力系統(tǒng)的整體效率。
在大規(guī)模智算集群領(lǐng)域,RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))網(wǎng)絡(luò)已成為算力中心的基本需求,憑借零丟包、高帶寬、低延遲等特征,可極大提升通信效率。其中,InfiniBand憑借低時(shí)延與原生無(wú)損傳輸能力,在全球頂級(jí)超算與AI集群中被廣泛采用。根據(jù)TOP500榜單,目前全球約60%的高性能計(jì)算系統(tǒng)采用InfiniBand網(wǎng)絡(luò)架構(gòu)。
長(zhǎng)期以來(lái),從高速SerDes IP、核心芯片到IB網(wǎng)卡、IB交換機(jī)等設(shè)備,InfiniBand相關(guān)產(chǎn)業(yè)鏈基本被海外廠商壟斷。隨著AI算力需求快速增長(zhǎng)及數(shù)據(jù)中心網(wǎng)絡(luò)持續(xù)演進(jìn),自主高性能RDMA網(wǎng)絡(luò)正成為產(chǎn)業(yè)關(guān)注焦點(diǎn)。中國(guó)工程院院士鄔賀銓表示,高速網(wǎng)絡(luò)作為算力基礎(chǔ)設(shè)施的核心關(guān)鍵技術(shù),其自主可控性直接關(guān)系到國(guó)家算力基礎(chǔ)設(shè)施的安全與發(fā)展質(zhì)量。在大模型訓(xùn)練和智算集群規(guī)模化部署背景下,網(wǎng)絡(luò)需要同時(shí)具備超低延遲、超高帶寬與無(wú)損傳輸能力,而RDMA高速網(wǎng)絡(luò)正是智算集群的“算力大動(dòng)脈”。

中國(guó)工程院院士?鄔賀銓 視頻致辭
國(guó)產(chǎn)原生RDMA問(wèn)世
scaleFabric是國(guó)內(nèi)首款原生無(wú)損RDMA高速網(wǎng)絡(luò),面向超大規(guī)模智算集群設(shè)計(jì),從核心關(guān)鍵IP、交換芯片、網(wǎng)卡到交換機(jī)、驅(qū)動(dòng)與管理軟件均實(shí)現(xiàn)自主研發(fā),構(gòu)建起從硬件到軟件的完整技術(shù)體系。
此次發(fā)布的scaleFabric400系列網(wǎng)絡(luò)產(chǎn)品技術(shù)規(guī)格全面對(duì)標(biāo)英偉達(dá)NDR,部分指標(biāo)實(shí)現(xiàn)趕超。性能方面,scaleFabric400網(wǎng)卡基于PCIe5.0接口,端口帶寬達(dá)400Gbps,端到端通信時(shí)延低至0.9微秒;scaleFabric400交換機(jī)單端口帶寬達(dá)800Gbps,整機(jī)交換容量可達(dá)雙向64Tbps,交換時(shí)延約260納秒,支持800G×40或400G×80端口擴(kuò)展。這一性能組合,可充分滿足萬(wàn)卡級(jí)AI訓(xùn)練集群對(duì)高帶寬、低時(shí)延網(wǎng)絡(luò)的極致需求。
穩(wěn)定性與擴(kuò)展能力上,產(chǎn)品采用基于信用的無(wú)損流控機(jī)制,從根源規(guī)避擁塞丟包風(fēng)險(xiǎn),鏈路故障恢復(fù)時(shí)間小于1毫秒,已支撐近萬(wàn)卡集群持續(xù)穩(wěn)定運(yùn)行驗(yàn)證超10個(gè)月。與英偉達(dá)NDR相比,交換機(jī)端口密度提升25%,網(wǎng)卡最大QP數(shù)支持提升100%,單子網(wǎng)互連規(guī)模是傳統(tǒng)IB的2.33倍,可輕松支持最大11.4萬(wàn)卡集群部署,同時(shí)網(wǎng)絡(luò)總成本可降低30%。
在大規(guī)模AI訓(xùn)練系統(tǒng)中,網(wǎng)絡(luò)互聯(lián)能力已成為影響算力利用率的關(guān)鍵變量。scaleFabric的發(fā)布,標(biāo)志著國(guó)產(chǎn)智算網(wǎng)絡(luò)在高端RDMA領(lǐng)域?qū)崿F(xiàn)重大突破。
萬(wàn)卡集群率先驗(yàn)證
在實(shí)際應(yīng)用層面,scaleFabric目前已部署于國(guó)家超算互聯(lián)網(wǎng)鄭州核心節(jié)點(diǎn),支撐三套萬(wàn)卡級(jí)scaleX智算集群上線運(yùn)行,總規(guī)模達(dá)3萬(wàn)卡。中科曙光高級(jí)副總裁李斌表示,隨著產(chǎn)品在超大規(guī)模智算集群中的落地應(yīng)用,國(guó)產(chǎn)原生RDMA技術(shù)路線正逐步走向成熟,圍繞其形成的高性能網(wǎng)絡(luò)產(chǎn)業(yè)生態(tài)也正在加速形成。

運(yùn)行數(shù)據(jù)顯示,該網(wǎng)絡(luò)系統(tǒng)在大規(guī)模集群環(huán)境中保持穩(wěn)定運(yùn)行,可支持跨POD組網(wǎng)及大規(guī)模并行訓(xùn)練任務(wù),為國(guó)產(chǎn)原生無(wú)損RDMA網(wǎng)絡(luò)在高端智算基礎(chǔ)設(shè)施中的應(yīng)用提供了實(shí)踐驗(yàn)證。
依托在高性能計(jì)算、存儲(chǔ)與網(wǎng)絡(luò)領(lǐng)域的長(zhǎng)期技術(shù)積累,中科曙光已逐步形成“算—存—網(wǎng)”協(xié)同發(fā)展的完整算力底座能力,為大規(guī)模AI基礎(chǔ)設(shè)施提供系統(tǒng)級(jí)支撐。隨著政府工作報(bào)告提出持續(xù)推進(jìn)“人工智能+”,算力基礎(chǔ)設(shè)施正進(jìn)入新一輪升級(jí)周期。國(guó)產(chǎn)原生RDMA網(wǎng)絡(luò)的落地,意味著我國(guó)在智算互聯(lián)這一關(guān)鍵環(huán)節(jié)開(kāi)始形成自主技術(shù)路徑,補(bǔ)齊了我國(guó)智算基礎(chǔ)設(shè)施中的關(guān)鍵一環(huán)。

