近日,在中國(guó)電信集團(tuán)公司統(tǒng)一組織下,中國(guó)電信研究院、天翼云、北京電信成功完成業(yè)內(nèi)首個(gè)1024卡千億參數(shù)商用大模型分布式聯(lián)合訓(xùn)練真實(shí)用戶試商用,通過武清到瀛海之間的真實(shí)光路環(huán)回實(shí)現(xiàn)了500公里長(zhǎng)距互聯(lián)分布式訓(xùn)練,訓(xùn)練性能達(dá)到單數(shù)據(jù)中心的97%以上,這一重大突破為大模型訓(xùn)練的跨地域協(xié)同發(fā)展開辟了新的道路。
本次試商用基于北京現(xiàn)網(wǎng)800G廣域智聯(lián)無損網(wǎng)絡(luò)以及息壤一站式智算服務(wù)平臺(tái)開展,在互聯(lián)距離、帶寬收斂比以及模型參數(shù)方面均產(chǎn)生突破,實(shí)現(xiàn)了多數(shù)據(jù)中心互聯(lián)及資源整合支持商用模型分布式聯(lián)合訓(xùn)練。
在廣域智聯(lián)無損網(wǎng)絡(luò)技術(shù)方面,中國(guó)電信創(chuàng)新廣域無損調(diào)度算法、關(guān)鍵幀識(shí)別技術(shù),將帶寬收斂比提升到32:1;創(chuàng)新WSON 50ms極速倒換技術(shù),實(shí)現(xiàn)長(zhǎng)距鏈路中斷無感知切換。系列技術(shù)有效解決了長(zhǎng)距離傳輸中網(wǎng)絡(luò)擁塞丟包、鏈路故障、建網(wǎng)成本等問題,確保了訓(xùn)練過程的穩(wěn)定性和高效性——在500公里的長(zhǎng)距離傳輸下,網(wǎng)絡(luò)傳輸吞吐率仍能保持在較高水平,為千卡千億參數(shù)商用大模型的聯(lián)合訓(xùn)練提供了堅(jiān)實(shí)的網(wǎng)絡(luò)支撐。與此同時(shí),息壤平臺(tái)支持算力插件、跨地域算網(wǎng)協(xié)同、跨數(shù)據(jù)中心自動(dòng)并行、斷點(diǎn)續(xù)訓(xùn)等一系列關(guān)鍵技術(shù)能力,實(shí)現(xiàn)故障秒級(jí)定位、分鐘級(jí)處理與恢復(fù),保證了百川千億參數(shù)商用模型的快速部署和穩(wěn)定高效運(yùn)行。
此次試商用的成功是中國(guó)電信在智算網(wǎng)絡(luò)領(lǐng)域持續(xù)創(chuàng)新和實(shí)踐的成果,也是積極響應(yīng)國(guó)家戰(zhàn)略推動(dòng)算力網(wǎng)絡(luò)協(xié)同發(fā)展的重要舉措。未來,中國(guó)電信將繼續(xù)加大在智算網(wǎng)絡(luò)領(lǐng)域的投入和研發(fā)力度,為人工智能產(chǎn)業(yè)的發(fā)展提供更加強(qiáng)有力的網(wǎng)絡(luò)支持,助力我國(guó)數(shù)字經(jīng)濟(jì)的高質(zhì)量發(fā)展。