近日,中國(guó)電信研究院聯(lián)合中國(guó)科學(xué)院計(jì)算所、華為昇騰、沐曦等產(chǎn)業(yè)伙伴,依托中國(guó)電信云網(wǎng)融合技術(shù)中試驗(yàn)證平臺(tái),成功完成業(yè)界首個(gè)面向國(guó)產(chǎn)算力的跨架構(gòu)大模型推理技術(shù)驗(yàn)證。此次突破構(gòu)建了基于Triton的異構(gòu)大模型推理框架,實(shí)現(xiàn)“一套框架代碼、三芯透明遷移”的核心目標(biāo),將大模型算子適配周期從“周級(jí)”壓縮至“天級(jí)”,性能達(dá)到原生算子庫(kù)90%。
當(dāng)前,國(guó)產(chǎn)芯片生態(tài)碎片化、算子開發(fā)難度高、適配周期長(zhǎng)等問題,已成為制約國(guó)產(chǎn)算力規(guī)?;逃玫年P(guān)鍵瓶頸。為破解這一行業(yè)痛點(diǎn),中國(guó)電信研究院牽頭啟動(dòng)“Triton統(tǒng)一跨架構(gòu)推理框架”技術(shù)攻關(guān),成功突破三大核心技術(shù):一是自研Triton跨架構(gòu)編譯器與統(tǒng)一大模型算子庫(kù),實(shí)現(xiàn)同一套算子源碼在英偉達(dá)、昇騰、沐曦三類芯片上無縫運(yùn)行,從根源上解決多架構(gòu)適配難題;二是創(chuàng)新研發(fā)vLLM-Triton運(yùn)行時(shí)透明嵌入插件,采用零侵入式接入方式,完整繼承原生調(diào)度、內(nèi)存管理及量化策略,保障框架兼容性與穩(wěn)定性;三是打造圖算融合編譯器,通過多芯聯(lián)合優(yōu)化計(jì)算圖,自動(dòng)匹配最優(yōu)算子實(shí)現(xiàn)方案與并行切分策略,將性能損耗嚴(yán)格控制在10%以內(nèi)。
本次技術(shù)驗(yàn)證已完成10余款主流開源模型在三類芯片上的端到端推理測(cè)試,核心指標(biāo)表現(xiàn)優(yōu)異:平均遷移時(shí)間≤3天,較傳統(tǒng)適配模式效率提升超80%;精度誤差<0.5%,確保模型推理可靠性;在同等延遲約束下,系統(tǒng)吞吐達(dá)到各芯片原生算子庫(kù)的90%以上,實(shí)現(xiàn)性能與適配效率的雙重優(yōu)化。此外,框架內(nèi)置的benchmark與Profiling工具可一鍵生成跨芯性能對(duì)比報(bào)告,為業(yè)務(wù)方提供直觀、精準(zhǔn)的選芯決策支撐。
作為支撐本次驗(yàn)證的核心平臺(tái),中國(guó)電信云網(wǎng)融合技術(shù)中試驗(yàn)證平臺(tái)入選國(guó)資委央企中試平臺(tái)名錄,現(xiàn)已對(duì)外開放20余項(xiàng)中試驗(yàn)證服務(wù)能力,憑借其優(yōu)質(zhì)智算資源與靈活組網(wǎng)能力,構(gòu)建了業(yè)界領(lǐng)先的異構(gòu)推理試驗(yàn)環(huán)境,為技術(shù)突破提供了關(guān)鍵保障,標(biāo)志著國(guó)產(chǎn)算力生態(tài)正式從“一芯一策”的分散適配模式,邁入“統(tǒng)一框架”的高效協(xié)同新階段,大幅降低了國(guó)產(chǎn)芯片的應(yīng)用門檻。
未來,中國(guó)電信將持續(xù)拓展Triton異構(gòu)推理框架的適配范圍,覆蓋更多算力芯片與大模型類型,與產(chǎn)業(yè)伙伴攜手共建“代碼一次編寫、多芯無縫遷移”的開放生態(tài)。通過技術(shù)創(chuàng)新推動(dòng)國(guó)產(chǎn)算力從“可用”向“好用”“易用”跨越,為自主可控、多元異構(gòu)的算力基礎(chǔ)設(shè)施高質(zhì)量協(xié)同發(fā)展注入強(qiáng)勁動(dòng)力,助力我國(guó)數(shù)字經(jīng)濟(jì)核心產(chǎn)業(yè)自主化進(jìn)程。

