近期,36氪于北京盛大召開“WISE2024 商業(yè)之王”大會(huì),吸引各行各業(yè)精英齊聚,共探艱難卻正確之事。北京電子數(shù)智科技有限責(zé)任公司(以下簡(jiǎn)稱“北電數(shù)智”)應(yīng)邀出席,其CMO兼戰(zhàn)略與市場(chǎng)負(fù)責(zé)人楊震發(fā)表《“國(guó)產(chǎn)算力 PoC 平臺(tái)”,以場(chǎng)景測(cè)評(píng)尋找算力最優(yōu)解》主題演講,在大會(huì)上分享了北電數(shù)智對(duì)于國(guó)產(chǎn)算力應(yīng)用的深刻見解與前沿探索成果,為行業(yè)發(fā)展提供了極具價(jià)值的思路與方向。
OpenAI o1發(fā)布后,強(qiáng)化學(xué)習(xí)提升大模型智力的推理模型路線獲得了業(yè)內(nèi)認(rèn)可,不少公司紛紛發(fā)布推理模型。而推理模型雖信奉以長(zhǎng)思考時(shí)間提高智能水平,但實(shí)際應(yīng)用中用戶仍看重響應(yīng)速度快、推理成本低、吞吐能力長(zhǎng)這些指標(biāo)。且推理模型注重垂直場(chǎng)景落地,存在產(chǎn)業(yè)鏈斷層,模型方與算力供給需按場(chǎng)景系統(tǒng)化適配痛點(diǎn)。北電數(shù)智首個(gè)國(guó)產(chǎn)算力PoC平臺(tái)可助力推理模型落地,提供低成本算力,幫大模型適配國(guó)產(chǎn)芯片提升推理效果、加速推理速度。
國(guó)產(chǎn)算力PoC平臺(tái)構(gòu)建于北電數(shù)智先進(jìn)計(jì)算迭代驗(yàn)證平臺(tái)(即前進(jìn)?AI 異構(gòu)計(jì)算平臺(tái))之上,坐落于由北電數(shù)智統(tǒng)籌規(guī)劃建設(shè)、設(shè)計(jì)運(yùn)營(yíng)的北京數(shù)字經(jīng)濟(jì)算力中心。國(guó)產(chǎn)算力PoC平臺(tái)可針對(duì)不同廠家的算力芯片,實(shí)施算力納管與統(tǒng)一調(diào)度,依據(jù)各類模型任務(wù)的特性差異,精準(zhǔn)調(diào)配適宜的算力資源。同時(shí),借助構(gòu)建豐富的算子庫、打造通信庫等手段,有力推動(dòng)模型訓(xùn)練加速進(jìn)程,為大模型供給兼具高性價(jià)比與高品質(zhì)的算力支持,使其以更低成本、更高效率開展運(yùn)算,助力大模型落地。
當(dāng)模型與行業(yè)、場(chǎng)景深入結(jié)合,定制化的重要性日益凸顯。北電數(shù)智推出的國(guó)產(chǎn)算力PoC平臺(tái)能夠?yàn)橛脩粼诖怪眻?chǎng)景下提供算力集群的評(píng)測(cè)、適配以及驗(yàn)證服務(wù),協(xié)助算力需求方探尋出最為適宜的“軟件+硬件”組合方案,以此提升模型訓(xùn)推算力的效率,削減訓(xùn)推所需時(shí)間與成本,為用戶締造更優(yōu)質(zhì)的使用體驗(yàn)。
國(guó)產(chǎn)算力PoC平臺(tái)大幅提升國(guó)產(chǎn)芯片利用率和集群利用率。借助調(diào)度、算法以及算子等多層面優(yōu)化,國(guó)產(chǎn)算力PoC平臺(tái)可大幅改善國(guó)產(chǎn)集群的訓(xùn)推效能,混訓(xùn)集群的訓(xùn)練成果能夠達(dá)到單一集群綜合訓(xùn)練效果的1.2倍,在進(jìn)行混推操作時(shí)使平均MFU(模型對(duì)算力的利用率)從30%躍升至60%。
經(jīng)過國(guó)產(chǎn)算力PoC平臺(tái)多層優(yōu)化后,反映在模型生成速度上表現(xiàn)為基于國(guó)產(chǎn)芯片的模型首字延遲最多可優(yōu)化10倍,解碼延遲可達(dá)10倍優(yōu)化,能更迅速地完成數(shù)據(jù)解析工作,推理吞吐量最高可實(shí)現(xiàn)80倍的提升。意味著在單位時(shí)間內(nèi)能夠處理更多的數(shù)據(jù),進(jìn)而更快速地響應(yīng)模型推理需求,有效提升用戶體驗(yàn)并提高數(shù)據(jù)處理效率。
為進(jìn)一步提升運(yùn)行效率并節(jié)約資源,北電數(shù)智在集群中運(yùn)用了一系列推理優(yōu)化策略。例如,憑借scoping to zero特性能夠有效縮短冷啟動(dòng)時(shí)長(zhǎng);在集群推理環(huán)節(jié),支持Continuous batch、Page attention、CPU / GPU 異步等推理策略,提高GPU利用率。
當(dāng)前,北電數(shù)智的國(guó)產(chǎn)算力PoC平臺(tái)已經(jīng)實(shí)現(xiàn)了對(duì)十多種國(guó)內(nèi)知名算力芯片的評(píng)測(cè)支持以及與二十多款主流模型的適配。北電數(shù)智的國(guó)產(chǎn)算力PoC平臺(tái)在當(dāng)下AI發(fā)展進(jìn)程中已彰顯出關(guān)鍵價(jià)值與強(qiáng)大競(jìng)爭(zhēng)力。其憑借精準(zhǔn)的算力納管與調(diào)度、卓越的模型適配能力以及全方位的優(yōu)化舉措,有效解決了推理模型在落地應(yīng)用時(shí)面臨的諸多難題,極大地提升了國(guó)產(chǎn)芯片利用率與集群效能,降低了模型訓(xùn)推成本并顯著提高了運(yùn)行效率。
身為肩負(fù)“建設(shè)數(shù)字中國(guó)”使命的AI原生國(guó)企,北電數(shù)智始終堅(jiān)持做難而正確的事,致力于強(qiáng)化行業(yè)間的生態(tài)聯(lián)動(dòng),打通模型、場(chǎng)景與芯片在商業(yè)運(yùn)營(yíng)及研發(fā)創(chuàng)新層面的閉環(huán)鏈路。在人工智能產(chǎn)業(yè)蓬勃發(fā)展的浪潮中,北電數(shù)智積極布局,通過持續(xù)優(yōu)化國(guó)產(chǎn)算力PoC平臺(tái)整合行業(yè)資源,不僅為產(chǎn)業(yè)鏈上下游企業(yè)提供了高效的合作橋梁,也致力于提升我國(guó)人工智能產(chǎn)業(yè)自主化創(chuàng)新能力,為國(guó)家科技戰(zhàn)略推進(jìn)做出創(chuàng)新示范。