2025年11月13日,安謀科技Arm China在上海隆重發(fā)布新一代NPU IP“周易”X3。作為專為大模型時(shí)代打造的尖端產(chǎn)品,采用革命性的DSP+DSA混合架構(gòu),具備全面精度支持與多項(xiàng)自研硬件加速技術(shù),致力于為智能汽車、移動(dòng)終端、智能物聯(lián)網(wǎng)等關(guān)鍵領(lǐng)域注入強(qiáng)大AI算力,提升端側(cè)計(jì)算效率,推動(dòng)邊緣AI規(guī)?;渴?。

一、架構(gòu)革新:專為大模型而生,開啟浮點(diǎn)計(jì)算新紀(jì)元
“周易”X3的核心突破在于其底層架構(gòu)的徹底革新。它采用了專為應(yīng)對(duì)復(fù)雜大模型計(jì)算挑戰(zhàn)而設(shè)計(jì)的最新DSP+DSA架構(gòu),實(shí)現(xiàn)了從傳統(tǒng)定點(diǎn)計(jì)算向高性能浮點(diǎn)計(jì)算的關(guān)鍵跨越。該架構(gòu)支持靈活的算力配置,單計(jì)算集群Cluster可提供高達(dá)8-80 FP8 TFLOPS的算力,同時(shí)單核心Core帶寬飆升至256GB/s,為數(shù)據(jù)密集型的大模型應(yīng)用提供了堅(jiān)實(shí)的數(shù)據(jù)吞吐保障。
尤為關(guān)鍵的是,“周易”X3原生支持了端側(cè)高效運(yùn)行大模型所必需的W4A8與W4A16計(jì)算加速模式。通過對(duì)模型權(quán)重進(jìn)行低比特量化,有效大幅降低了內(nèi)存帶寬消耗,打通了云端大模型向資源受限的端側(cè)設(shè)備高效遷移的技術(shù)路徑。

二、性能飛躍:算力密度與效率雙提升,大模型能力激增十倍
得益于架構(gòu)的根本性升級(jí),“周易”X3在性能上實(shí)現(xiàn)了質(zhì)的飛躍。官方數(shù)據(jù)顯示,相較于前代“周易”X2,新一代“周易”X3在處理廣泛應(yīng)用的CNN模型時(shí),性能提升高達(dá)30%至50%。更為驚人的是,在相同算力規(guī)格下,其AIGC大模型處理能力實(shí)現(xiàn)了10倍級(jí)的跨越式增長。這一驚人表現(xiàn),源于其16倍的FP16 TFLOPS算力提升、4倍的計(jì)算核心帶寬增長,及超過10倍的Softmax和LayerNorm關(guān)鍵運(yùn)算性能強(qiáng)化。實(shí)測(cè)標(biāo)明,多核協(xié)同工作的算力線性度達(dá)到了優(yōu)異的70%-80%,確保了算力的高效利用。
在實(shí)際大模型推理測(cè)試中,“周易”X3的表現(xiàn)同樣耀眼。在運(yùn)行Llama2 7B等主流大模型時(shí),其預(yù)填充Prefill階段的算力利用率高達(dá)72%,而在關(guān)鍵的解碼Decode階段,在安謀科技自研解壓硬件WDC的加持下,有效帶寬利用率更是突破了100%,遠(yuǎn)超行業(yè)平均水平,充分釋放了硬件的潛在算力,為大模型在端側(cè)的流暢運(yùn)行提供了極致性能保障。

三、關(guān)鍵技術(shù)突破:四大核心引擎,精準(zhǔn)破解端側(cè)AI難題
“周易”X3并非簡單的性能堆砌,而是通過一系列集成化的硬件創(chuàng)新,精準(zhǔn)解決了端側(cè)部署AI大模型面臨的帶寬、調(diào)度、精度適配等核心難題。
“周易”X3搭載自研解壓硬件WDC,創(chuàng)新性地集成了權(quán)重解壓硬件單元,支持對(duì)大模型權(quán)重進(jìn)行軟件無損壓縮后直接硬件解壓,帶來約15%的等效帶寬提升,有效緩解了內(nèi)存墻壓力。同時(shí),集成的AI專屬硬件引擎AIFF與專用硬化調(diào)度器,將CPU負(fù)載降至0.5%以下,并顯著降低了任務(wù)調(diào)度延遲。這使得NPU在并行處理多路AI任務(wù)時(shí),即使在高優(yōu)先級(jí)任務(wù)需即時(shí)響應(yīng)的復(fù)雜場景下,仍能保持系統(tǒng)流暢高效運(yùn)行。
“周易”X3還支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32等多精度融合計(jì)算與強(qiáng)浮點(diǎn)運(yùn)算能力。憑借其全面的整數(shù)與浮點(diǎn)計(jì)算支持,該NPU IP能夠無縫適配從傳統(tǒng)CNN模型到前沿Transformer大模型的多樣化計(jì)算需求,在智能手機(jī)邊緣推理、AI PC、智能汽車等不同應(yīng)用中實(shí)現(xiàn)性能與能效的精準(zhǔn)平衡。此外,新增的端側(cè)大模型必備W4A8/W4A16計(jì)算加速模式,可對(duì)模型權(quán)重進(jìn)行低比特量化,大幅降低帶寬消耗,有效支持云端大模型向端側(cè)的高效遷移。

寫在最后
安謀科技Arm China “周易”X3 NPU IP的發(fā)布,標(biāo)志著端側(cè)AI計(jì)算能力邁上了一個(gè)全新臺(tái)階。其兼具高性能、高能效與高靈活性的特點(diǎn),將直接賦能智能汽車、移動(dòng)終端、智能物聯(lián)網(wǎng)、基礎(chǔ)設(shè)施等領(lǐng)域。配合其成熟易用的“周易”NPU Compass AI軟件平臺(tái),構(gòu)成了一個(gè)完整的軟硬件一體化解決方案,將極大降低開發(fā)門檻,推動(dòng)創(chuàng)新AI應(yīng)用在各行各業(yè)的快速孵化和部署。

