編者按:2025 年 11 月 13 日,安謀科技(Arm China)“周易”X3 NPU IP新品。作為“All in AI”產(chǎn)品戰(zhàn)略下誕生的首款重磅產(chǎn)品,其性能指標(biāo)表現(xiàn)突出:8-80 FP8 TFLOPS、單Core帶寬256GB/s、Prefill算力利用率達(dá)72%和Decode有效帶寬利用率超100%,可使AIGC大模型能力提升10倍。
隨著AI大模型技術(shù)的飛速發(fā)展,智能手機(jī)、AI PC和智能汽車等端側(cè)設(shè)備正迎來AI能力的爆發(fā)性需求。從多模態(tài)語音助手到實時圖像生成,從智能座艙交互到輔助駕駛決策,端側(cè)設(shè)備需要承載越來越復(fù)雜的AI計算任務(wù)。
然而,端側(cè)AI部署面臨算力受限、能效要求高、帶寬瓶頸、開發(fā)門檻高等多重挑戰(zhàn),如何在有限的功耗和算力資源下實現(xiàn)大模型的高效運(yùn)行,成為行業(yè)亟需突破的關(guān)鍵難題。

眾所周知,在半導(dǎo)體領(lǐng)域,“面向未來5年的產(chǎn)品方向進(jìn)行前瞻布局”已成為行業(yè)共識,涵蓋IP研發(fā)、芯片及終端產(chǎn)品研發(fā)量產(chǎn)。
因需而動,安謀科技的“周易”X3采用兼顧C(jī)NN與Transformer的通用架構(gòu)設(shè)計,支持全算力類型并增強(qiáng)浮點運(yùn)算FLOPS,助力實現(xiàn)從定點到浮點計算的關(guān)鍵轉(zhuǎn)變,并滿足大模型計算需求,為未來5年Gen AI、Agentic AI與Physical AI的端側(cè)落地奠定技術(shù)基石。

硬件架構(gòu):專為大模型設(shè)計最新DSP+DSA架構(gòu)
“周易”X3基于專為大模型設(shè)計的最新DSP+DSA架構(gòu),從計算效率、帶寬、精度適配、任務(wù)處理四大維度實現(xiàn)升級,精準(zhǔn)解決端側(cè)AI大模型運(yùn)行難題,打造端側(cè)AI計算效率的新標(biāo)桿。
從定點轉(zhuǎn)向浮點計算,單Cluster擁有8-80 FP8 TFLOPS算力且可靈活配置,單Core帶寬高達(dá)256GB/s,支持端側(cè)大模型運(yùn)行必備的W4A8/W4A16計算加速模式,集成安謀科技自研的解壓硬件WDC,使大模型Weight軟件無損壓縮后通過硬件解壓獲得額外約15%的等效帶寬,計算效率和計算密度大幅提升。

同時,“周易”X3集成AI專屬硬件引擎AIFF,配合專用硬化調(diào)度器,實現(xiàn)超低至0.5%的CPU負(fù)載與低調(diào)度延遲,使NPU在并行處理多項AI任務(wù)時,擁有高效流暢的體驗。
軟件生態(tài):優(yōu)化大模型端到端性能,支持客戶自定義AI開發(fā)
“周易”X3 搭載完善易用的Compass AI軟件平臺,全面優(yōu)化大模型端到端性能。平臺廣泛兼容TensorFlow、ONNX、PyTorch等主流AI框架,具備業(yè)界領(lǐng)先的大模型動態(tài)Shape支持能力,并支持GPTQ等大模型主流量化方案、 Hugging Face模型庫,與LLM、VLM、VLA及MoE等模型。

同時,安謀科技積極構(gòu)建開放生態(tài),Compass AI軟件平臺已將 Parser、Optimizer、Linux Driver、TVM 及內(nèi)部 IR 格式等核心組件相繼開源,并擁有豐富的調(diào)試工具,可滿足開發(fā)者白盒部署需求,且支持更易用的 DSL 算子編程語言,在深度開發(fā)模式下,客戶可以使用平臺中的Compiler、Debugger和DSL語言開發(fā)出自己的自定義算子,也可通過Parser、Optimizer等工具打造出屬于自己的模型編譯器,極大提升開發(fā)效率。

“周易”Compass AI軟件平臺已支持超 160 種算子與 270 多種模型,顯著提升開發(fā)部署效率,助力客戶快速實現(xiàn) AI 應(yīng)用創(chuàng)新與落地。
性能提升:讓端側(cè)大模型“跑得穩(wěn)、答得順”
“周易”X3遵循“軟硬協(xié)同、全周期服務(wù)與成就客戶”的產(chǎn)品準(zhǔn)則,提供從硬件、軟件到售后服務(wù)的全鏈路支持,以前瞻性設(shè)計、專業(yè)團(tuán)隊交付與深度服務(wù)投入,全面助力客戶大模型產(chǎn)品成功與商業(yè)化落地。
“周易”X3在架構(gòu)層面實現(xiàn)了多項創(chuàng)新,集成了業(yè)界矚目的關(guān)鍵特性。
1.集成自研解壓硬件WDC:使大模型Weight軟件無損壓縮后通過硬件解壓能獲得額外15%~20%等效帶寬提升。
2.新增端側(cè)大模型運(yùn)行必備的W4A8/W4A16計算加速模式:對模型權(quán)重進(jìn)行低比特量化,大幅降低帶寬消耗,支持云端大模型向端側(cè)的高效遷移。
3.集成AI專屬硬件引擎AIFF(AI Fixed-Function)與專用硬化調(diào)度器:實現(xiàn)超低至0.5%的CPU負(fù)載與低調(diào)度延遲,靈活支持端側(cè)多任務(wù)場景和任意優(yōu)先級調(diào)度場景,確保高優(yōu)先級任務(wù)的即時響應(yīng)。
4.支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合計算,強(qiáng)浮點計算:可靈活適配智能手機(jī)邊緣部署、AI PC推理、智能汽車等從傳統(tǒng)CNN到前沿大模型的數(shù)據(jù)類型需求,平衡性能與能效。
在上述關(guān)鍵技術(shù)的加持下,“周易”X3獲得了優(yōu)異的計算性能:單Cluster最高支持4個Core,擁有8-80 FP8 TFLOPS算力且可靈活配置,單Core帶寬高達(dá)256GB/s。相較于“周易”X2產(chǎn)品,“周易”X3的CNN模型性能提升30%-50%,多核算力線性度達(dá)到70%-80%。在同算力規(guī)格下,AIGC大模型能力較上一代產(chǎn)品實現(xiàn)10倍增長,這得益于16倍的FP16 TFLOPS、4倍的計算核心帶寬、超過10倍的Softmax和LayerNorm性能提升共同驅(qū)動。

借助“周易”X3的超能力,端側(cè)大模型推理將更高效。
實測結(jié)果表明,在Llama2 7B大模型實測中,“周易”X3 NPU IP在Prefill階段算力利用率高達(dá)72%,并在安謀科技Arm China自研的解壓硬件WDC的加持下,實現(xiàn)Decode階段有效帶寬利用率超100%,遠(yuǎn)超行業(yè)平均水平,滿足大模型解碼階段的高吞吐需求。
總結(jié)
“周易”X3 NPU IP的發(fā)布,標(biāo)志著安謀科技Arm China“All in AI”產(chǎn)品戰(zhàn)略的正式開啟。從“周易”Z1的基礎(chǔ)感知到“周易”X3的復(fù)雜認(rèn)知,這一技術(shù)演進(jìn)路徑清晰地表明,端側(cè)AI正在從單一的功能實現(xiàn),邁向融合多種模型、適應(yīng)動態(tài)場景的“全民普及”新階段

