123,123,123

“周易”X3 NPU精准解决端侧AI大模型运行难题

日期： 2025-11-20

來(lái)源：安谋科技

關(guān)鍵詞： 安谋科技 NPU ARM 周易 AI大模型

編者按：2025 年 11 月 13 日，安謀科技（Arm China）“周易”X3 NPU IP新品。作為“All in AI”產(chǎn)品戰(zhàn)略下誕生的首款重磅產(chǎn)品，其性能指標(biāo)表現(xiàn)突出：8-80 FP8 TFLOPS、單Core帶寬256GB/s、Prefill算力利用率達(dá)72%和Decode有效帶寬利用率超100%，可使AIGC大模型能力提升10倍。

隨著AI大模型技術(shù)的飛速發(fā)展，智能手機(jī)、AI PC和智能汽車(chē)等端側(cè)設(shè)備正迎來(lái)AI能力的爆發(fā)性需求。從多模態(tài)語(yǔ)音助手到實(shí)時(shí)圖像生成，從智能座艙交互到輔助駕駛決策，端側(cè)設(shè)備需要承載越來(lái)越復(fù)雜的AI計(jì)算任務(wù)。

然而，端側(cè)AI部署面臨算力受限、能效要求高、帶寬瓶頸、開(kāi)發(fā)門(mén)檻高等多重挑戰(zhàn)，如何在有限的功耗和算力資源下實(shí)現(xiàn)大模型的高效運(yùn)行，成為行業(yè)亟需突破的關(guān)鍵難題。

圖片1.png

眾所周知，在半導(dǎo)體領(lǐng)域，“面向未來(lái)5年的產(chǎn)品方向進(jìn)行前瞻布局”已成為行業(yè)共識(shí)，涵蓋IP研發(fā)、芯片及終端產(chǎn)品研發(fā)量產(chǎn)。

因需而動(dòng)，安謀科技的“周易”X3采用兼顧C(jī)NN與Transformer的通用架構(gòu)設(shè)計(jì)，支持全算力類(lèi)型并增強(qiáng)浮點(diǎn)運(yùn)算FLOPS，助力實(shí)現(xiàn)從定點(diǎn)到浮點(diǎn)計(jì)算的關(guān)鍵轉(zhuǎn)變，并滿(mǎn)足大模型計(jì)算需求，為未來(lái)5年Gen AI、Agentic AI與Physical AI的端側(cè)落地奠定技術(shù)基石。

圖片2.png

硬件架構(gòu)：專(zhuān)為大模型設(shè)計(jì)最新DSP+DSA架構(gòu)

“周易”X3基于專(zhuān)為大模型設(shè)計(jì)的最新DSP+DSA架構(gòu)，從計(jì)算效率、帶寬、精度適配、任務(wù)處理四大維度實(shí)現(xiàn)升級(jí)，精準(zhǔn)解決端側(cè)AI大模型運(yùn)行難題，打造端側(cè)AI計(jì)算效率的新標(biāo)桿。

從定點(diǎn)轉(zhuǎn)向浮點(diǎn)計(jì)算，單Cluster擁有8-80 FP8 TFLOPS算力且可靈活配置，單Core帶寬高達(dá)256GB/s，支持端側(cè)大模型運(yùn)行必備的W4A8/W4A16計(jì)算加速模式，集成安謀科技自研的解壓硬件WDC，使大模型Weight軟件無(wú)損壓縮后通過(guò)硬件解壓獲得額外約15%的等效帶寬，計(jì)算效率和計(jì)算密度大幅提升。

圖片3.png

同時(shí)，“周易”X3集成AI專(zhuān)屬硬件引擎AIFF，配合專(zhuān)用硬化調(diào)度器，實(shí)現(xiàn)超低至0.5%的CPU負(fù)載與低調(diào)度延遲，使NPU在并行處理多項(xiàng)AI任務(wù)時(shí)，擁有高效流暢的體驗(yàn)。

軟件生態(tài)：優(yōu)化大模型端到端性能，支持客戶(hù)自定義AI開(kāi)發(fā)

“周易”X3 搭載完善易用的Compass AI軟件平臺(tái)，全面優(yōu)化大模型端到端性能。平臺(tái)廣泛兼容TensorFlow、ONNX、PyTorch等主流AI框架，具備業(yè)界領(lǐng)先的大模型動(dòng)態(tài)Shape支持能力，并支持GPTQ等大模型主流量化方案、 Hugging Face模型庫(kù)，與LLM、VLM、VLA及MoE等模型。

圖片4.png

同時(shí)，安謀科技積極構(gòu)建開(kāi)放生態(tài)，Compass AI軟件平臺(tái)已將 Parser、Optimizer、Linux Driver、TVM 及內(nèi)部 IR 格式等核心組件相繼開(kāi)源，并擁有豐富的調(diào)試工具，可滿(mǎn)足開(kāi)發(fā)者白盒部署需求，且支持更易用的 DSL 算子編程語(yǔ)言，在深度開(kāi)發(fā)模式下，客戶(hù)可以使用平臺(tái)中的Compiler、Debugger和DSL語(yǔ)言開(kāi)發(fā)出自己的自定義算子，也可通過(guò)Parser、Optimizer等工具打造出屬于自己的模型編譯器，極大提升開(kāi)發(fā)效率。

圖片5.png

“周易”Compass AI軟件平臺(tái)已支持超 160 種算子與 270 多種模型，顯著提升開(kāi)發(fā)部署效率，助力客戶(hù)快速實(shí)現(xiàn) AI 應(yīng)用創(chuàng)新與落地。

性能提升：讓端側(cè)大模型“跑得穩(wěn)、答得順”

“周易”X3遵循“軟硬協(xié)同、全周期服務(wù)與成就客戶(hù)”的產(chǎn)品準(zhǔn)則，提供從硬件、軟件到售后服務(wù)的全鏈路支持，以前瞻性設(shè)計(jì)、專(zhuān)業(yè)團(tuán)隊(duì)交付與深度服務(wù)投入，全面助力客戶(hù)大模型產(chǎn)品成功與商業(yè)化落地。

“周易”X3在架構(gòu)層面實(shí)現(xiàn)了多項(xiàng)創(chuàng)新，集成了業(yè)界矚目的關(guān)鍵特性。

1.集成自研解壓硬件WDC：使大模型Weight軟件無(wú)損壓縮后通過(guò)硬件解壓能獲得額外15%~20%等效帶寬提升。

2.新增端側(cè)大模型運(yùn)行必備的W4A8/W4A16計(jì)算加速模式：對(duì)模型權(quán)重進(jìn)行低比特量化，大幅降低帶寬消耗，支持云端大模型向端側(cè)的高效遷移。

3.集成AI專(zhuān)屬硬件引擎AIFF（AI Fixed-Function）與專(zhuān)用硬化調(diào)度器：實(shí)現(xiàn)超低至0.5%的CPU負(fù)載與低調(diào)度延遲，靈活支持端側(cè)多任務(wù)場(chǎng)景和任意優(yōu)先級(jí)調(diào)度場(chǎng)景，確保高優(yōu)先級(jí)任務(wù)的即時(shí)響應(yīng)。

4.支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合計(jì)算，強(qiáng)浮點(diǎn)計(jì)算：可靈活適配智能手機(jī)邊緣部署、AI PC推理、智能汽車(chē)等從傳統(tǒng)CNN到前沿大模型的數(shù)據(jù)類(lèi)型需求，平衡性能與能效。

在上述關(guān)鍵技術(shù)的加持下，“周易”X3獲得了優(yōu)異的計(jì)算性能：?jiǎn)蜟luster最高支持4個(gè)Core，擁有8-80 FP8 TFLOPS算力且可靈活配置，單Core帶寬高達(dá)256GB/s。相較于“周易”X2產(chǎn)品，“周易”X3的CNN模型性能提升30%-50%，多核算力線性度達(dá)到70%-80%。在同算力規(guī)格下，AIGC大模型能力較上一代產(chǎn)品實(shí)現(xiàn)10倍增長(zhǎng)，這得益于16倍的FP16 TFLOPS、4倍的計(jì)算核心帶寬、超過(guò)10倍的Softmax和LayerNorm性能提升共同驅(qū)動(dòng)。

圖片6.png

借助“周易”X3的超能力，端側(cè)大模型推理將更高效。

實(shí)測(cè)結(jié)果表明，在Llama2 7B大模型實(shí)測(cè)中，“周易”X3 NPU IP在Prefill階段算力利用率高達(dá)72%，并在安謀科技Arm China自研的解壓硬件WDC的加持下，實(shí)現(xiàn)Decode階段有效帶寬利用率超100%，遠(yuǎn)超行業(yè)平均水平，滿(mǎn)足大模型解碼階段的高吞吐需求。

總結(jié)

“周易”X3 NPU IP的發(fā)布，標(biāo)志著安謀科技Arm China“All in AI”產(chǎn)品戰(zhàn)略的正式開(kāi)啟。從“周易”Z1的基礎(chǔ)感知到“周易”X3的復(fù)雜認(rèn)知，這一技術(shù)演進(jìn)路徑清晰地表明，端側(cè)AI正在從單一的功能實(shí)現(xiàn)，邁向融合多種模型、適應(yīng)動(dòng)態(tài)場(chǎng)景的“全民普及”新階段

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

“周易”X3 NPU精准解决端侧AI大模型运行难题

日期： 2025-11-20

來(lái)源：安谋科技

相關(guān)內(nèi)容