123,123,123

详解Arm Cortex-A320针对物联网优化的超高能效Armv9 CPU

日期： 2025-02-28

作者：Arm 物联网事业部高级产品经理 Dimosthenis Rossidis

來源：Arm

關(guān)鍵詞： ARM Armv9 Cortex-A320 物联网 CPU

在當(dāng)前持續(xù)演進(jìn)的物聯(lián)網(wǎng) (IoT) 環(huán)境中，軟件復(fù)雜性不斷增加，邊緣設(shè)備因而需要更勝以往的性能、能效和安全性。Arm Cortex-A 系列產(chǎn)品通過為功率有限的設(shè)備帶來先進(jìn)的計(jì)算功能，進(jìn)而滿足這一需求，并為多樣化的市場(chǎng)提供增強(qiáng)的人工智能 (AI) 處理能力、強(qiáng)大的安全性和優(yōu)化的能效。Cortex-A3xx 系列專為包括消費(fèi)類電子設(shè)備和云服務(wù)等在內(nèi)的各種細(xì)分市場(chǎng)提供超高能效解決方案和優(yōu)化的性能。更重要的是，該系列 CPU 為快速增長(zhǎng)的高度多樣化物聯(lián)網(wǎng)市場(chǎng)提供了性能強(qiáng)勁且可擴(kuò)展的解決方案，使其成為邊緣 AI 應(yīng)用的理想之選。

邊緣 AI 需要更卓越的計(jì)算性能、更強(qiáng)大的安全性，以及更出色的軟件靈活性。隨著軟件愈發(fā)復(fù)雜化，Armv9 架構(gòu)應(yīng)運(yùn)而生，以提供先進(jìn)的機(jī)器學(xué)習(xí) (ML) 和 AI 功能，并具備增強(qiáng)的安全特性。該架構(gòu)現(xiàn)已在 Cortex-A3xx 的超高能效系列實(shí)現(xiàn)，為新一代邊緣 AI 應(yīng)用夯實(shí)根基。

Cortex-A320：最小型的 Armv9 架構(gòu)實(shí)現(xiàn)

Arm 今日發(fā)布的 Cortex-A320 是首款基于 Armv9 架構(gòu)的超高能效 Cortex-A 處理器。這是一款基于 Armv9.2-A 架構(gòu)的 AArch64 CPU。其微架構(gòu)源自 Cortex-A520，并經(jīng)過顯著優(yōu)化，以改善面積和功耗。

Cortex-A320 的能效相較 Cortex-A520 提高了 50% 以上。這一提升是通過多次微架構(gòu)的更新而實(shí)現(xiàn)，其中包括窄取和解碼數(shù)據(jù)路徑、密集存儲(chǔ)的 L1 緩存、縮減端口的整數(shù)寄存器文件等優(yōu)化。

得益于高能效的分支預(yù)測(cè)器和預(yù)取器，以及內(nèi)存系統(tǒng)的提升等微架構(gòu)上的顯著創(chuàng)新，Cortex-A320 在 SPECINT2K6 基準(zhǔn)測(cè)試中的標(biāo)量性能相比其前代產(chǎn)品 Cortex-A35 提升了 30% 以上。

更重要的是，通過集成增強(qiáng)的Armv9 的 Neon 和 SVE2 向量處理技術(shù)，在 INT8 通用矩陣乘法 (GEMM) 中測(cè)得 Cortex-A320 的 ML 處理能力比 Cortex-A35 高出至多 10 倍。此外，通過對(duì) BF16 等新的數(shù)據(jù)類型、新的點(diǎn)積和矩陣乘法指令的支持，Cortex-A320 的 ML 性能比目前全球最受歡迎的 Armv8-A CPU Cortex-A53 高出至多六倍。

Cortex-A320 在 ML 能力的大幅提升，以及極高的面積能效比，使其在 ML 應(yīng)用中成為最高能效的 Cortex-A CPU 核心。

與 Arm Cortex-M 處理器相比，Cortex-A320 的 ML 性能同樣提高了數(shù)倍。例如，在 GEMM 性能方面，Cortex-A320 相較目前性能最高的 Cortex-M CPU (Cortex-M85) 提高了八倍。這種性能提升不僅歸功于 Armv9 架構(gòu)在 AI 處理上的增強(qiáng)，還源于 Cortex-A320 內(nèi)存訪問性能的大幅提高和頻率的增加。

與此同時(shí)，得益于 Arm 的 A 處理器架構(gòu)、多核執(zhí)行，以及靈活的內(nèi)存管理，這使 Cotex-A320 成為 Cortex-M 系列微處理器進(jìn)行性能升級(jí)的合適選項(xiàng)。

通過微架構(gòu)優(yōu)化，實(shí)現(xiàn)更高能效

Cortex-A320 是一款單發(fā)射、32 位指令取指的有序執(zhí)行 CPU，實(shí)現(xiàn)了優(yōu)化的八級(jí)管線，且具有緊湊的轉(zhuǎn)發(fā)網(wǎng)絡(luò)，從而達(dá)到比 Cortex-A520 更高的頻點(diǎn)。

Cortex-A320 提供從單核到四核配置的集群內(nèi)擴(kuò)展。該 CPU 所采用的簡(jiǎn)化 DynamIQ Shared Unit (DSU) DSU-120T，可支持僅使用 Cortex-A320 的集群。DSU-120T 是最小的 DSU 實(shí)現(xiàn)，能夠顯著降低復(fù)雜性、面積和功耗，進(jìn)而大幅提升基于 Cortex-A 的入門系列產(chǎn)品的能效。

Cortex-A320 支持高達(dá) 64KB 的 L1 緩存和高達(dá) 512KB 的 L2 緩存，并且具有可連接到外部存儲(chǔ)器的 256 位 AMBA5 AXI 接口。L2 緩存和 L2 TLB 可以在 Cortex-A320 CPU 之間共享，而實(shí)現(xiàn) Neon 和 SVE2 SIMD 技術(shù)的向量處理單元既可在單核復(fù)合體中專用，也可在雙核或四核實(shí)現(xiàn)中由兩個(gè)核共享。

針對(duì)不同市場(chǎng)的多樣化優(yōu)勢(shì)

得益于廣泛的開源 Linux 支持、強(qiáng)大的安全生態(tài)系統(tǒng)，以及 Armv9 架構(gòu)所取得的關(guān)鍵進(jìn)展，Cortex-A320 可確保與邊緣側(cè)和基礎(chǔ)設(shè)施設(shè)備兼容，同時(shí)具備出色能效和可擴(kuò)展性。

Neon 和 SVE2 向量處理技術(shù)更新提升了 ML 性能，除此之外，Armv9 架構(gòu)還大大增強(qiáng)了安全性，這對(duì)于物聯(lián)網(wǎng)和嵌入式系統(tǒng)至關(guān)重要。Cortex-A320 為 Cortex-A 的超高能效系列引入了重要的安全特性，包括增強(qiáng)內(nèi)存安全性的內(nèi)存標(biāo)記擴(kuò)展 (MTE)，以及可減少跳轉(zhuǎn)導(dǎo)向編程和返回導(dǎo)向編程攻擊的指針驗(yàn)證 (PAC) 和分支目標(biāo)識(shí)別 (BTI)。

Secure EL2 是 Cortex-A320 所采用的其中一項(xiàng) Armv9 關(guān)鍵特性，通過增強(qiáng) TrustZone 中的軟件隔離，有助于在邊緣設(shè)備上安全執(zhí)行軟件容器。詳情請(qǐng)參閱安全虛擬化頁面。

從入門級(jí)通用 MPU、智能揚(yáng)聲器、軟件定義智能攝像頭，到工廠車間內(nèi)的自動(dòng)駕駛車輛、自動(dòng)化邊緣 AI 助手、AI 人機(jī)界面和機(jī)器人控制器，Cortex-A320 可在廣泛的應(yīng)用中發(fā)揮上述優(yōu)勢(shì)。除邊緣 AI 應(yīng)用外，Cortex-A320 還可惠及包括智能手表和智能可穿戴設(shè)備，以及服務(wù)器基板管理控制器 (BMC) 等基礎(chǔ)設(shè)施設(shè)備在內(nèi)的眾多關(guān)鍵細(xì)分市場(chǎng)。

Cortex-A320 也非常適合于以往使用高性能 Cortex-M 的應(yīng)用，如電池供電的 MCU 用例或運(yùn)行實(shí)時(shí)操作系統(tǒng) (RTOS) 的應(yīng)用，這些應(yīng)用需要通過對(duì)稱多處理來擴(kuò)展性能，而 Arm 的 A 處理器架構(gòu)開箱即支持。

此外，它還可用于需要 Cortex-A 內(nèi)存管理或地址轉(zhuǎn)換特性的 RTOS 應(yīng)用，以增強(qiáng)軟件的靈活性。例如，Cortex-A320 適合于需要在 MCU 設(shè)備上下載應(yīng)用的用例，由于其需要內(nèi)存管理單元 (MMU) 來跨內(nèi)存映射進(jìn)行代碼重新定位。

與此同時(shí)，更寬的尋址空間使得 Cortex-A320 成為異構(gòu)多核用例的高能效解決方案，在這些用例中，性能更高的 Cortex-A 與微控制器級(jí)核心相結(jié)合。借助 Cortex-A320，Arm 的合作伙伴能夠?qū)⑿⌒图軜?gòu)兼容的核心搭配較大的 Cortex-A 處理器，從而簡(jiǎn)化內(nèi)存架構(gòu)。

另一方面，由于其所具備的 A 處理器架構(gòu)特性，Cortex-A320 可以提供開箱即用的 Linux 支持，并為安卓系統(tǒng)等現(xiàn)有的功能豐富的操作系統(tǒng)提供軟件可移植性。Cortex-A320 具備出色的靈活性，適用于眾多細(xì)分市場(chǎng)、應(yīng)用和操作系統(tǒng)。

引入 Armv9 邊緣 AI 異構(gòu)計(jì)算平臺(tái)

Arm Ethos-U85 NPU 旨在應(yīng)對(duì) Cortex-A 系統(tǒng)中的常見高延遲內(nèi)存，并與 Cortex-A320 處理器協(xié)作良好。

Ethos-U85 驅(qū)動(dòng)程序已完成更新，該 NPU 現(xiàn)可直接由 Cortex-A320 驅(qū)動(dòng)，而無需基于 Cortex-M 的 ML 島。這一更新不僅改善了延遲，還為 Arm 的合作伙伴免去了使用 Cortex-M 來驅(qū)動(dòng) NPU 的成本和復(fù)雜性。

此外，Cortex-A320 的內(nèi)存訪問性能和增強(qiáng)的內(nèi)存系統(tǒng)使其能夠執(zhí)行更大規(guī)模的 ML 模型，例如超過 10 億個(gè)參數(shù)的大語言模型 (LLM)。由于可尋址內(nèi)存空間有限，這些模型很難在基于 Cortex-M 的系統(tǒng)上高效運(yùn)行。

Ethos-U NPU 通過量化數(shù)據(jù)類型，來滿足邊緣 AI 用例有限的成本和能耗要求。Ethos-U85 不支持的 ML 算子和數(shù)據(jù)類型都將自動(dòng)回調(diào)到 Cortex-A320 上進(jìn)行處理，并利用 Neon/SVE2 引擎進(jìn)行加速。

Armv9 架構(gòu)實(shí)現(xiàn)了顯著的 ML 性能提升，得益于此，在 2GHz 頻率下運(yùn)行，以 8 位 MAC/周期測(cè)得，四核 Cortex-A320 可以執(zhí)行高達(dá) 256 GOPS。因此，無需外部加速器，Cortex-A320 便可直接在 CPU 上運(yùn)行高級(jí) ML 和 AI 用例。這為針對(duì)各種 ML 和 AI 應(yīng)用的設(shè)備節(jié)省了系統(tǒng)面積、功耗和復(fù)雜性，并帶來最高可達(dá) 0.25 TOP 的表現(xiàn)。

邊緣 AI 新時(shí)代未來可期

Cortex-A320 將 Armv9 架構(gòu)的安全性和卓越的 AI 性能引入了 Cortex-A 的超高能效系列，為軟件開發(fā)者提供了開發(fā)和部署更嚴(yán)苛用例的新可能，開創(chuàng)了邊緣 AI 設(shè)備的新時(shí)代。通過結(jié)合 Arm 的 A 處理器架構(gòu)及相關(guān)的軟件生態(tài)系統(tǒng)，并在高能效和靈活性支持下，Cortex-A320 為物聯(lián)網(wǎng)領(lǐng)域的各個(gè)細(xì)分市場(chǎng)提供了卓越的可擴(kuò)展性和多樣化。

點(diǎn)擊此處，了解超高能效的 Arm Cortex-A320 CPU 如何以其卓越性能、安全性和能效革新物聯(lián)網(wǎng)領(lǐng)域。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

详解Arm Cortex-A320针对物联网优化的超高能效Armv9 CPU

日期： 2025-02-28

作者：Arm 物联网事业部高级产品经理 Dimosthenis Rossidis

來源：Arm

相關(guān)內(nèi)容