時光飛逝,好像在昨天我們才剛發(fā)布ARM Cortex-A73這款最節(jié)能的高效能Cortex應用處理器,轉眼之間我們就看到Cortex-A73量產并被廣泛應用到移動與消費領域的各種頂級設備。芯片廠商現已將其與 Cortex-A53 相結合,打造出了各種 big.LITTLE 配置。Cortex-A73 與 Cortex-A53 的結合不但能夠提供出色的性能,還可實現極長的電池續(xù)航時間,這樣你的設備便能夠用上一整天。如此一來,設計師和 OEM 廠商就可以打造出當今市面上最纖薄、最小巧的產品。
這種效率與性能的結合再加上移動生態(tài)系統(tǒng)中操作系統(tǒng)與應用程序開發(fā)商的成果,開辟了新的使用場合:利用手機把自己置身于增強現實或虛擬現實的世界當中、拍攝單反級照片或利用緊湊型擴展塢將智能手機變成功能齊全的臺式電腦。這些使用場合以及其它需要極高性能的使用場合造就了人們對更高計算性能持續(xù)增長的強勁需求。為滿足這一需求,移動 SoC 的性能近年來已經突飛猛進,而我們并未看到這一趨勢有停止或慢下腳步的跡象。
現在我們又發(fā)布兩款全新的處理器:Cortex-A75 高性能處理器和 Cortex-A55 高效率處理器,目的是讓你的設備實現所需的性能升級。
隆重推出全新的 Cortex-A75 和 Cortex-A55 處理器
Cortex-A75 和 Cortex-A55 均采用 DynamIQ 技術打造,該技術是 ARM 于 2017 年 3 月份發(fā)布的全新多核技術。Cortex-A75 采用全新的架構,進一步提升處理器性能,同時保持了其前代處理器出色的節(jié)能性。全新 Cortex-A75 CPU 不但提升了性能,還增強了CPU處理高級任務的能力,以一種全新的方式轉變應用程序和商業(yè)模式。
人工智能 – 徹底改變商業(yè)和產業(yè)面貌的技術創(chuàng)新
除了作為一項來自數據中心或“云端”的重要功能以外,人工智能 (AI) 和機器學習 (ML) 正出現在你的設備上、來到物聯網的“邊緣”。這是我們在各類設備上看到的最強勁的新興趨勢。從聯網的溫控裝置到自動駕駛再到手機和可穿戴科技產品,你會看到,機器學習算法能大大改善人們的生活。
開發(fā)商有許多種方法來應對各類設備上機器學習任務的增長?,F代 SoC 通常包含若干個處理單元:1 顆 CPU、1 顆 GPU (例如新近發(fā)布的 Mali-G72),有時候還與 DSP 和特定的加速單元相結合,加速單元有助于加快卷積神經網絡 (CNN)、遞歸神經網絡 (RNN) 以及其它機器學習任務。然而軟件開發(fā)商和芯片廠商面臨著以下挑戰(zhàn):
1. 在芯片上額外添加硬件的成本十分高昂 – 在芯片上增添任何額外的組件都會給芯片廠商造成高昂的成本,因此需要非常謹慎地運用資源。高端設備可能包含專用加速器,但是占全球絕大多數的主流移動設備通常不含機器學習的專用硬件。然而應用程序開發(fā)商想要讓自己部署的機器學習功能支持每一代中的所有設備。
2. 在系統(tǒng)中反復轉換任務對于軟件開發(fā)商而言具有很大的挑戰(zhàn)性,因為這需要花費時間而且需要極高的性能。例如對 GPU 上所運行的圖形任務等固定任務而言,你需要對固定的繪圖軟件和驅動程序進行本地優(yōu)化,以實現高效圖形處理。處理固定計算函數的加速器或 DSP 也是如此。這些函數可以寫入并部署在邊緣設備的固件中,它們在固件中通常比在 CPU 上運行得更加高效。然而任務存在灰色地帶,在灰色地帶中,開發(fā)商對 CPU 的可訪問性使 CPU 成為了在各種移動邊緣設備上部署機器學習功能的最簡單的選擇。
3. 新的任務及其處理要求依然在發(fā)展,因此固定函數專用的硬件加速器無法解決最新算法的難題。在這種情況下,合理的做法是利用通用 CPU 功能來增強高端設備中已優(yōu)化的加速代碼區(qū)塊。
這些特性讓我們得出了結論:任務的異構分布是正確的方法。并沒有萬金油式的方法可以解決上述的諸多難題。結合通用處理、專用加速器以及 GPU 計算技術都能夠讓 SoC 達到最高的系統(tǒng)效率。這樣一來,不論是具備多個計算單元的高端設計還是成本受限的低端設備,都可以實現擴展。即使刪除了一些區(qū)塊,這些低端設備依舊得益于異構特性。
軟件對于實現機器學習而言至關重要。你可能已經看到,我們發(fā)布了免費的開源 ARM 計算庫(ARM Compute Library)。僅在 CPU 上運行時,它可以令人工智能和機器學習任務的性能提升 10-15 倍。這對于市面上現有的所有設備而言都是個好消息,基于 ARM 的 SoC 可以立即利用這一全新的庫。這是一個很好的例子,如果進行合適的調節(jié),我們便可以利用更好的軟件在現有硬件上實現更高的性能。ARM 一直在軟件和硬件兩方面不斷創(chuàng)新。接下來我們詳細介紹一下我們針對機器學習和通用計算要求的最新硬件改進。
DynamIQ – 該技術可提升擴展能力、為各個領域實現全新的性能水平
我們最近發(fā)布了 ARM DynamIQ 處理器技術,它能夠在性能、效能、擴展能力以及響應速度等方面達到全新的水平。它是一種全新的 CPU 集群架構和內存分層體系,具備全新的硬件設計范例,可實現更廣泛的擴展能力。它還擁有諸多全新特性,這些特性通過把軟件與硬件相結合,在接下來的 3-5 年里將使人工智能和機器學習算法的性能提升 50 倍。
更高的性能可滿足人工智能任務的需求,這類任務是當前和未來 ARM IP的一大主要焦點
自多核處理器問世以來,DynamIQ 技術標志著人類在這一領域取得的重大進步。多核處理器設計曾為移動行業(yè)帶來雙核和 4 核處理器。憑借 DynamIQ,單一集群現在最多能夠包含 8 個處理器,除了可搭配不同的物理設計特性(功耗、頻率、面積),還能為單個CPU或多個核心單獨配置電壓與電源信道。這種靈活性和擴展性讓芯片廠商能夠瞄準各類市場,其中包括智能手機、自動駕駛汽車、服務器和網絡基礎設施、家居自動化以及更智能的 DTV領域 等等。我的同事 Govind Wathan 寫了一篇很好的文章,詳細介紹了 DynamIQ 的更多細節(jié),大家可以點此閱讀這篇文章。
隆重推出 Cortex-A75 處理器 – 首款基于 DynamIQ 的高性能處理器,可實現前所未有的性能和效率
我很自豪地向大家介紹全新的 Cortex-A75 處理器,它是 ARM 最新發(fā)布的最高性能CPU,同時也是基于全新 DynamIQ 技術的首款高性能 CPU。在相同頻率下,Cortex-A75比Cortex-A73 性能提升20%。這種更強的計算能力再加上我們?yōu)闄C器學習和其它高級使用場合所做的重大改進,將讓那些高要求的應用程序能夠運行得更加流暢,為未來更復雜的任務提供新的標桿。
Cortex-A75 可為移動和基礎設施系統(tǒng)帶來全新的性能水平
Cortex-A75 將為目標市場帶來更出色的應用程序和用戶體驗,繼續(xù)延續(xù)Cortex-A73 的出色性能。從端到云,它所面向的市場十分廣泛 (不止是手機和筆記本電腦/翻蓋設備),能夠在網絡基礎設施、汽車設計乃至服務器等方面實現全新的性能水平。Cortex-A75 的效率依然是頂級水平。我們采用了打造 Cortex-A73 時的諸多設計思路,將其運用于 Cortex-A75 的設計當中。
Cortex-A75 中微架構的一些主要改進包括:
- 超標量處理器核心,與上一代產品相比能夠解碼、發(fā)出以及執(zhí)行更多的指令,支援完全亂序處理、無阻塞高吞吐量一級高速緩存以及高級指令和數據預取。
- 位于處理核心附近的專用二級高速緩存。這些專用二級高速緩存的容量可以配置,它們縮短了內存的存取延遲,讓任務能夠更接近核心,因而可實現更快的處理和更低的功耗。
- DynamIQ 共享單元 (DSU) 中的統(tǒng)一共享三級高速緩存可被集群內的所有處理器共享,其中包括 Cortex-A75 和 Cortex-A55。
ARM 合作伙伴既可以單獨使用 Cortex-A75 高性能處理器 (最多 4 顆),也可以使用 Cortex-A75 與Cortex-A55 處理器構成的 big.LITTLE 組合 (一共最多 8 顆處理器)。最終系統(tǒng)的選擇取決于集成商 (通常是芯片供應商)、以及在性能水平與成本之間的權衡考量。
前所未有的性能、不折不扣的效率
Cortex-A75 可實現單線程性能的大幅提升,這一點將惠及所有市場。與去年同頻率的 CPU 相比,Cortex-A75 的整數核心性能提升了 20% 以上,可為新一代設備帶來大幅性能提升。與預計最高運行頻率為 3GHz 的設備相比,這一性能優(yōu)勢相較于其它設備更加明顯,如下圖所示。
更高的性能、不折不扣的效率
在浮點、NEON SIMD 處理或內存性能等其它衡量標準上,Cortex-A75 帶來了更大的提升,像是在Octane基準測試套件上提升幅度接近50%。與 Cortex-A73 相比,Cortex-A75 在內存復制方面的吞吐量實現了 15% 的提升。更高的內存性能非常重要,因為操作系統(tǒng)和應用程序均廣泛使用內存。
Cortex-A75 可在各類任務上實現重大性能提升
DynamIQ big.LITTLE – Cortex-A75 與 Cortex-A55 相結合
Cortex-A75 可提供出色的性能,其效率也處于業(yè)界領先地位。然而,許多應用程序并不需要高性能處理器的性能,即便某些領域需要應用高性能,需要 CPU 最高性能水平的時間有時候也僅占約 10%。big.LITTLE 技術可以在這種情形下節(jié)省數百毫瓦的功效、延長電池續(xù)航時間以及讓大核心能夠更快地運行,由小核心負責處理低級任務。Cortex-A55 是 ARM 迄今為止提供這種功能的最高效小處理器,它是 Cortex-A53 的成功的后續(xù)產品,Cortex-A55 是 Cortex-A75 理想的搭檔。DynamIQ 支持例如 1+7 這樣尺寸效率極高的組合,為中端設備提供了一條絕佳的升級之路:
DynamIQ big.LITTLE 讓中端設備能夠實現全新的性能水平
請務必看一看 Govind 有關 Cortex-A55 和 DynamIQ big.LITTLE 的博客文章以便了解更多細節(jié)。
Cortex-A75 幾乎涵蓋了從端到云的所有應用場合
Cortex-A75 可廣泛應用于各個領域。該處理器內置的許多特性以及 DynamIQ 集群不僅僅適用于移動和消費性使用場合。例如,我們還期待 Cortex-A75 應用在高要求的聯網和服務器等應用場合。由于它的基礎設施性能比基于 Cortex-A72 的系統(tǒng)高 40%,因此采用 Cortex-A75 的基礎設施系統(tǒng)將會實現大幅性能提升:
利用全新的 Cortex-A75 和 CMN-600 提升基礎設施性能
高速緩存隱藏(cache stashing)、多個媒介間不可分割交易(atomic transactions)、高速緩存路徑分配和區(qū)分優(yōu)先次序等特性以及先進的 RAS 功能使 Cortex-A75 十分適合大規(guī)模系統(tǒng),其效率能夠帶來更高的計算密度。
采用全新 DynamIQ 處理器的片上系統(tǒng) (SoC) 設計是什么樣的?
ARM 長期以來一直致力于投資在范例 SoC 設計中的IP驗證。由于 ARM 的IP組合與日俱增,這些范例系統(tǒng)的復雜度和范圍也隨之增長。這項工作涵蓋了從 SoC 架構到詳細的產前分析的方方面面,ARM 將以系統(tǒng)指南的形式提供這類知識。
除了全新 CPU 以外,ARM 還提供各種新的系統(tǒng)指南,這些指南涵蓋了移動系統(tǒng)和基礎設施系統(tǒng)。CoreLink SGM-775 移動系統(tǒng)指南專為 Cortex-A75、Cortex-A55 以及 Mali-G72 而設計和優(yōu)化。CoreLink SGI-775 基礎設施系統(tǒng)指南介紹了利用全新 ARM IP可以打造的基礎設施 SoC 架構。二者均包括文檔、模型和軟件,而且可供 ARM 合作伙伴免費使用。
這些處理器何時上市?
我們非常高興看到 Cortex-A75、Cortex-A55 以及 DynamIQ 的各種功能,我相信新款CPU 的靈活性以及提高的性能一定會讓設備的功能得到提升。我們將會看到新一輪設備問世,為市場帶差異化和更為豐富的體驗,這是件值得慶幸的事情。
已有超過10家授權的客戶采用這兩款CPU 和DynamIQ 技術,我們應該很快就會看到一些酷炫的新設備上市。我預計 2018 年初首批設備就會上市,我已經等不及想要親自體驗一下它們了。