123,123,123

苹果M3芯片深度解读

日期： 2023-11-01

來源：半导体行业观察

關(guān)鍵詞： 苹果 M3芯片

　　蘋果公司本周發(fā)布了新一代 M 系列 Apple Silicon 處理器，并隨之推出了新一代 MacBook Pro，為新處理器發(fā)布的繁忙月份畫上句號。關(guān)于這系列芯片的初步介紹，可以查看昨日發(fā)布的文章《蘋果發(fā)布M3系列芯片，高達920億晶體管》。

　　以全新 M3 系列處理器為基礎(chǔ)，Apple 選擇一次性推出大部分堆棧，同時發(fā)布了基于普通 M3 的產(chǎn)品，以及更強大的 M3 Pro 和 M3 Max SoC?；谂_積電的 N3B 工藝，蘋果希望再次提高 CPU 和 GPU 性能的標(biāo)準(zhǔn)，并創(chuàng)下單個筆記本電腦 SoC 中使用的晶體管數(shù)量的新記錄。

　　新款 M3 芯片的推出與新款 MacBook Pro 筆記本電腦以及更新的 24 英寸 iMac 齊頭并進。但由于蘋果沒有對任何這些設(shè)備進行任何外部設(shè)計或功能更改——它們的尺寸、端口和部件與以前相同——它們是對這些設(shè)備內(nèi)部結(jié)構(gòu)的直接更新。因此，這些最新產(chǎn)品發(fā)布中的明星是新的 M3 系列 SoC 及其帶來的功能和性能。

　　憑借適用于 Mac（毫無疑問，還有高端 iPad）的最新一代高性能芯片，蘋果似乎充分利用了臺積電 N3B 工藝提供的密度和功耗改進。但與此同時，他們也在改變 SoC 的配置方式；尤其是 M3 Pro 與其前身有很大不同。因此，盡管 M3 芯片本身并未達到“突破性”的水平，但我們將關(guān)注一些重要的變化。

微信截圖_20231101113113.png

　　首先，我們來看看三款新 M3 芯片的規(guī)格。所有三款芯片均在一個月內(nèi)發(fā)布（從技術(shù)上講，M3 Max 設(shè)備要到 11 月中旬才會上市），這是新一代 M 系列芯片迄今為止最雄心勃勃的發(fā)布。通常情況下，Apple 都是從小規(guī)模開始，然后逐步提升，例如M2，然后是 Pro 和 Max 變體，但這次我們得到的可能是所有單片（且適用于筆記本電腦）硅部件。

　　但蘋果也開始縮小體積。該公司正在使用這些新芯片來更新 MacBook Pro 系列和 iMac，這是該公司一些更昂貴（并且普遍認(rèn)為產(chǎn)量較低）的產(chǎn)品。這與從 MacBook Air 和其他更便宜的設(shè)備開始形成鮮明對比，后者消耗了大量的入門級芯片。這很可能是由于蘋果決定使用像 N3B 這樣的前沿節(jié)點（他們是唯一的客戶之一），這將帶來新的芯片產(chǎn)量和數(shù)量瓶頸。但是，當(dāng)然，蘋果永遠(yuǎn)不會證實這一點。不管怎樣，他們已經(jīng)徹底改變了這一代的芯片發(fā)布策略，首先從更昂貴的設(shè)備開始。

微信截圖_20231101113134.png

　　所有這三款芯片都共享一個通用架構(gòu)，并且從廣義上講，都是該架構(gòu)的擴展版本，具有更多內(nèi)核、更多 I/O 和更多內(nèi)存通道。最小的芯片 M3 一開始有 250 億個晶體管（比 M2 多 50億個），而最高峰是 M3 Max 及其 920 億個晶體管。雖然蘋果提供了芯片die shot（當(dāng)今業(yè)界很少見），但他們不提供芯片尺寸，因此我們必須在設(shè)備發(fā)貨后看看這些芯片尺寸如何測量。

微信截圖_20231101113148.png

　　雖然蘋果尚未正式披露除 3 納米設(shè)計之外所使用的工藝，但考慮到唯一可用于這種大批量生產(chǎn)的臺積電 3 納米生產(chǎn)線是他們的 N3B 生產(chǎn)線，因此可以非常安全地打賭，我們這里我們看一下 N3B，它也被用在 A17 上。根據(jù)臺積電官方數(shù)據(jù)，N3B 提供了極高的晶體管密度，特征尺寸減少了 42%，iso-power 減少了約 25%。但即便如此，M3 Max 仍然是一款堅固的芯片。

　　在其他方面，蘋果支持的內(nèi)存類型似乎沒有任何變化。在某些情況下，該公司的帶寬數(shù)據(jù)與 M2 系列的數(shù)據(jù)相同，表明該公司仍在使用 LPDDR5-6400 內(nèi)存。這有點令人驚訝，因為更快的 LPDDR5X 內(nèi)存很容易獲得，而且 Apple 的 GPU 密集型設(shè)計往往會從額外的內(nèi)存帶寬中受益匪淺。目前最大的問題是，這是否是由于技術(shù)限制（例如蘋果的內(nèi)存控制器不支持 LPDDR5X），或者蘋果是否有意決定堅持使用常規(guī) LPDDR5。

　　M3 CPU 架構(gòu)：速度明顯更快

　　在架構(gòu)方面，不幸的是，Apple 對于 M3 系列 SoC 中使用的 CPU 和 GPU 架構(gòu)相當(dāng)模糊。事實上，該公司全年都在嚴(yán)格控制泄密情況——即使現(xiàn)在我們也不知道 A17 SoC 中使用的 CPU 內(nèi)核的代號。

　　無論如何，鑒于蘋果在 A 和 M 系列芯片之間共享 CPU 架構(gòu)，我們無疑以前見過這些 CPU 內(nèi)核。問題是我們是在關(guān)注最近推出的 A17 SoC 的 CPU 內(nèi)核，還是 A16（Everest 和 Sawtooth）的 CPU 內(nèi)核。A17 是更有可能的候選者，特別是因為蘋果已經(jīng)擁有 N3B 的工作 IP。但嚴(yán)格來說，我們目前沒有足夠的信息來排除A16 CPU核心；特別是蘋果沒有就 M3 系列 CPU 內(nèi)核相對于 M2 提供的架構(gòu)改進提供任何指導(dǎo)。

微信截圖_20231101113220.png

　　目前我們所知道的是，與 M2 系列相比，Apple 宣稱其高性能 CPU 內(nèi)核的性能提高了約 15%?；蛘撸绻矚g M1 比較，則可提高 30%。蘋果沒有透露用于做出這一決定的基準(zhǔn)或設(shè)置，因此我們無法透露該估計的真實性?；蛘撸痛硕?，其中有多少來自 IPC 提升與時鐘速度提升。

微信截圖_20231101113249.png

　　與此同時，效率核心也得到了改進，根據(jù)蘋果公司的說法，其增益比高性能核心更大。M3 系列效率核心比 M2 快 30%，比 M1 快 50%。

　　蘋果在其網(wǎng)站上發(fā)布了特定于應(yīng)用程序的基準(zhǔn)測試，盡管這些是系統(tǒng)級基準(zhǔn)測試。其中許多是 CPU 和 GPU 共同獲得的收益。這肯定與這些應(yīng)用程序的用戶相關(guān)，但它們并沒有告訴我們太多有關(guān) CPU 內(nèi)核本身的信息。

微信截圖_20231101113311.png

　　蘋果同樣模糊的性能/功率曲線圖也在很大程度上重申了這些說法，同時證實了性能/功率曲線變得平坦的長期趨勢正在持續(xù)。舉例來說：Apple 聲稱 M3 可以以一半的功耗提供與 M1 相同的 CPU 性能；但在等功率下，峰峰值性能僅高出 40% 左右。

　　從等性能的角度來看，連續(xù)幾代的工藝技術(shù)不斷降低功耗，但在解鎖更高的時鐘速度方面卻做得相對較少。這使得更高時鐘速度帶來的持續(xù)性能提升在功耗方面相對昂貴，這反過來又促使芯片供應(yīng)商增加整體功耗。根據(jù)蘋果的圖表，即使是 M3 也未能幸免，因為它的峰值功耗高于 M1。

　　M3 GPU 架構(gòu)：具有網(wǎng)格著色和光線追蹤的新架構(gòu)

　　與此同時，在 GPU 方面，M3 系列芯片包含了更實質(zhì)性的 GPU 架構(gòu)更新。雖然蘋果公司對 GPU 架構(gòu)的底層組織一如既往地守口如瓶，但從功能角度來看，新架構(gòu)為蘋果平臺帶來了一些主要的新功能：網(wǎng)格著色和光線追蹤。

　　Apple 的 iPhone 15 Pro 系列 A17 SoC 也引入了這些相同的功能，幾乎可以肯定，這是該架構(gòu)的更大規(guī)模實現(xiàn)，就像前幾代的情況一樣。當(dāng)我們在這里討論筆記本電腦和臺式機時，這些功能將使 M3 GPU 與 NVIDIA/AMD/Intel 的最新獨立 GPU 設(shè)計大致相當(dāng)，所有這些設(shè)計公司幾年來都提供了類似的功能。用 Windows 的話說，M3 GPU 架構(gòu)將是DirectX 12 Ultimate 級（功能級別 12_2）設(shè)計，使 Apple 成為第二家在筆記本電腦 SoC 中提供如此高功能集成 GPU 的供應(yīng)商。

　　在這一點上，光線追蹤幾乎不需要介紹，因為整個 GPU/圖形行業(yè)在過去五年里一直在大力推廣物理上更加精確的渲染形式。另一方面，網(wǎng)格著色不太為人所知，因為它提高了渲染管道的效率，而不是解鎖新的圖形效果。然而，其重要性不容低估。網(wǎng)格著色顛覆了整個幾何渲染管道，以允許在可用幀速率下呈現(xiàn)更多幾何細(xì)節(jié)。它在很大程度上是一個“基線”功能——開發(fā)人員需要圍繞它設(shè)計引擎的核心——所以它在最初的采用中不會有太大影響，但它最終將成為一個決定成敗的功能，與 M3 之前的 GPU 兼容的分界點。我們今天已經(jīng)在 PC 游戲（例如最近發(fā)布的《心靈殺手 II》）中看到了這一點。

微信截圖_20231101113342.png

　　這一代 GPU 還配備了新的內(nèi)存管理功能/策略，蘋果將其稱為“動態(tài)緩存”。根據(jù)蘋果產(chǎn)品展示中的有限描述，該公司似乎采取了新的努力來更好地控制和分配其 iGPU 使用的內(nèi)存，防止其分配比實際需要更多的內(nèi)存。GPU 過度分配內(nèi)存是很常見的（擁有它而不需要它比相反更好），但這是浪費的，尤其是在統(tǒng)一內(nèi)存平臺上。因此，正如蘋果所說，“每項任務(wù)只使用所需的確切內(nèi)存量”。

　　值得注意的是，此功能對開發(fā)人員來說是透明的，并且完全在硬件級別上運行。因此，無論蘋果在幕后做什么，它都被從開發(fā)者和用戶手中抽象出來。盡管用戶最終將受益于更多的可用 RAM，但當(dāng) Apple M3 Mac 的最低配置仍然是 8GB RAM 時，這無疑是一件好事。

　　然而，更令人好奇的是，蘋果聲稱這也將提高 GPU 性能。具體來說，動態(tài)緩存將“顯著”提高 GPU 的平均利用率。目前尚不清楚內(nèi)存分配和 GPU 利用率之間的關(guān)系，除非蘋果針對的是一種極端情況，即由于缺乏 RAM，工作負(fù)載必須不斷交換到存儲。不管怎樣，蘋果認(rèn)為這一功能是新 GPU 架構(gòu)的基石，并且值得在未來進行更仔細(xì)的研究。

　　然而，在性能方面，蘋果提供的指導(dǎo)非常少。在過去的幾代中，該公司至少提供了其 GPU 的一般計算吞吐量數(shù)據(jù)，例如普通 M2 GPU 的 5.6 TFLOPS。但對于 M3 GPU，我們沒有獲得任何此類吞吐量數(shù)據(jù)。因此，目前還不清楚這些 GPU 在現(xiàn)有應(yīng)用程序/游戲中的速度有多快，或者它們可以有多快。Apple 在其產(chǎn)品頁面上引用了 2.5 倍的數(shù)字，但查看注釋，這是具有硬件 RT (M3) 的 Redshift 與軟件 RT（其他所有內(nèi)容）的對比。

微信截圖_20231101113419.png

　　蘋果充其量只是在演示中展示了 GPU 性能/功率曲線圖，將 M3 與 M1 進行了比較。蘋果再次聲稱 M3 在 iso 性能下消耗一半的電量。同時，等功率（峰值 M1，約 12.5W）下的性能大約提高了 50%。但M3的GPU功率限制也明顯更高，達到約17瓦。這釋放了更多的性能，但同樣消耗了更多的電量，并且沒有告訴我們 M3 GPU 與 M2 的比較如何。

　　M3 NPU：更快一點，但架構(gòu)沒有更新？

　　最后但并非最不重要的一點是，讓我們快速瀏覽一下 M3 的 NPU（神經(jīng)引擎）。從高層次來看，這又是 16 核設(shè)計。蘋果聲稱它提供了 18 TOPS 的性能，比 M2 的 NPU 高出約 14%（蘋果官方數(shù)據(jù)為 15%，很可能是由于舍棄了小數(shù)）。所有三款 M3 芯片似乎都具有相同的 16 核 NPU 設(shè)計，因此應(yīng)該具有相似的性能。

微信截圖_20231101113435.png

　　然而，18 TOPS 的數(shù)字卻令人大吃一驚。正如Ian Cutress 博士向我指出的那樣，18 TOPS 實際上比 A17 SoC 中的 NPU 慢。

　　發(fā)生什么了？

　　隨著 A17 SoC 的推出，蘋果開始引用 INT8 性能數(shù)據(jù)，而我們認(rèn)為之前版本的 NPU（A 系列和 M 系列）的 INT16/FP16 數(shù)據(jù)。該格式的精度較低，可以以較高的速率進行處理（以精度換取吞吐量），因此引用的數(shù)字較高。

　　這里的 18 TOPS 數(shù)字顯然是 INT16/FP16 性能，因為這與過去的 M 系列聲明和 Apple 自己的圖表一致。那么，懸而未決的問題是，M3 中的 NPU 是否支持 INT8，因為 A17 最近才添加了 INT8。要么它確實支持 INT8，在這種情況下，Apple 正在努力實現(xiàn)一致的消息傳遞，要么它是缺乏 INT8 支持的老一代 NPU 架構(gòu)。

　　總體而言，這種差異更多的是出于好奇，而不是擔(dān)憂。但看看蘋果是否保持 A 和 M 系列的 NPU 架構(gòu)相同，或者我們是否看到這一代的差異，將會很有趣。

　　僅規(guī)格：M3、M2、M1

　　回到速度和饋送，我還整理了每一層 M 系列處理器的規(guī)格表，將它們與它們的前輩進行比較。這有助于更好地說明這些部件在核心數(shù)量、性能、內(nèi)存支持和 I/O 方面如何隨著時間的推移而演變。

微信截圖_20231101113457.png

　　M 系列的vanilla系列是該系列中最簡單的。作為 M 系列芯片中的第一款產(chǎn)品，Apple 不斷增強該芯片的功能和性能。但他們并沒有在功能塊/核心方面添加太多?，F(xiàn)在已經(jīng)三代了，CPU還是4P+4E的設(shè)計，GPU也從第一代的8核發(fā)展到了M2和M3的10核。

　　一致的 128 位內(nèi)存總線為這頭小野獸提供了食物。由于蘋果沒有在這一代 M 系列中采用 LPDDR5X，因此內(nèi)存帶寬與 M2 保持不變，LPDDR5-6400 高達 24GB，可實現(xiàn) 100GB/秒的總內(nèi)存帶寬。

微信截圖_20231101113514.png

　　芯片的有限 I/O 也一直存在于各代產(chǎn)品中。M3 可以驅(qū)動兩個 40Gbps USB4/Thunderbolt 端口，與 M2 和 M1 相同。此外，仍然僅支持兩個顯示器——內(nèi)部顯示器和單個外部顯示器。

　　盡管核心數(shù)量沒有增加，但隨著新功能和更復(fù)雜的核心設(shè)計占用更大的晶體管預(yù)算，晶體管數(shù)量在幾代人中持續(xù)增長。M3 擁有 250 億個晶體管，比 M2 多出 25%，比 M1 多出 56%。

微信截圖_20231101113532.png

　　然而，M3 Pro 的情況卻變得更加有趣。與以相對簡單的方式建立在前輩基礎(chǔ)上的兄弟姐妹不同，蘋果在第三代 M 系列芯片中重新平衡了 M3 Pro。因此，它在配置方面與 M2 Pro 存在一些顯著差異，并且在晶體管數(shù)量方面它并沒有像其他芯片那樣增長。

　　從CPU核心開始，雖然M3 Pro和M2 Pro一樣總共有12個CPU核心，但性能和效率核心之間的平衡已經(jīng)發(fā)生了變化。具體來說，它從8P+4E設(shè)計變成了6P+6E設(shè)計。雖然所有 CPU 核心的性能總體上都比 M2 同類產(chǎn)品更高，但這就是為什么 Apple 的配備 M2 Pro 的 MacBook Pro 的官方性能數(shù)據(jù)顯示它們在 CPU 性能方面僅提供了微弱的提升。對于多線程繁重的工作負(fù)載，計算硬件實際上并沒有增加。

　　GPU 核心數(shù)量也有所減少。M3 架構(gòu) GPU 提供 18 個核心，而 M2 Pro 則有 19 個核心。這與普通的 M3 或 M3 Max 不同，后者的 GPU 核心數(shù)量要么持平，要么略有增加。

　　最后，提供所有這些的是明顯更小的內(nèi)存總線。M1 Pro 和 M2 Pro 都配備了 256 位 LPDDR5 內(nèi)存總線，當(dāng)填充 LPDDR5-6400 時，可為 SoC 提供 200GB 的聚合內(nèi)存帶寬。然而，在 M3 Pro 上，Apple 已將內(nèi)存總線明確削減至 192 位寬，即刪除了四分之一的內(nèi)存總線，這反過來又將內(nèi)存帶寬降低了 25%，至 150GB/秒。

微信截圖_20231101113550.png

　　這些變化的結(jié)合意味著M3 Pro在高水平上看起來更像是更強大的普通M3，而不是精簡版的M3 Max。從某些方面來說，這只是一種半滿/半空的心態(tài)。但總體而言，CPU 核心的性能和效率的平衡比更接近 M3 的設(shè)計，總內(nèi)存帶寬也是如此。M3 Pro 應(yīng)該仍然明顯快于 M3，但在某些方面，它最終會在性能方面落后于 M2 Pro。

　　蘋果對 M3 Pro 更為保守的立場也體現(xiàn)在其晶體管數(shù)量上。M3 Pro 上的晶體管數(shù)量實際上比 M2 一代有所減少——從 400 億個減少到 370 億個。因此，無論使用何種工藝節(jié)點，這總體上都是一個稍微簡單的芯片。與 M1 Pro 相比，前兩代晶體管數(shù)量僅略有增長 (~10%)。

　　至于為什么蘋果不像其他 M3 SoC 那樣加大 M3 Pro 的體積，目前還只能猜測。但從根本上講，由于晶體管數(shù)量較少和芯片尺寸較小，M3 Pro 的生產(chǎn)成本應(yīng)該比 M2 Pro 低得多。N3B 良率可能在這里發(fā)揮了作用（較低的良率等于較高的芯片有效成本），但只有臺積電和蘋果知道情況是否屬實。

　　功耗也可能是一個因素，尤其是在 CPU 核心重新平衡時。8 個性能核心可提供出色的性能，但它們肯定會消耗大量電量。Max SoC 在某種程度上可以擺脫這個問題，因為它們是頂級芯片，也適用于高端臺式機，并且面向臺式機替代級筆記本電腦用戶。但對于更多的移動 Mac 用戶來說，蘋果可能會通過抑制性能增長來降低功耗。

　　出于這些原因，看看審查基準(zhǔn)的結(jié)果將會很有趣。雖然這不太可能是蘋果公司會講述的故事，但他們筆記本電腦的性能和功耗應(yīng)該能夠為他們講述很多故事。

微信截圖_20231101113612.png

　　最后，我們擁有最大、最差的單片 M 系列芯片系列 Maxes。Max 芯片始終在核心數(shù)量和晶體管數(shù)量方面突破極限，與 M3 Pro 不同，M3 Max 延續(xù)了這一傳統(tǒng)。

　　與前代 M2 相比，蘋果在這里又增加了 4 個性能 CPU 核心，使其總數(shù)達到 12 個性能核心和 4 個效率核心。并使其成為唯一一款獲得 CPU 核心性能提升的 M3 芯片。因此，這將是唯一一款 M3 芯片，至少在有利的散熱條件下，多線程 CPU 性能應(yīng)該會顯著提高。盡管“有利的熱條件”確實是那里的關(guān)鍵詞，因為這是一個非常強大的冷卻芯片。

　　在 GPU 方面，GPU 核心數(shù)量略有增加，從 M2 Max 上的 38 個核心增加到 M3 Max 上的 40 個核心。由于沒有來自蘋果公司的任何良好的性能數(shù)據(jù)，很難估計這在實踐中會快多少。

　　為 M3 Max 提供與前兩個版本芯片相同的 512 位 LPDDR5 內(nèi)存總線。值得注意的是，這意味著蘋果的可用內(nèi)存帶寬在過去兩代中并未增加，無法跟上數(shù)量更多的 CPU 和 GPU 核心的需求，因此該公司需要從其芯片架構(gòu)中獲取更高的效率（和緩存命中率）以保持 SoC 的充足運行。

　　從蘋果官方的芯片照片中，我們可以看到蘋果再次使用他們定制的 x128 LPDDR5 內(nèi)存芯片，從而使他們能夠僅在 4 個芯片上連接 512 位內(nèi)存總線。這一代的最大內(nèi)存容量已達到 128GB，這對這些內(nèi)存芯片中使用的芯片具有有趣的影響。除非蘋果正在做一些真正瘋狂的事情，否則獲得 128GB LPDDR5 的唯一方法就是使用 32Gbit LPDDR5 芯片（總共 32 個）。我不知道目前有誰提供這種容量的芯片，所以蘋果似乎已經(jīng)從提供它的任何人那里獲得了對該內(nèi)存的優(yōu)先使用權(quán)。對于其他所有人來說，我們應(yīng)該會在明年晚些時候在 Windows 筆記本電腦上看到 128GB LPDDR5(X) 配置。

　　隨著CPU核心、GPU核心的增加，以及芯片各個構(gòu)建模塊復(fù)雜性的普遍增加，M3 Max的晶體管總數(shù)已激增至920億個晶體管。這比 M2 Max 多了 37% 的晶體管，甚至比基于臺積電 N4 工藝構(gòu)建的 NVIDIA 大型 GH100 服務(wù)器 GPU 多了 15%（120 億）。N3B 構(gòu)建的 M3 Max 應(yīng)該要小得多（小于 400mm?？），但按照筆記本電腦標(biāo)準(zhǔn)，這仍然是一個巨大的芯片，更不用說如果蘋果將其中兩個放在一起進行 Ultra 配置時會發(fā)生什么。無論蘋果為這些芯片向臺積電支付多少錢，它都不會便宜——但是有多少其他供應(yīng)商正在設(shè)計比大多數(shù)服務(wù)器芯片晶體管數(shù)量更多的筆記本電腦 SoC？

微信圖片_20210517164139.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

苹果M3芯片深度解读

日期： 2023-11-01

來源：半导体行业观察

相關(guān)內(nèi)容