蘋果公司本周發(fā)布了新一代 M 系列 Apple Silicon 處理器,并隨之推出了新一代 MacBook Pro,為新處理器發(fā)布的繁忙月份畫上句號。關(guān)于這系列芯片的初步介紹,可以查看昨日發(fā)布的文章《蘋果發(fā)布M3系列芯片,高達(dá)920億晶體管》。
以全新 M3 系列處理器為基礎(chǔ),Apple 選擇一次性推出大部分堆棧,同時發(fā)布了基于普通 M3 的產(chǎn)品,以及更強(qiáng)大的 M3 Pro 和 M3 Max SoC。基于臺積電的 N3B 工藝,蘋果希望再次提高 CPU 和 GPU 性能的標(biāo)準(zhǔn),并創(chuàng)下單個筆記本電腦 SoC 中使用的晶體管數(shù)量的新記錄。
新款 M3 芯片的推出與新款 MacBook Pro 筆記本電腦以及更新的 24 英寸 iMac 齊頭并進(jìn)。但由于蘋果沒有對任何這些設(shè)備進(jìn)行任何外部設(shè)計或功能更改——它們的尺寸、端口和部件與以前相同——它們是對這些設(shè)備內(nèi)部結(jié)構(gòu)的直接更新。因此,這些最新產(chǎn)品發(fā)布中的明星是新的 M3 系列 SoC 及其帶來的功能和性能。
憑借適用于 Mac(毫無疑問,還有高端 iPad)的最新一代高性能芯片,蘋果似乎充分利用了臺積電 N3B 工藝提供的密度和功耗改進(jìn)。但與此同時,他們也在改變 SoC 的配置方式;尤其是 M3 Pro 與其前身有很大不同。因此,盡管 M3 芯片本身并未達(dá)到“突破性”的水平,但我們將關(guān)注一些重要的變化。
首先,我們來看看三款新 M3 芯片的規(guī)格。所有三款芯片均在一個月內(nèi)發(fā)布(從技術(shù)上講,M3 Max 設(shè)備要到 11 月中旬才會上市),這是新一代 M 系列芯片迄今為止最雄心勃勃的發(fā)布。通常情況下,Apple 都是從小規(guī)模開始,然后逐步提升,例如M2,然后是 Pro 和 Max 變體,但這次我們得到的可能是所有單片(且適用于筆記本電腦)硅部件。
但蘋果也開始縮小體積。該公司正在使用這些新芯片來更新 MacBook Pro 系列和 iMac,這是該公司一些更昂貴(并且普遍認(rèn)為產(chǎn)量較低)的產(chǎn)品。這與從 MacBook Air 和其他更便宜的設(shè)備開始形成鮮明對比,后者消耗了大量的入門級芯片。這很可能是由于蘋果決定使用像 N3B 這樣的前沿節(jié)點(他們是唯一的客戶之一),這將帶來新的芯片產(chǎn)量和數(shù)量瓶頸。但是,當(dāng)然,蘋果永遠(yuǎn)不會證實這一點。不管怎樣,他們已經(jīng)徹底改變了這一代的芯片發(fā)布策略,首先從更昂貴的設(shè)備開始。
所有這三款芯片都共享一個通用架構(gòu),并且從廣義上講,都是該架構(gòu)的擴(kuò)展版本,具有更多內(nèi)核、更多 I/O 和更多內(nèi)存通道。最小的芯片 M3 一開始有 250 億個晶體管(比 M2 多 50億個),而最高峰是 M3 Max 及其 920 億個晶體管。雖然蘋果提供了芯片die shot(當(dāng)今業(yè)界很少見),但他們不提供芯片尺寸,因此我們必須在設(shè)備發(fā)貨后看看這些芯片尺寸如何測量。
雖然蘋果尚未正式披露除 3 納米設(shè)計之外所使用的工藝,但考慮到唯一可用于這種大批量生產(chǎn)的臺積電 3 納米生產(chǎn)線是他們的 N3B 生產(chǎn)線,因此可以非常安全地打賭,我們這里我們看一下 N3B,它也被用在 A17 上。根據(jù)臺積電官方數(shù)據(jù),N3B 提供了極高的晶體管密度,特征尺寸減少了 42%,iso-power 減少了約 25%。但即便如此,M3 Max 仍然是一款堅固的芯片。
在其他方面,蘋果支持的內(nèi)存類型似乎沒有任何變化。在某些情況下,該公司的帶寬數(shù)據(jù)與 M2 系列的數(shù)據(jù)相同,表明該公司仍在使用 LPDDR5-6400 內(nèi)存。這有點令人驚訝,因為更快的 LPDDR5X 內(nèi)存很容易獲得,而且 Apple 的 GPU 密集型設(shè)計往往會從額外的內(nèi)存帶寬中受益匪淺。目前最大的問題是,這是否是由于技術(shù)限制(例如蘋果的內(nèi)存控制器不支持 LPDDR5X),或者蘋果是否有意決定堅持使用常規(guī) LPDDR5。
M3 CPU 架構(gòu):速度明顯更快
在架構(gòu)方面,不幸的是,Apple 對于 M3 系列 SoC 中使用的 CPU 和 GPU 架構(gòu)相當(dāng)模糊。事實上,該公司全年都在嚴(yán)格控制泄密情況——即使現(xiàn)在我們也不知道 A17 SoC 中使用的 CPU 內(nèi)核的代號。
無論如何,鑒于蘋果在 A 和 M 系列芯片之間共享 CPU 架構(gòu),我們無疑以前見過這些 CPU 內(nèi)核。問題是我們是在關(guān)注最近推出的 A17 SoC 的 CPU 內(nèi)核,還是 A16(Everest 和 Sawtooth)的 CPU 內(nèi)核。A17 是更有可能的候選者,特別是因為蘋果已經(jīng)擁有 N3B 的工作 IP。但嚴(yán)格來說,我們目前沒有足夠的信息來排除A16 CPU核心;特別是蘋果沒有就 M3 系列 CPU 內(nèi)核相對于 M2 提供的架構(gòu)改進(jìn)提供任何指導(dǎo)。
目前我們所知道的是,與 M2 系列相比,Apple 宣稱其高性能 CPU 內(nèi)核的性能提高了約 15%?;蛘?,如果您更喜歡 M1 比較,則可提高 30%。蘋果沒有透露用于做出這一決定的基準(zhǔn)或設(shè)置,因此我們無法透露該估計的真實性?;蛘?,就此而言,其中有多少來自 IPC 提升與時鐘速度提升。
與此同時,效率核心也得到了改進(jìn),根據(jù)蘋果公司的說法,其增益比高性能核心更大。M3 系列效率核心比 M2 快 30%,比 M1 快 50%。
蘋果在其網(wǎng)站上發(fā)布了特定于應(yīng)用程序的基準(zhǔn)測試,盡管這些是系統(tǒng)級基準(zhǔn)測試。其中許多是 CPU 和 GPU 共同獲得的收益。這肯定與這些應(yīng)用程序的用戶相關(guān),但它們并沒有告訴我們太多有關(guān) CPU 內(nèi)核本身的信息。
蘋果同樣模糊的性能/功率曲線圖也在很大程度上重申了這些說法,同時證實了性能/功率曲線變得平坦的長期趨勢正在持續(xù)。舉例來說:Apple 聲稱 M3 可以以一半的功耗提供與 M1 相同的 CPU 性能;但在等功率下,峰峰值性能僅高出 40% 左右。
從等性能的角度來看,連續(xù)幾代的工藝技術(shù)不斷降低功耗,但在解鎖更高的時鐘速度方面卻做得相對較少。這使得更高時鐘速度帶來的持續(xù)性能提升在功耗方面相對昂貴,這反過來又促使芯片供應(yīng)商增加整體功耗。根據(jù)蘋果的圖表,即使是 M3 也未能幸免,因為它的峰值功耗高于 M1。
M3 GPU 架構(gòu):具有網(wǎng)格著色和光線追蹤的新架構(gòu)
與此同時,在 GPU 方面,M3 系列芯片包含了更實質(zhì)性的 GPU 架構(gòu)更新。雖然蘋果公司對 GPU 架構(gòu)的底層組織一如既往地守口如瓶,但從功能角度來看,新架構(gòu)為蘋果平臺帶來了一些主要的新功能:網(wǎng)格著色和光線追蹤。
Apple 的 iPhone 15 Pro 系列 A17 SoC 也引入了這些相同的功能,幾乎可以肯定,這是該架構(gòu)的更大規(guī)模實現(xiàn),就像前幾代的情況一樣。當(dāng)我們在這里討論筆記本電腦和臺式機(jī)時,這些功能將使 M3 GPU 與 NVIDIA/AMD/Intel 的最新獨(dú)立 GPU 設(shè)計大致相當(dāng),所有這些設(shè)計公司幾年來都提供了類似的功能。用 Windows 的話說,M3 GPU 架構(gòu)將是DirectX 12 Ultimate 級(功能級別 12_2)設(shè)計,使 Apple 成為第二家在筆記本電腦 SoC 中提供如此高功能集成 GPU 的供應(yīng)商。
在這一點上,光線追蹤幾乎不需要介紹,因為整個 GPU/圖形行業(yè)在過去五年里一直在大力推廣物理上更加精確的渲染形式。另一方面,網(wǎng)格著色不太為人所知,因為它提高了渲染管道的效率,而不是解鎖新的圖形效果。然而,其重要性不容低估。網(wǎng)格著色顛覆了整個幾何渲染管道,以允許在可用幀速率下呈現(xiàn)更多幾何細(xì)節(jié)。它在很大程度上是一個“基線”功能——開發(fā)人員需要圍繞它設(shè)計引擎的核心——所以它在最初的采用中不會有太大影響,但它最終將成為一個決定成敗的功能,與 M3 之前的 GPU 兼容的分界點。我們今天已經(jīng)在 PC 游戲(例如最近發(fā)布的《心靈殺手 II》)中看到了這一點。
這一代 GPU 還配備了新的內(nèi)存管理功能/策略,蘋果將其稱為“動態(tài)緩存”。根據(jù)蘋果產(chǎn)品展示中的有限描述,該公司似乎采取了新的努力來更好地控制和分配其 iGPU 使用的內(nèi)存,防止其分配比實際需要更多的內(nèi)存。GPU 過度分配內(nèi)存是很常見的(擁有它而不需要它比相反更好),但這是浪費(fèi)的,尤其是在統(tǒng)一內(nèi)存平臺上。因此,正如蘋果所說,“每項任務(wù)只使用所需的確切內(nèi)存量”。
值得注意的是,此功能對開發(fā)人員來說是透明的,并且完全在硬件級別上運(yùn)行。因此,無論蘋果在幕后做什么,它都被從開發(fā)者和用戶手中抽象出來。盡管用戶最終將受益于更多的可用 RAM,但當(dāng) Apple M3 Mac 的最低配置仍然是 8GB RAM 時,這無疑是一件好事。
然而,更令人好奇的是,蘋果聲稱這也將提高 GPU 性能。具體來說,動態(tài)緩存將“顯著”提高 GPU 的平均利用率。目前尚不清楚內(nèi)存分配和 GPU 利用率之間的關(guān)系,除非蘋果針對的是一種極端情況,即由于缺乏 RAM,工作負(fù)載必須不斷交換到存儲。不管怎樣,蘋果認(rèn)為這一功能是新 GPU 架構(gòu)的基石,并且值得在未來進(jìn)行更仔細(xì)的研究。
然而,在性能方面,蘋果提供的指導(dǎo)非常少。在過去的幾代中,該公司至少提供了其 GPU 的一般計算吞吐量數(shù)據(jù),例如普通 M2 GPU 的 5.6 TFLOPS。但對于 M3 GPU,我們沒有獲得任何此類吞吐量數(shù)據(jù)。因此,目前還不清楚這些 GPU 在現(xiàn)有應(yīng)用程序/游戲中的速度有多快,或者它們可以有多快。Apple 在其產(chǎn)品頁面上引用了 2.5 倍的數(shù)字,但查看注釋,這是具有硬件 RT (M3) 的 Redshift 與軟件 RT(其他所有內(nèi)容)的對比。
蘋果充其量只是在演示中展示了 GPU 性能/功率曲線圖,將 M3 與 M1 進(jìn)行了比較。蘋果再次聲稱 M3 在 iso 性能下消耗一半的電量。同時,等功率(峰值 M1,約 12.5W)下的性能大約提高了 50%。但M3的GPU功率限制也明顯更高,達(dá)到約17瓦。這釋放了更多的性能,但同樣消耗了更多的電量,并且沒有告訴我們 M3 GPU 與 M2 的比較如何。
M3 NPU:更快一點,但架構(gòu)沒有更新?
最后但并非最不重要的一點是,讓我們快速瀏覽一下 M3 的 NPU(神經(jīng)引擎)。從高層次來看,這又是 16 核設(shè)計。蘋果聲稱它提供了 18 TOPS 的性能,比 M2 的 NPU 高出約 14%(蘋果官方數(shù)據(jù)為 15%,很可能是由于舍棄了小數(shù))。所有三款 M3 芯片似乎都具有相同的 16 核 NPU 設(shè)計,因此應(yīng)該具有相似的性能。
然而,18 TOPS 的數(shù)字卻令人大吃一驚。正如Ian Cutress 博士向我指出的那樣,18 TOPS 實際上比 A17 SoC 中的 NPU 慢。
發(fā)生什么了?
隨著 A17 SoC 的推出,蘋果開始引用 INT8 性能數(shù)據(jù),而我們認(rèn)為之前版本的 NPU(A 系列和 M 系列)的 INT16/FP16 數(shù)據(jù)。該格式的精度較低,可以以較高的速率進(jìn)行處理(以精度換取吞吐量),因此引用的數(shù)字較高。
這里的 18 TOPS 數(shù)字顯然是 INT16/FP16 性能,因為這與過去的 M 系列聲明和 Apple 自己的圖表一致。那么,懸而未決的問題是,M3 中的 NPU 是否支持 INT8,因為 A17 最近才添加了 INT8。要么它確實支持 INT8,在這種情況下,Apple 正在努力實現(xiàn)一致的消息傳遞,要么它是缺乏 INT8 支持的老一代 NPU 架構(gòu)。
總體而言,這種差異更多的是出于好奇,而不是擔(dān)憂。但看看蘋果是否保持 A 和 M 系列的 NPU 架構(gòu)相同,或者我們是否看到這一代的差異,將會很有趣。
僅規(guī)格:M3、M2、M1
回到速度和饋送,我還整理了每一層 M 系列處理器的規(guī)格表,將它們與它們的前輩進(jìn)行比較。這有助于更好地說明這些部件在核心數(shù)量、性能、內(nèi)存支持和 I/O 方面如何隨著時間的推移而演變。
M 系列的vanilla系列是該系列中最簡單的。作為 M 系列芯片中的第一款產(chǎn)品,Apple 不斷增強(qiáng)該芯片的功能和性能。但他們并沒有在功能塊/核心方面添加太多?,F(xiàn)在已經(jīng)三代了,CPU還是4P+4E的設(shè)計,GPU也從第一代的8核發(fā)展到了M2和M3的10核。
一致的 128 位內(nèi)存總線為這頭小野獸提供了食物。由于蘋果沒有在這一代 M 系列中采用 LPDDR5X,因此內(nèi)存帶寬與 M2 保持不變,LPDDR5-6400 高達(dá) 24GB,可實現(xiàn) 100GB/秒的總內(nèi)存帶寬。
芯片的有限 I/O 也一直存在于各代產(chǎn)品中。M3 可以驅(qū)動兩個 40Gbps USB4/Thunderbolt 端口,與 M2 和 M1 相同。此外,仍然僅支持兩個顯示器——內(nèi)部顯示器和單個外部顯示器。
盡管核心數(shù)量沒有增加,但隨著新功能和更復(fù)雜的核心設(shè)計占用更大的晶體管預(yù)算,晶體管數(shù)量在幾代人中持續(xù)增長。M3 擁有 250 億個晶體管,比 M2 多出 25%,比 M1 多出 56%。
然而,M3 Pro 的情況卻變得更加有趣。與以相對簡單的方式建立在前輩基礎(chǔ)上的兄弟姐妹不同,蘋果在第三代 M 系列芯片中重新平衡了 M3 Pro。因此,它在配置方面與 M2 Pro 存在一些顯著差異,并且在晶體管數(shù)量方面它并沒有像其他芯片那樣增長。
從CPU核心開始,雖然M3 Pro和M2 Pro一樣總共有12個CPU核心,但性能和效率核心之間的平衡已經(jīng)發(fā)生了變化。具體來說,它從8P+4E設(shè)計變成了6P+6E設(shè)計。雖然所有 CPU 核心的性能總體上都比 M2 同類產(chǎn)品更高,但這就是為什么 Apple 的配備 M2 Pro 的 MacBook Pro 的官方性能數(shù)據(jù)顯示它們在 CPU 性能方面僅提供了微弱的提升。對于多線程繁重的工作負(fù)載,計算硬件實際上并沒有增加。
GPU 核心數(shù)量也有所減少。M3 架構(gòu) GPU 提供 18 個核心,而 M2 Pro 則有 19 個核心。這與普通的 M3 或 M3 Max 不同,后者的 GPU 核心數(shù)量要么持平,要么略有增加。
最后,提供所有這些的是明顯更小的內(nèi)存總線。M1 Pro 和 M2 Pro 都配備了 256 位 LPDDR5 內(nèi)存總線,當(dāng)填充 LPDDR5-6400 時,可為 SoC 提供 200GB 的聚合內(nèi)存帶寬。然而,在 M3 Pro 上,Apple 已將內(nèi)存總線明確削減至 192 位寬,即刪除了四分之一的內(nèi)存總線,這反過來又將內(nèi)存帶寬降低了 25%,至 150GB/秒。
這些變化的結(jié)合意味著M3 Pro在高水平上看起來更像是更強(qiáng)大的普通M3,而不是精簡版的M3 Max。從某些方面來說,這只是一種半滿/半空的心態(tài)。但總體而言,CPU 核心的性能和效率的平衡比更接近 M3 的設(shè)計,總內(nèi)存帶寬也是如此。M3 Pro 應(yīng)該仍然明顯快于 M3,但在某些方面,它最終會在性能方面落后于 M2 Pro。
蘋果對 M3 Pro 更為保守的立場也體現(xiàn)在其晶體管數(shù)量上。M3 Pro 上的晶體管數(shù)量實際上比 M2 一代有所減少——從 400 億個減少到 370 億個。因此,無論使用何種工藝節(jié)點,這總體上都是一個稍微簡單的芯片。與 M1 Pro 相比,前兩代晶體管數(shù)量僅略有增長 (~10%)。
至于為什么蘋果不像其他 M3 SoC 那樣加大 M3 Pro 的體積,目前還只能猜測。但從根本上講,由于晶體管數(shù)量較少和芯片尺寸較小,M3 Pro 的生產(chǎn)成本應(yīng)該比 M2 Pro 低得多。N3B 良率可能在這里發(fā)揮了作用(較低的良率等于較高的芯片有效成本),但只有臺積電和蘋果知道情況是否屬實。
功耗也可能是一個因素,尤其是在 CPU 核心重新平衡時。8 個性能核心可提供出色的性能,但它們肯定會消耗大量電量。Max SoC 在某種程度上可以擺脫這個問題,因為它們是頂級芯片,也適用于高端臺式機(jī),并且面向臺式機(jī)替代級筆記本電腦用戶。但對于更多的移動 Mac 用戶來說,蘋果可能會通過抑制性能增長來降低功耗。
出于這些原因,看看審查基準(zhǔn)的結(jié)果將會很有趣。雖然這不太可能是蘋果公司會講述的故事,但他們筆記本電腦的性能和功耗應(yīng)該能夠為他們講述很多故事。
最后,我們擁有最大、最差的單片 M 系列芯片系列 Maxes。Max 芯片始終在核心數(shù)量和晶體管數(shù)量方面突破極限,與 M3 Pro 不同,M3 Max 延續(xù)了這一傳統(tǒng)。
與前代 M2 相比,蘋果在這里又增加了 4 個性能 CPU 核心,使其總數(shù)達(dá)到 12 個性能核心和 4 個效率核心。并使其成為唯一一款獲得 CPU 核心性能提升的 M3 芯片。因此,這將是唯一一款 M3 芯片,至少在有利的散熱條件下,多線程 CPU 性能應(yīng)該會顯著提高。盡管“有利的熱條件”確實是那里的關(guān)鍵詞,因為這是一個非常強(qiáng)大的冷卻芯片。
在 GPU 方面,GPU 核心數(shù)量略有增加,從 M2 Max 上的 38 個核心增加到 M3 Max 上的 40 個核心。由于沒有來自蘋果公司的任何良好的性能數(shù)據(jù),很難估計這在實踐中會快多少。
為 M3 Max 提供與前兩個版本芯片相同的 512 位 LPDDR5 內(nèi)存總線。值得注意的是,這意味著蘋果的可用內(nèi)存帶寬在過去兩代中并未增加,無法跟上數(shù)量更多的 CPU 和 GPU 核心的需求,因此該公司需要從其芯片架構(gòu)中獲取更高的效率(和緩存命中率)以保持 SoC 的充足運(yùn)行。
從蘋果官方的芯片照片中,我們可以看到蘋果再次使用他們定制的 x128 LPDDR5 內(nèi)存芯片,從而使他們能夠僅在 4 個芯片上連接 512 位內(nèi)存總線。這一代的最大內(nèi)存容量已達(dá)到 128GB,這對這些內(nèi)存芯片中使用的芯片具有有趣的影響。除非蘋果正在做一些真正瘋狂的事情,否則獲得 128GB LPDDR5 的唯一方法就是使用 32Gbit LPDDR5 芯片(總共 32 個)。我不知道目前有誰提供這種容量的芯片,所以蘋果似乎已經(jīng)從提供它的任何人那里獲得了對該內(nèi)存的優(yōu)先使用權(quán)。對于其他所有人來說,我們應(yīng)該會在明年晚些時候在 Windows 筆記本電腦上看到 128GB LPDDR5(X) 配置。
隨著CPU核心、GPU核心的增加,以及芯片各個構(gòu)建模塊復(fù)雜性的普遍增加,M3 Max的晶體管總數(shù)已激增至920億個晶體管。這比 M2 Max 多了 37% 的晶體管,甚至比基于臺積電 N4 工藝構(gòu)建的 NVIDIA 大型 GH100 服務(wù)器 GPU 多了 15%(120 億)。N3B 構(gòu)建的 M3 Max 應(yīng)該要小得多(小于 400mm??),但按照筆記本電腦標(biāo)準(zhǔn),這仍然是一個巨大的芯片,更不用說如果蘋果將其中兩個放在一起進(jìn)行 Ultra 配置時會發(fā)生什么。無論蘋果為這些芯片向臺積電支付多少錢,它都不會便宜——但是有多少其他供應(yīng)商正在設(shè)計比大多數(shù)服務(wù)器芯片晶體管數(shù)量更多的筆記本電腦 SoC?