在過去的每一年中,隨著AMD第一次談?wù)撈渲匦逻M(jìn)入服務(wù)器處理器領(lǐng)域,并給英特爾帶來一些真正,急需的,非常直接的競爭計劃,然后一次又一次地在其處理器路線圖上進(jìn)行交付以后,AMD逐漸證明,在Intel主導(dǎo)的X86計算領(lǐng)域中,他們是認(rèn)真的。
隨著第三代“ Milan” Epyc 7003處理器的推出,它將變得更加容易。但是,客戶更希望AMD的這款處理器應(yīng)該在多年前就交付。
但是不要感到困惑。事情變得容易并不意味著容易,因為英特爾數(shù)據(jù)中心事業(yè)部的最新季度財務(wù)業(yè)績則要比以往更進(jìn)一步,那就意味著Epyc的復(fù)出并不像十年半前的Opteron攻勢那么容易。
對AMD X86服務(wù)器處理器的熱情受到許多因素的影響,其中最重要的一點是,2021年的英特爾在計算,網(wǎng)絡(luò)和存儲方面的實力要比AMD在2000年推出Opterons的時候強(qiáng)的多。
英特爾過去幾年雖然搞砸了他們的路線圖和制造,但這遠(yuǎn)不及他們決定制造Itanium那么糟糕,Itanium芯片與Xeon并不真正兼容。
所以,當(dāng)AMD能夠相當(dāng)快地在X86服務(wù)器空間的某些細(xì)分市場中占領(lǐng)20%或更多的市場份額時,就不足為奇了。
隨著三代Epyc的推出,我們對2022年將發(fā)布的第四代“Genoa” Epyc 7004系列期望很高,然而,AMD市場份額的增長速度一直較慢。
與2000年代中期相比,新時代每個季度的服務(wù)器出貨量增加了約50%-并且其中的一些產(chǎn)品(例如超大規(guī)模生產(chǎn)者和云構(gòu)建者)絕對是巨大的。我們相信,這次Epyc服務(wù)器芯片業(yè)務(wù)正處于更好,更可持續(xù)的增長道路上,這將在今后幾年給英特爾帶來很多痛苦。這應(yīng)該是因為每個IT客戶都應(yīng)從激烈和直接的競爭中獲得收益,而英特爾在服務(wù)器處理器領(lǐng)域十多年來并沒有真正擁有它,而且在霸權(quán)時期,它在數(shù)據(jù)中心集團(tuán)的毛利證明了它所帶來的收益遠(yuǎn)遠(yuǎn)超過了對他的懷疑。
IBM的Power處理器和Arm團(tuán)隊的轉(zhuǎn)瞬即逝的成員之間的間接競爭還不足以削弱Intel的裝甲。隨著Epyc處理器的出現(xiàn),AMD的重新出現(xiàn),將使英特爾變得更加艱難。
在總裁兼首席執(zhí)行官Lisa Su的指導(dǎo)下,該公司在快速攀升,隨著英特爾因10納米的制造失誤而跳下城堡的臺階,該公司已經(jīng)能夠在英特爾的防具上留下一些痕跡。
盡管即將到來的“ Ice Lake” Xeon SP處理器能使Intel抵御來自米蘭Epyc 7003攻擊,這實際上是在AMD和Intel于第四季度開始將其芯片交付給超大規(guī)模生產(chǎn)商和云制造商時開始的,但事實仍然是Ice Lake應(yīng)該與第二代“羅馬” Epyc 7002s對抗,然而事實并非如此。借助Ice Lake和“Sapphire Rapids”技術(shù)的后續(xù)產(chǎn)品,英特爾將變得更好,該技術(shù)基于今年晚些時候或明年年初推出的改進(jìn)的10納米制造工藝。但是,英特爾的晶圓廠并沒有按時完成10納米制造,甚至還有些遲了,而不是像現(xiàn)在這樣嚴(yán)重地推遲了。
隨它吧。這是芯片業(yè)務(wù),這是芯片有時跌落的方式。每個人-我們的意思是每個人-都將在芯片代工廠中遇到一些問題,這些問題將受到制造能力限制以及未來工藝飛躍的其他延遲所困擾。每個人都將在最長的期限內(nèi)進(jìn)入處罰箱,特別是隨著摩爾定律從過去幾年的放慢速度發(fā)展到插管。據(jù)我們所知,10納米和7納米對每個人來說都是艱難的,5納米將更加艱難,對于3納米周期中任何容易的事情,我們都不抱太大希望。到處都是小芯片!而且AMD已經(jīng)比Intel知道如何做得更好。
在此背景下,我們將介紹一下AMD的新產(chǎn)品Milan系列,并將一如既往地深入研究Epyc 7003系列中的新處理器,包括新米蘭芯片的概述以及它們與上一代Opteron和Epyc處理器的比較,以深入探討架構(gòu)中,這些CPU在服務(wù)器空間中的競爭地位,以及英特爾和其他提供服務(wù)器CPU的供應(yīng)商以及消耗它們的OEM和ODM的競爭響應(yīng)。
PC和服務(wù)器的設(shè)計之間存在反饋循環(huán),RISC / Unix服務(wù)器供應(yīng)商以前可以使用該反饋循環(huán)在更廣泛的基礎(chǔ)上攤銷設(shè)計成本,從而從客戶那里獲得更多利潤。但是目前,只有X86服務(wù)器制造商Intel和AMD以及GPU制造商N(yùn)vidia和AMD仍然能夠為他們的計算引擎執(zhí)行此操作。有朝一日,可能會出現(xiàn)一個既做客戶端又做服務(wù)器的Arm供應(yīng)商,它可能是Nvidia,也可能是Apple。英特爾也希望為客戶端和服務(wù)器都提供GPU。AMD用于客戶端的Ryzen芯片和用于服務(wù)器的Epyc芯片都具有相同的體系結(jié)構(gòu),其中Milan服務(wù)器芯片更是基于Zen3內(nèi)核,一個已經(jīng)在PC CPU中使用了很多個月技術(shù)。
就Milan芯片而言,架構(gòu)核心的內(nèi)存和I / O集線器芯片仍然基本相同,除了一些調(diào)整以支持主內(nèi)存的nested paging 和運(yùn)行Infinity Fabric互連以鏈接Zen3內(nèi)核之外。以與主存儲器時鐘相同的1.6 GHz時鐘速度(與主存儲器時鐘進(jìn)行兩次pumped以使主存儲器在3.2 GHz上運(yùn)行)鏈接到存儲器和I / O集線器芯片(因此彼此之間)。過去,這兩個時鐘不同步,這種同步是提高羅馬和米蘭處理器之間性能的一個因素。在對內(nèi)存帶寬和延遲敏感的應(yīng)用上,時鐘同步比沒有使兩個時鐘以相同速度運(yùn)行的Rome處理器提高了3%到5%。
以下是三代Epyc處理器的一般供稿和速度:
如您所見,在羅馬和米蘭世代之間,內(nèi)核數(shù)和線程數(shù)沒有太大變化,并且兩種芯片均使用臺灣半導(dǎo)體制造公司的7納米工藝。AMD仍位每個物理內(nèi)核提供兩個虛擬線程的同時多線程(SMT)支持,而不像IBM使用Power8和Power9芯片那樣將其推到每個內(nèi)核四個線程或八個線程。
內(nèi)存和I / O系統(tǒng)基本相同,每個Epyc插槽有八個控制器,每個插槽有128通道的PCI-Express 4.0 I / O。處理器的散熱設(shè)計點相同。
這是有充分的理由的:米蘭芯片必須保持與羅馬芯片的插槽兼容性,否則主板和系統(tǒng)制造商會給AMD帶來極大的痛苦。這必須是在所有這些限制條件下做性能提升,而這恰恰是AMD與米蘭一起交付的產(chǎn)品,與羅馬相比,在一組代表性的工作負(fù)載中,平均每個時鐘(IPC)指令平均多出19%。
每個插槽的體積提高19%遠(yuǎn)遠(yuǎn)好于英特爾展示的每個插槽每代IPC改善5%至10%,坦率地說,這可能比許多人對AMD的預(yù)期要好得多。
您無法一次完成所有工作,或者根本無法完成任何工作。實際上,米蘭不得不等到Ryzen PC芯片市場需要一個更胖的核心復(fù)合體才能完成將NUMA域平坦化的某些事情,因為它們都與該內(nèi)存和I / O集線器芯片一起插入以創(chuàng)建什么對于操作系統(tǒng)及其應(yīng)用程序而言,它看起來像一個單片socket(或多或少)。
具體來說,Rome核心聯(lián)合體有四個Zen2核心,每個核心都有自己的L2緩存,它們掛起了一個共享的16 MB L3緩存。將其中的兩個模塊蝕刻到一個小芯片上,該芯片本質(zhì)上是Ryzen的baby PC芯片,然后將其中的八個芯片與插槽內(nèi)的Infinity Fabric互連,以創(chuàng)建64核Rome芯片。順便說一句,羅馬和米蘭都在使用Infinity Fabric Gen 2.0(上圖中的x-GMI-2)將核心復(fù)合體鏈接到封裝中心的內(nèi)存和I / O芯片。
在米蘭的設(shè)計中,核心體系是統(tǒng)一的,八個Zen3內(nèi)核都具有專用的L2緩存,并且它們都共享一個32 MB的L3緩存,并且以小芯片的形式實現(xiàn)。這些小芯片中的八個提供了最多相同的64個內(nèi)核,但是整個socket所代表的NUMA域數(shù)量減少了一半,因此操作系統(tǒng)和虛擬機(jī)會看到更多的原始處理和緩存。實際上,可以為單個內(nèi)核分配32 MB的L3緩存,并且在Rome產(chǎn)品系列的某些SKU(尤其是針對非常高性能的SKU)中,正是這種情況。
因此,例如,在Epyc 75F3中,僅打開了八個核心中的四個,總共32個核心,每個核心中的每四個具有完整的32 MB共享L3高速緩存和所有八個DDR4使用256 GB記憶棒激活每個插槽最大4 TB容量的內(nèi)存控制器。在八核Epyc 72F3芯片上(這是米蘭產(chǎn)品線的極端情況),八個核中只有一個被激活,并且以3.7 GHz的速度運(yùn)行,接近其4 GHz的渦輪速度。每個核心都有32 GB的L3高速緩存,這是一個很大的數(shù)目,并且與羅馬前輩相比,基于核心數(shù)量,時鐘速度和IPC提升的結(jié)合,可以為某些應(yīng)用程序的性能做出超出預(yù)期的巨大貢獻(xiàn)。
AMD共提供19種Milan Epyc 7003處理器,它們分為三大類,如下所示:
與過去一樣,F(xiàn)模型已針對相對較少的內(nèi)核進(jìn)行了最快的內(nèi)核時鐘速度頻率優(yōu)化-只有在較少數(shù)量的內(nèi)核上才有可能,這必然導(dǎo)致更高的L3緩存與內(nèi)核比率。這些模型有四個,分別具有8、16、24和32個內(nèi)核。另一套包含5個Milan芯片的內(nèi)核密度非常高,因此線程數(shù)也很高,它們針對服務(wù)器虛擬化和數(shù)據(jù)庫工作負(fù)載,這兩者都像許多內(nèi)核和線程一樣,可以提高吞吐量。然后,還有十個米蘭處理器進(jìn)行了“平衡和優(yōu)化”,以平衡相對較高的性能和較低的總擁有成本之間的差異。與那不勒斯和羅馬處理器一樣,有些Epyc芯片標(biāo)有P。
與前兩代Epyc芯片一樣,第三代不支持具有兩個以上插槽的NUMA機(jī)器。AMD即將退出市場,該市場上有配備有四個或八個插槽的Intel和IBM插槽的機(jī)器。
正如我們所說,我們將在隨后的故事中深入探討米蘭加工上的細(xì)節(jié)。目前,我們只是想向您提供有關(guān)新芯片的數(shù)據(jù),以及它們之間的相互比較以及與上一代Opteron和Epyc處理器之間的比較。因此,事不宜遲,以下是米蘭的SKU:
高性能F模型以粗斜體顯示,P單處理器芯片以灰色突出顯示,這是我們對Epyc系列的定制。我們已經(jīng)根據(jù)Milan線內(nèi)的核心數(shù)量和時鐘速度計算了原始性能指標(biāo),然后創(chuàng)建了一個相對性能指標(biāo),該指標(biāo)考慮了這一點以及隨著時間的推移IPC隨時間推移的原始改進(jìn),從而為您提供了基于以下各項的相對性能指標(biāo):具有2.8 GHz頻率的四核“上?!?Opteron 2387的性能,其相對性能為1.0,性價比為873美元。定價是購買1,000顆采購量的處理器的客戶的單價,這是Intel和AMD標(biāo)價的標(biāo)準(zhǔn)。
以下是那不勒斯和羅馬Epyc芯片以及上海皓龍2300的提要和速度:
米蘭芯片的相對性能從八核Epyc 72F3的不到6到Epyc 7763的31.6到任何地方,從最低的94美元到最高的414美元,每單位的相對效果。16核Epyc 7313P和24核Epyc 7443P提供了最佳的性價比,有趣的是,低核,高時鐘,高L3高速緩存八核Epyc 72F3僅略低于一半,價格為414美元性能指標(biāo),比2009年初的上海皓龍?zhí)幚砥餍阅芎蛢r值基準(zhǔn)更高。這可能看起來很瘋狂,但這只是向您顯示Dennard縮放在很久以前就已真正停止。
很難對SKU在世代之間無法精確匹配的產(chǎn)品線進(jìn)行歸納,但是看起來AMD總體上提供了更高的性能和更多的物有所值–但是,當(dāng)然不是在所有情況下,AMD都可以提供更高的性能和更高的性價比。從羅馬跳到米蘭。以運(yùn)行在2.3 GHz的48核Epyc 7643以及與運(yùn)行在2.3 GHz的48核Epyc 7642相匹配。僅憑IPC的改進(jìn),性能就提高了19%,但AMD還將價格從羅馬芯片的4,775美元提高到了米蘭芯片的4,995美元,這使性價比明顯提高了10%。
歸結(jié)為案例,這就是我們建立以上表格的原因。您可以將自己的內(nèi)心進(jìn)行比較。