近年來,因為飛騰、Ampere、Marvell和華為等廠商的投入,Arm服務(wù)器芯片的熱潮又被再度燃起。但其實這并不是Arm在服務(wù)器芯片的第一次嘗試,而是一個從2008年就開始的規(guī)劃。
下面,我們來跟隨作者的筆觸,來回顧Arm服務(wù)器芯片的發(fā)展歷程。
Arm服務(wù)器的第一波浪潮,是一家叫Calexda開始,也是由它結(jié)束的。雖然我覺得2011的官宣Armv8架構(gòu),就是32bit 服務(wù)器的終結(jié)。但是第一波的浪潮的起伏,并不僅僅是32bit,64bit 那么簡單,還有一個詞Microserver,微服務(wù)器。也是當(dāng)時產(chǎn)業(yè)界,包括x86陣營的共同探索。技術(shù)上,商業(yè)邏輯上,都不錯的產(chǎn)品,在市場上,沒有成功。
我個人得到的一個觀察:服務(wù)器市場是個求穩(wěn)的保守的市場,相對于活躍的終端市場。
啟程 2008
2008年,Arm內(nèi)部開始醞釀服務(wù)器計劃。心動就行動,Arm參與投資了一家當(dāng)時叫Smooth Stone,后來改名為Calxeda的startup公司。當(dāng)時的第一輪總投資金額是$48M。
Calxeda的一開始目標(biāo)就是降低數(shù)據(jù)中心的耗能,并且提高相同空間的計算力密度。請記住這兩個目標(biāo),此時此刻,我們的初心依舊。
那一年市面上還是Cortex-A8的產(chǎn)品,而基于第一款多核Ccortex-A9的產(chǎn)品要到3年后才上市。(好懷念那個2,3年才發(fā)布一款產(chǎn)品的慢速時代)。
那時Intel的Xeon還是4個核,當(dāng)然主頻已經(jīng)3.xGhz了,而AMD的45nm Opteron CPU也剛剛上市。
那一年IBM剛剛宣布Power產(chǎn)品線,而且上來就高山仰止的高達(dá)64個核。
蘋果發(fā)布了iPhone 3G,就是iPhone2。(對,那時還是3G時代。)
TSMC 的主流工藝是40nm,年收入$10B。
我還在一家叫EZchip的公司做NP3,此處NP不是Neural Processor而是Network Processor。那是一個網(wǎng)絡(luò)處理器大繁榮的時代,我能說出一長串名字,可惜現(xiàn)在都湮滅了。低調(diào)的炫耀一下,其實我最擅長的部分是TM-Traffic Manager 而不僅僅是處理器部分,這也是這家100多人的以色列公司(年營收大約$60M)最突出的特色。此處省略若干文字,真講起來,我能一個人講一周的培訓(xùn),收美金的那種。
Calxeda 2011
2010年Smooth Stone正式改名字為Calxeda,把總部搬到了Austin。
2011年 Calxeda發(fā)布它的芯片基于A9的芯片EnergyCore ECX-1000。
圖2.1CalexdaEnergyCore架構(gòu)
這其實是一個值得細(xì)看的一款設(shè)計,4核cortex-a9組成的處理器模塊,比較中規(guī)中矩,I/O controllers部分也是常規(guī)接口(常規(guī)接口并不容易,一個好產(chǎn)品的核心是常規(guī)部分做到業(yè)界一流)。但是管理引擎(management engine)和交換引擎(Fabric Switch)部分就是技術(shù)非常創(chuàng)新之舉。
EnergyCore Fabric是一個集成的L2 switch支持mesh, butterfly tree, 2D Torus拓?fù)?,虛擬端口之間的帶寬可以按1 Gb/sec, 2.5Gb/sec, 5 Gb/sec, 核10 Gb/sec的不同規(guī)格分配。通過它,服務(wù)器節(jié)點可以自己自主成網(wǎng),不必通過on top switch,因此Calexda的一塊板塊上有4個芯片,也就是16個核心。因此才有可以高達(dá)480個核的服務(wù)器系統(tǒng)。
這個設(shè)計理念是合理的,如果你設(shè)計一塊非常低成本的服務(wù)器芯片,但是配套的網(wǎng)絡(luò)仍然是昂貴的話,高密度的設(shè)計,只會增加成本。這個fabric可以將1024個系統(tǒng)板,也就是4096個芯片用10G網(wǎng)絡(luò)接口,集聯(lián)為系統(tǒng)。
EnergyCore ManagementEngine是一個集成BMC,支持IMP2.0和DCMI,還支持遠(yuǎn)程調(diào)試SoL協(xié)議。管理引擎最強的地方在于功耗管理,Calexda這款服務(wù)器芯片的功耗可以從4w到1w動態(tài)調(diào)整。
每個節(jié)點的制造成本大約是$28。
圖2.2 4個節(jié)點的Calexda系統(tǒng)板
2011年,我加入Arm網(wǎng)絡(luò)市場部。那時我關(guān)注的是還在設(shè)計階段的LSI Axxia AXM5500 16-core ARMCortex-A15, Freescale 的QorIQ Layerscape 系列,TI的KeyStone,還有海思的hixxxx系列,那真是一個Arm在網(wǎng)絡(luò)市場大爆發(fā)的時代。但是很快,一年后,我跟著當(dāng)時的老板,一位有電影明星氣質(zhì)的印度裔資深美女,從網(wǎng)絡(luò)市場轉(zhuǎn)為服務(wù)器市場,從那時到現(xiàn)在,全心全意的投入服務(wù)器市場與生態(tài)建設(shè)。
Computex 2012
2012年,Ian Ferguson在臺北Computex上的公開演講,大約是Arm第一次向公眾介紹服務(wù)器方面的努力。和他一起站臺的是Ubuntu的Mark(軟件生態(tài)是個大話題,本文主要集中在芯片方面,系統(tǒng)硬件設(shè)計和軟件話題另外開文再說)。他引用了Facebook的 Frank說的performance per watt per dollar的價值觀。
提到Arm服務(wù)器,Ian Ferguson必須有姓名(他教我了一句做市場工作的最基本的一句話,“你是打算report news,還是make news?”,現(xiàn)在我也愿意和小伙伴一起說,來來來,我們一起搞事情。)如他在大會上的發(fā)言,從Arm打算考慮服務(wù)器市場的第一天起,整個業(yè)界都充滿了懷疑的論調(diào)。不僅僅懷疑是否能成功,甚至從根上,懷疑動機。
這些問題,我并不著急回答,如果你有耐心讀到最后,一切都自有答案。
Marvell Armada XP 2013
在第一波服務(wù)器浪潮中,Marvell Armada XP 四核系列,也是要提到的。而且這里的core,不是A9,也不是A15,是Marvell的custom Core。
也是因為Armada,我把什么叫架構(gòu)授權(quán),回答得滾瓜爛熟。
圖2.3 MarvellArmada XP
這款集成度很高,功耗低的SoC非常適合存儲應(yīng)用。Dell以此為核心,出了“Copper”的arm服務(wù)器系統(tǒng)。百度也曾經(jīng)使用過。這是Arm服務(wù)器在互聯(lián)網(wǎng)公司的第一個案例。
Calxeda 倒閉 2013
如果Calxeda能籌集的第三輪投資,那么按照下面的路標(biāo),有一款A(yù)15的芯片馬上量產(chǎn),2款A(yù)rmv8的芯片在計劃中。但是很不幸,募資工作不成功。 Calxeda從2008年成立,到2013,總投資$103M ($48m in 2010 & $55m in 2012 ), 一共130員工。
它的結(jié)業(yè)郵件中說,因為Arm服務(wù)器的出現(xiàn),“the industry will be transformed forever”。從現(xiàn)在看,是的。
圖2.4 Calxeda 路標(biāo)
Insight 64 的分析師說,他們在32bit Arm服務(wù)器上花了太多錢。是的,2011年Arm宣布了64bit的Armv8,Applied Micro公布了X-gene的計劃,其實第二輪Armv8 的服務(wù)器的浪潮就已經(jīng)展開。
而Calxeda的倒閉,標(biāo)志著第一輪的結(jié)束。
第二波 Armv8.0 (2011-2018)
雖然頂著編年史這種文藝的名字,我是想把它寫成一個技術(shù)分析文章,重點在Arm服務(wù)器芯片的特點與演進(jìn),不是解釋為什么這個公司成功,那個公司不成功。其實一個產(chǎn)品分析好做,一個公司的成敗,偶然因素真的影響很大。
第二波的三個關(guān)鍵詞是自研核心(custom core),主流性能,標(biāo)準(zhǔn)設(shè)計。在Arm服務(wù)器的初始?xì)q月里,芯片設(shè)計公司來自各個不同的領(lǐng)域,帶著自己對服務(wù)器CPU芯片的理解,各自交出了自己的產(chǎn)品。我把重點放在APM的X-gene,Cavium的ThunderX與高通的Centriq 2400上。同時也努力把所有的其它芯片都給一個線索,供有興趣的人,自己深入。
我做了一個excel表格,努力的比對所有的服務(wù)器SoC,包括公司規(guī)模,投資與花費的人力資源。有緣線下做交流。
再說一段,因為在這一段歷史中自研核占了多數(shù),而且關(guān)于架構(gòu),ISA的爭論一直不斷,我不想展開說,因為會偏題。在一個做私有云的大牛那里學(xué)到一個詞,“累計優(yōu)勢”,做CPU,做ISA,做芯片,其實也在一個緩慢的累計優(yōu)勢。這些年,我有帶著客戶的需求,案例,測試數(shù)據(jù),信心滿滿地前往公司總部找架構(gòu)師或者產(chǎn)品經(jīng)理,要求改設(shè)計,增加指令的時候(是的,我還管這事),結(jié)果么?我不能說我一次也沒有成功,但是我家架構(gòu)師和產(chǎn)品經(jīng)理,都是狠角色,在對拼數(shù)據(jù)和應(yīng)用案例方面,鮮有敗績。
另外,Hock Tan一定要提一下,這人簡直就是Arm服務(wù)器的發(fā)展道路和我職業(yè)生涯中的荊棘,一個拿了double kill 雙殺的男人。他先收購Broadcom,賣掉服務(wù)器芯片項目,然后提出收購 Qualcomm,高通的管理層為了自保,提出每年消減1B的開銷,因此自我了斷所有長期投資項目,運作良好的服務(wù)器項目就這樣躺槍了。
AppliedMicro – X-gene (2011)
2011年10月,在Arm第一次宣布ARMv8架構(gòu)的同時,Applied Micro公布了它們的自架構(gòu)x-gene計劃(大新聞都是和關(guān)鍵客戶一起發(fā)布的)。
如果你在那個時代讀新聞,你會留意到SoC這個概念,當(dāng)然現(xiàn)在,SoC這個概念不用解釋了。那個時候,還是需要強調(diào) SoC等于chip + chipset的集成設(shè)計。
X-gene的第一代是8個自研核心-Storm,兩個核共享256KB的L2 cache,這跟Arm的4個核一個cluster不同。下一章講的AMD的代號Seattle的Opteron A1100 processor,也沒有用4個Cortex-A57的一個cluster,兩個cluster的設(shè)計,而是2個A57,4個cluster的設(shè)計。AMD的A1100的兩個A57,共享1MB的L2 cache,比X-gene大4倍。但是X-gene的自研核Storm是4 issue的, A57仍然在3 issue的能效比的甜蜜點上。
圖3.1 APM的X-Gene spec
圖3.2 APM的X-Gene產(chǎn)品路標(biāo)
現(xiàn)在,連手機CPU都奔著6 issue去了,從這點上看,自研核,還是展現(xiàn)自己對業(yè)界發(fā)展洞見的好武器。
X-gene為8個核,配了4個memory通道,這個也是在x86陣營中少見的CPU:memory比例。而且集成了2個10G NIC,支持RoCE,算是SoC的優(yōu)勢。
Applied Micro官方資料給出的能耗參數(shù),滿負(fù)荷狀態(tài),一個核2瓦,idle狀態(tài),僅僅0.5w。
圖3.2 X-Gene的框架圖
我對X-Gene設(shè)計印象最深的部分是MSLIM ,這是4個A5組成的小處理器cluster,提供加速功能。我不知道到底有沒有客戶使用這個處理器組,也不知道當(dāng)年的設(shè)計理念。
從設(shè)計到成品,有多少設(shè)計被客戶忽略,有多少設(shè)計到了客戶手里超常發(fā)揮,我覺得架構(gòu)師也會感覺迷茫,工程的世界里竟然也有許多的不確定性。
圖3.3 X-Gene die
圖3.4 X-Gene CPU模塊
沒有整個die的信息,不過有處理器模塊的信息。每個處理器模塊,有2個core,共享的L2,在40nm的工藝下,14.8 mm?,84M transistors。照著這個尺寸,我估計整個die是300 mm2
Anandtech曾經(jīng)有篇蠻詳細(xì),也蠻負(fù)面的評測報告。中心意思就是尚未成熟,性能,能效比優(yōu)勢也不明顯。它測試的是HPE的moonshot系統(tǒng),HPE的官方文件其實對X-gene評價頗高,因為X-gene是第一款量產(chǎn)的Arm 64bit 服務(wù)器芯片,初期的軟件伙伴們,都是用著它家的系統(tǒng)的。
我知道Applied Micro-APM的時候,它還叫AMCC。 AMCC團(tuán)隊算是硅谷老牌做CPU的不多團(tuán)隊之一,不過是做PowerPC的。它在多核路上不太順利,所以換了Arm重新開始。大約因為是老牌CPU設(shè)計團(tuán)隊,他們一上手就選了最高難度的架構(gòu)授權(quán),自研核的路線。我曾經(jīng)為了它和同事爭論到面紅耳赤,跟他說,我站起來是條漢子,倒下去還是條漢子。我同事,性別男,氣笑了,說,行,行,你是條漢子。
X-gene2大體上是X-gene1的28nm的tick實現(xiàn),略。
eMAG-X-Gene3 2018
我猶豫許久,不知道該把這顆Ampere重新設(shè)計的eMAG,歸為第二波尾巴,還是第三波的開頭。按照核心的原設(shè)計脫胎于X-Gene 3來說,還是第二波尾巴。
圖3.5 Ampere eMAG
圖3.6 Ampere 產(chǎn)品優(yōu)勢
32核List price 是 $850,一個相對非常有競爭力的價格??蚣軋D看起來很熟悉,不分析了。
圖3.6 Ampere eMag 框架圖
AMD’s A1100 (2012)
在Armv8架構(gòu)推出一年之后,Arm發(fā)布了A57和A53兩款 cortex-A5x系列的產(chǎn)品,按照國際慣例,一個重磅的合作伙伴在發(fā)布會與Arm一起閃亮登場,AMD。
這款內(nèi)部代碼名為Seattle,屬于Opteron系列,后面的正式產(chǎn)品名字是A1100的芯片,現(xiàn)在在AMD主線產(chǎn)品歷史上找不到的產(chǎn)品。
AMD當(dāng)時花了蠻長的時間,解釋為什么要做Arm服務(wù)器,怎么定位公司內(nèi)部的x86與Arm的產(chǎn)品線,甚至為了穩(wěn)定外界的懷疑,推出了僅僅活在新聞中的K12 (2015)。
如果我們回頭看2012年,有一個名詞,不能忽略,“microserver”,而那個時候,AMD剛買了SeaMicro,一個圍繞著 Freedom Fabric打造高密度,低功耗的系統(tǒng)的公司。這個Fabric,超高密度(very-high-density),低功耗,聽起來耳熟不? Calexda的路數(shù)啊。下圖是10U的尺寸,共有768個CPU,包括了四個GE交換機和一個流量均衡器(a loadbalancer)。
圖3.7 Calexda 10U系統(tǒng)
在這樣的系統(tǒng)設(shè)計下,配一顆超低功耗的Arm處理器,合情合理多了吧?因此選Arm的標(biāo)準(zhǔn)核Cortex-A57,縮短開發(fā)時間,節(jié)省開發(fā)費用,也是順理成章的事情,都在合理邏輯之內(nèi)。
Cortex-A57的資料滿世界都是,我就不在這里羅列了。前一章有提,AMD選了2 core 4 cluster的配置,而不是手機AP常見的4 core 2 cluster。好處么,自己體會一下。
這顆芯片的list price是$150,也是很有殺傷力。
圖3.8 AMD Opteron A1100框架圖
圖3.9 AMD Opteron A1100 Floorplan
某種意義上,AMD這顆Seattle雖然被列入第二波浪潮中。它的設(shè)計理論完全是第一波的。K12才是第二波的。
可是看看K12的設(shè)計目標(biāo),在AMD的框架下,為什么要做Arm,自然是x86啊。Jim Keller這個男人本來是跟K12聯(lián)系在一起的。但是… … ,這個風(fēng)一樣不羈的男子啊。
Intel的對于此輪浪潮的反應(yīng)是14nm “Xeon-D”。
Cavium ThunderX 2014
某種程度上, Cavium的48核ThunderX 才是真正開啟第二波Arm服務(wù)器浪潮的產(chǎn)品。它湊齊了一顆主流服務(wù)器芯片應(yīng)有的所有特點,例如雙路和性能。
Cavium做為一家僅僅有AMD1/10大的公司,很早就有超多核處理器的設(shè)計能力,只是之前是MIPS網(wǎng)絡(luò)應(yīng)用處理。
雖然只有2 issue的自研核,單核性能較弱。但是整個SoC的設(shè)計,特別多路設(shè)計,是出色的。而且因為網(wǎng)絡(luò)處理器方面的積累,這顆芯片的加速引擎與IO接口非常豐富。
而且為了降低功耗,可以有選擇的關(guān)閉加速引擎,變成4種不同的配置: 云計算版本,存儲版本, 運營商版本,安全版本。
圖3.10 Cavium ThunderX 框架圖
Anandtech有個非常不錯的性能測試,有助于對 Cavium ThunderX的理解。
BroadcomVulcan ThunderX2
這是很糾結(jié)的一節(jié)。如果說Broadcom Vulcan,那是2016的左右的事情。如果說Cavium的Thunder X2 那是2018年的產(chǎn)品。然后就迅速變成了Marvell的ThunderX2。本來是同期規(guī)劃的產(chǎn)品,結(jié)果,各種曲折離奇的竟然二合一。有的時候,我都不相信,我們這個產(chǎn)業(yè),也有這么多戲劇化的故事。
說起來,源自RMI的Broadcom的CPU設(shè)計團(tuán)隊,和Cavium的CPU設(shè)計團(tuán)隊,有好多共同點,都是MIPS系的,都是做網(wǎng)絡(luò)出身。但是跟Cavium老是做2 issue小核不同,Broadcom團(tuán)隊從一開始就擅長做多線程。因此在規(guī)劃的時候Vulcan就是逆天的4線程。此時ARM陣營里,還沒有多線程的處理器呢。
Broadcom原先的設(shè)計目標(biāo)是16nm,die size 600 mm2,32核,每核4線程,支持雙P系統(tǒng)。被Cavium收購之后,die size未披露。
最高配的CN9980,32核,2.5Ghz,TDP 200W。2.2Ghz,180W的CN9980,價格在$1795,而16核的CN9960,1.6 Ghz,75W售價 $800
而它的目標(biāo)市場,或者說可見的design win集中在HPC市場。
圖3.11 ThunderX2的框架圖
圖3.12 ThunderX 2 布局
圖3.13 ThunderX2 IO接口
Qualcomm 2017
在2017年高通向市場推出原代號為“Amberwing”的48核10nm的Centriq 2400的同一周,高通公司接到了博通公司的$130收購要約。
據(jù)估計,這顆Centriq 2400,歷時4年,花費在 $100M到 $125M,幾百名工程師的投入。期間,高通還做了一款24核的Centric 1200作為測試原型。
Centriq 2400有18Btransistors,398mm2,三星的10nm工藝,比thunderX2小巧多了。雖然它是單P處理器,但是對多年多代服務(wù)器發(fā)展規(guī)律,這本來不成問題。
圖3.14 Centriq 2400
圖3.15 Centriq 2400的微架構(gòu)對比
圖3.16 Centriq2400的框架圖
這顆含著金鑰匙出生的芯片,一路順風(fēng)順?biāo)牡絫ape out,直到那位叫Hock Tan的黑天鵝的出現(xiàn)。
從價格功耗表上看,Centriq2400的定價與ThunderX2基本一致。
Centriq 2400的CPU核名字為“Falkor”的自研核。最高2.6Ghz,是高通的第五代自研核。如果有的話,下一代核是“Saphira” ,芯片的名字叫“Firetail”。但是沒有然后了,高通取消了服務(wù)器芯片項目,也標(biāo)志著第二輪Arm服務(wù)器的浪潮的尾聲。
Samsung(2012-2014)
主線寫完,支線也要寫。
Samsung的Arm 服務(wù)器的故事,在國內(nèi)知道的人少,但是上過華爾街日報的。Samsung也從來沒有官宣過,整個項目起的時候,大家是猜測,滅的時候,大家也都是傳聞。
2007年 Samsung在Austin投資$3.5b建工廠,2010成立Samsung Austin Research Center,開始招芯片設(shè)計工程師,然后招了一位AMD的VP做Austin的VP。大家的猜測是服務(wù)器芯片也在這個Austin研究中心的計劃中。
其實,Samsung進(jìn)入服務(wù)器SoC設(shè)計的邏輯可以和高通很接近,但是當(dāng)時高通有CEO的支持,還有那樣的黯然收場,而一家韓國公司的美國分支部門,想撐起一個大服務(wù)器芯片的設(shè)計,有多困難,可以想象。
Nvidia Project Denver 2011-2014
Nvidia是一個我非常尊敬的公司,也是硅谷現(xiàn)存的仍然是創(chuàng)始人做CEO的極少數(shù)公司了。但是這一章,我寫了幾次,都寫不下去。大約是Nvidia仍然是GPU為主線的公司,它的CPU的發(fā)展邏輯,屬于面向應(yīng)用規(guī)劃的那種放飛型。
這是一個從Tegra開始,到Carmel,集成Arm CPU在復(fù)雜功能芯片的路徑。 其實,看起來更像是系統(tǒng)公司的芯片規(guī)劃路徑。因為本文集中在通用服務(wù)器芯片的分析,否則Nvidia家的產(chǎn)品路線,絕對值得一個完整的大章分析。
圖3.17 Tegra Arm CPU
圖3.18 Eegra K1
圖3.19 Carmel CPU
Balkal
俄羅斯的第一顆28n芯片BE-M1000,其實不應(yīng)該算在服務(wù)器類,不過它涵蓋了工作站。這個芯片公司跟日本的Fujitsu,中國的飛騰,一樣都是從超算項目中孵化出來,獨立運作,更注重商業(yè)成功一點。
我當(dāng)年是看過他們計劃的超強路標(biāo)的。但是從路標(biāo)到產(chǎn)品落地,這中間的三五年的時間,太多變數(shù),因此風(fēng)消云散的多了。
說到做芯片這事,這是超算的同志們的傳統(tǒng)強項。前面說到的某個服務(wù)器SoC,其實也來自于超算市場的推動。后面,我會說到歐洲,歐洲的同志們也開始發(fā)奮圖強要自己動手做芯片了。
圖3.20 Balkal BE-M1000
Phytium
飛騰的芯片的公開信息,來自hotchips 2015。最新的路標(biāo),來自飛騰總經(jīng)理竇強2019年12月19日的公開分享。
恕不展開。
HiSilicon 1616
海思的1616是鯤鵬920的前一代,比較低調(diào)的一代。華為官網(wǎng)上沒有介紹。我也就不放任何外網(wǎng)資料。
關(guān)于海思,我覺得可以按照《明朝那些事》的風(fēng)格寫部史詩級的著作,再補一個《海思群雄譜》的人物傳記做后傳。文科生寫像海思這種公司,寫不出氣勢,得我這種理工科的文藝青年。萬事俱備,就差兩件事就可以動手,一是海思宣傳部預(yù)付的稿費,當(dāng)然網(wǎng)友眾籌也可以考慮, 二是要等我退休哈。
Socionext
Socionext這顆"SynQuacer?" SC2A11大約是唯一一顆Cortex-A53的24核芯片了吧?
圖3.21Socionext SC2A11框圖
這顆芯片,不能光看芯片,要看系統(tǒng)設(shè)計。
圖3.22Socionext SC2A11服務(wù)器系統(tǒng)
這種小核,高密度系統(tǒng),有相似感覺了吧?那個時代的設(shè)計。
私評尾聲
2012-2014這幾年,我飛臺灣飛到吐血。我在我的硬盤了找到一份當(dāng)時的資料。當(dāng)時臺灣的業(yè)界有個說法,ODM Direct模式改寫產(chǎn)業(yè)鏈生態(tài)。ODM Direct 模式確實立住了,但是生態(tài)系統(tǒng)中的強者并不是ODM,是End Users,是那些個寫著我們可以控制從power grid到gate的Hyperscale們。
第二波浪潮還是半導(dǎo)體業(yè)界和系統(tǒng)廠商推動的,那么第三波,就是終端用戶自己下海弄潮了。
第三波 Neoverse
Drew Henry(建議大家去讀讀他在Linkedin上的簡介,堪稱高管簡歷模版)這個男人也是要在Arm 服務(wù)器歷史上留下名字的。在他加入Arm一年之后,2018年10月 Arm Tech上,他宣布Arm在Infrastructure 市場上有了自己的品牌(Neoverse)和冰公布了每年一代,每代提升30%的路線圖。
這是第三波浪潮的開始,只是深水靜流,那個時候,世界還是靜悄悄的。
而我還記得為了湊齊發(fā)布會上的那些大廠logo的那些瑣碎工作,還有伙伴們的給力支持。
圖4.1 Arm NEOVERSE路標(biāo)
Huawei Kunpeng 920
2019年1月7日,有大徐總之稱的徐文偉發(fā)布了鯤鵬920。
我只放我覺得重要的公開圖,怎么解讀,就看各位自己了。
這是顆世界先進(jìn)級的產(chǎn)品,無論哪個方面,包括關(guān)注的熱度。
圖4.2 鯤鵬920的發(fā)布會圖
圖4.4 鯤鵬920 4P互聯(lián)圖
AWS Graviton2
圖4.5 Graviton1 & Graviton2
即使2018年11月AWS發(fā)布了Graviton,并且用Neoverse稱呼了這個16個cortex A72 的自制芯片。世界并不震驚?,F(xiàn)在看,16核A72 16nm@2.3GHz,確實更像是試水。
特別是看看2017年AWS發(fā)布的也是由2015年收購的以色列創(chuàng)業(yè)公司Annapurna labs團(tuán)隊開發(fā)的Nitro芯片。
但是2019年的AWS Graviton 2就是驚艷級別的產(chǎn)品了。64核 Neoverse N1,30 Billion transistors,7nm的工藝,推測die size應(yīng)該在 300-350mm?,官宣高于Intel Xeon-based 5th代處理器40%的性能,還有高達(dá)25 Gbps的網(wǎng)絡(luò)帶寬和18 Gbps of 優(yōu)化EBS的帶寬。
圖4.6 SPEC cpu 2017
圖4.7 AWS Graviton2支持的EC2
Ampere QuickSilver 2019
Ampere順著AWS的graviton的正面風(fēng)潮,透露了7nm 80核N1 代碼名字為QuickSilver的下一代計劃。最亮眼的是新芯片支持2 socket的配置,這要感謝Arm mesh IP (CMN-600)在CCIX方面的努力。
圖4.8 Ampere產(chǎn)品路標(biāo)
除了讓人覺得帥到炸裂的80核N1設(shè)計之外,QuickSilver擁有128 PCIe4 lanes這樣的豪華配置。還是Nividia家CUDA-on-ARM的核心伙伴。
這是我2020最期望的一顆芯片,畢竟能買到啊,AWS的graviton只能買云服務(wù)。
MarvellThunderX3
接著AWS的熱度,公布自己下一代計劃的不僅僅有Ampere,還有我們的老牌公司Marvell,因此我們知道了ThunderX3 processor的自研核的名字是“Triton”,還看到了每兩年一代,每代性能翻倍的強勁產(chǎn)品路標(biāo)。
圖4.9 ThunderX 路標(biāo)
圖4.10 ThunderX3的增強部分
Fujistu A64FX 2016
最喜歡的要放到最后。我的同事,在跟與一位伙伴討論memory選擇的時候,說“高吞吐,大容量和便宜三者之間,你只能選兩個”,這句話非常有哲理了,如果有三項都可以兼顧的方案,大家就不糾結(jié)了。有糾結(jié),肯定是有難選的地方,我個人偏好那種“除了貴,沒別的毛病”的方案,但是請放心,給伙伴推薦的時候,我絕對不會表露這種個人傾向性的。
富士通的這款A(yù)64FX其實不是服務(wù)器芯片,是用來做超算的,恰恰就是那種“除了貴,沒別的毛病”的產(chǎn)品。
2016年arm宣布了ArmV8的指令集擴展SVE- Scalable Vector Extension,國際慣例,一個大客戶會出來站臺,這就是是Fujistu-富士通,它的Post-K,傳聞中拿了$1.24 billion日本國家資金的超算項目,會采用Arm架構(gòu),而不是他們以前的SPARC。而且A64FX是第一款支持SVE的Arm處理器。
圖4.11 A64FX的緩存層級和速度
2018年富士通在hotchips上公開介紹了A64FX這顆芯片。先看硬參數(shù):8.8 billion transistors (這個不算多,AWS Graviton2 有30B) ,7nm。48個自研核加上4個同質(zhì)的管理核,其實是4個處理器cluster,每個cluster是13個核。核間互聯(lián)是自研的第二代TOFU -6D mesh/torus片上網(wǎng)絡(luò)(第一代TOFU的口碑超級好),配的32GB HBM2 (超豪華配置),16PCIe 3.0 lanes (這個不算多,估計也不想接什么外設(shè)),1024 GB/s的存儲帶寬,2.7 TFLOPS @ 64bit,21.6 TFLOPS@8bit 的性能。Nvidia Tesla P4和P40,在8bit整數(shù)的時候,分別是22 TFlops和47TFLOPS,頗有一拼。
A64FX的cache層級,吞吐很高,執(zhí)行流水線,電源管理,RAS都很有特色,有興趣可以讀一下hotchips的文檔。
圖4.12 A64FX的floorplan
圖4.13 Fugaku節(jié)點(液冷的)
A64FX這種強悍的性能,可以不用和GPU組合,因此Cray在和富士通合作,把A64FX做進(jìn) CS500 clusters和未來Shasta系統(tǒng)中。
其它的新入者
2019年11月,一家叫Nuvia的創(chuàng)業(yè)公司,在SC會議期間,浮出水面。這家公司創(chuàng)始人的背景,蘋果的訴訟,立刻登上了頭條。沒有產(chǎn)品之前,讓我們記住他們的口號"deliver industry-leading performance and energyefficiency for the data center" 。
歐洲的歐洲處理器聯(lián)盟-EPI (https://www.european-processor-initiative.eu/project/epi/)也是一個以設(shè)計服務(wù)器級的CPU為目標(biāo)的努力。不多說,看路標(biāo)。
圖4.11 EPI路標(biāo)圖
總結(jié)
我在試圖回答Arm為什么要做服務(wù)器的時候,我能想到的就是“先進(jìn)生產(chǎn)力”這5個字。什么叫先進(jìn)生產(chǎn)力, Frank Frankovsky,F(xiàn)acebook VP of Hardware Design and Supply Chain Operations 也是個要有名字的男人。他提出 the most useful work per watt per dollar。真正能用上的算力除以買服務(wù)器花費與運營服務(wù)器所花的電費就是這個服務(wù)器的代表的生產(chǎn)力,這個值標(biāo)志了先進(jìn)性。
延伸一下,對產(chǎn)業(yè)鏈上的人就是the total useful work per total investment,提供有用計算力除以總投入的資金(時間,工程師的智慧與心血),這就是這個技術(shù)/方案/ISA/產(chǎn)品的生產(chǎn)力是否先進(jìn)的指標(biāo)。這也是我寫這篇編年史的一條暗線,多少投入,第三波浪潮會帶來多少產(chǎn)出。
真正的先進(jìn)生產(chǎn)力,是屬于全世界的,也是全世界共同努力的結(jié)果。
先進(jìn)的產(chǎn)品是一行行的代碼,一個個wafer累積出來的。
祝大家2020萬事如意。