近年來(lái),因?yàn)轱w騰、Ampere、Marvell和華為等廠(chǎng)商的投入,Arm服務(wù)器芯片的熱潮又被再度燃起。但其實(shí)這并不是Arm在服務(wù)器芯片的第一次嘗試,而是一個(gè)從2008年就開(kāi)始的規(guī)劃。
下面,我們來(lái)跟隨作者的筆觸,來(lái)回顧Arm服務(wù)器芯片的發(fā)展歷程。
Arm服務(wù)器的第一波浪潮,是一家叫Calexda開(kāi)始,也是由它結(jié)束的。雖然我覺(jué)得2011的官宣Armv8架構(gòu),就是32bit 服務(wù)器的終結(jié)。但是第一波的浪潮的起伏,并不僅僅是32bit,64bit 那么簡(jiǎn)單,還有一個(gè)詞Microserver,微服務(wù)器。也是當(dāng)時(shí)產(chǎn)業(yè)界,包括x86陣營(yíng)的共同探索。技術(shù)上,商業(yè)邏輯上,都不錯(cuò)的產(chǎn)品,在市場(chǎng)上,沒(méi)有成功。
我個(gè)人得到的一個(gè)觀(guān)察:服務(wù)器市場(chǎng)是個(gè)求穩(wěn)的保守的市場(chǎng),相對(duì)于活躍的終端市場(chǎng)。
啟程 2008
2008年,Arm內(nèi)部開(kāi)始醞釀服務(wù)器計(jì)劃。心動(dòng)就行動(dòng),Arm參與投資了一家當(dāng)時(shí)叫Smooth Stone,后來(lái)改名為Calxeda的startup公司。當(dāng)時(shí)的第一輪總投資金額是$48M。
Calxeda的一開(kāi)始目標(biāo)就是降低數(shù)據(jù)中心的耗能,并且提高相同空間的計(jì)算力密度。請(qǐng)記住這兩個(gè)目標(biāo),此時(shí)此刻,我們的初心依舊。
那一年市面上還是Cortex-A8的產(chǎn)品,而基于第一款多核Ccortex-A9的產(chǎn)品要到3年后才上市。(好懷念那個(gè)2,3年才發(fā)布一款產(chǎn)品的慢速時(shí)代)。
那時(shí)Intel的Xeon還是4個(gè)核,當(dāng)然主頻已經(jīng)3.xGhz了,而AMD的45nm Opteron CPU也剛剛上市。
那一年IBM剛剛宣布Power產(chǎn)品線(xiàn),而且上來(lái)就高山仰止的高達(dá)64個(gè)核。
蘋(píng)果發(fā)布了iPhone 3G,就是iPhone2。(對(duì),那時(shí)還是3G時(shí)代。)
TSMC 的主流工藝是40nm,年收入$10B。
我還在一家叫EZchip的公司做NP3,此處NP不是Neural Processor而是Network Processor。那是一個(gè)網(wǎng)絡(luò)處理器大繁榮的時(shí)代,我能說(shuō)出一長(zhǎng)串名字,可惜現(xiàn)在都湮滅了。低調(diào)的炫耀一下,其實(shí)我最擅長(zhǎng)的部分是TM-Traffic Manager 而不僅僅是處理器部分,這也是這家100多人的以色列公司(年?duì)I收大約$60M)最突出的特色。此處省略若干文字,真講起來(lái),我能一個(gè)人講一周的培訓(xùn),收美金的那種。
Calxeda 2011
2010年Smooth Stone正式改名字為Calxeda,把總部搬到了Austin。
2011年 Calxeda發(fā)布它的芯片基于A9的芯片EnergyCore ECX-1000。
圖2.1CalexdaEnergyCore架構(gòu)
這其實(shí)是一個(gè)值得細(xì)看的一款設(shè)計(jì),4核cortex-a9組成的處理器模塊,比較中規(guī)中矩,I/O controllers部分也是常規(guī)接口(常規(guī)接口并不容易,一個(gè)好產(chǎn)品的核心是常規(guī)部分做到業(yè)界一流)。但是管理引擎(management engine)和交換引擎(Fabric Switch)部分就是技術(shù)非常創(chuàng)新之舉。
EnergyCore Fabric是一個(gè)集成的L2 switch支持mesh, butterfly tree, 2D Torus拓?fù)洌摂M端口之間的帶寬可以按1 Gb/sec, 2.5Gb/sec, 5 Gb/sec, 核10 Gb/sec的不同規(guī)格分配。通過(guò)它,服務(wù)器節(jié)點(diǎn)可以自己自主成網(wǎng),不必通過(guò)on top switch,因此Calexda的一塊板塊上有4個(gè)芯片,也就是16個(gè)核心。因此才有可以高達(dá)480個(gè)核的服務(wù)器系統(tǒng)。
這個(gè)設(shè)計(jì)理念是合理的,如果你設(shè)計(jì)一塊非常低成本的服務(wù)器芯片,但是配套的網(wǎng)絡(luò)仍然是昂貴的話(huà),高密度的設(shè)計(jì),只會(huì)增加成本。這個(gè)fabric可以將1024個(gè)系統(tǒng)板,也就是4096個(gè)芯片用10G網(wǎng)絡(luò)接口,集聯(lián)為系統(tǒng)。
EnergyCore ManagementEngine是一個(gè)集成BMC,支持IMP2.0和DCMI,還支持遠(yuǎn)程調(diào)試SoL協(xié)議。管理引擎最強(qiáng)的地方在于功耗管理,Calexda這款服務(wù)器芯片的功耗可以從4w到1w動(dòng)態(tài)調(diào)整。
每個(gè)節(jié)點(diǎn)的制造成本大約是$28。
圖2.2 4個(gè)節(jié)點(diǎn)的Calexda系統(tǒng)板
2011年,我加入Arm網(wǎng)絡(luò)市場(chǎng)部。那時(shí)我關(guān)注的是還在設(shè)計(jì)階段的LSI Axxia AXM5500 16-core ARMCortex-A15, Freescale 的QorIQ Layerscape 系列,TI的KeyStone,還有海思的hixxxx系列,那真是一個(gè)Arm在網(wǎng)絡(luò)市場(chǎng)大爆發(fā)的時(shí)代。但是很快,一年后,我跟著當(dāng)時(shí)的老板,一位有電影明星氣質(zhì)的印度裔資深美女,從網(wǎng)絡(luò)市場(chǎng)轉(zhuǎn)為服務(wù)器市場(chǎng),從那時(shí)到現(xiàn)在,全心全意的投入服務(wù)器市場(chǎng)與生態(tài)建設(shè)。
Computex 2012
2012年,Ian Ferguson在臺(tái)北Computex上的公開(kāi)演講,大約是Arm第一次向公眾介紹服務(wù)器方面的努力。和他一起站臺(tái)的是Ubuntu的Mark(軟件生態(tài)是個(gè)大話(huà)題,本文主要集中在芯片方面,系統(tǒng)硬件設(shè)計(jì)和軟件話(huà)題另外開(kāi)文再說(shuō))。他引用了Facebook的 Frank說(shuō)的performance per watt per dollar的價(jià)值觀(guān)。
提到Arm服務(wù)器,Ian Ferguson必須有姓名(他教我了一句做市場(chǎng)工作的最基本的一句話(huà),“你是打算report news,還是make news?”,現(xiàn)在我也愿意和小伙伴一起說(shuō),來(lái)來(lái)來(lái),我們一起搞事情。)如他在大會(huì)上的發(fā)言,從Arm打算考慮服務(wù)器市場(chǎng)的第一天起,整個(gè)業(yè)界都充滿(mǎn)了懷疑的論調(diào)。不僅僅懷疑是否能成功,甚至從根上,懷疑動(dòng)機(jī)。
這些問(wèn)題,我并不著急回答,如果你有耐心讀到最后,一切都自有答案。
Marvell Armada XP 2013
在第一波服務(wù)器浪潮中,Marvell Armada XP 四核系列,也是要提到的。而且這里的core,不是A9,也不是A15,是Marvell的custom Core。
也是因?yàn)锳rmada,我把什么叫架構(gòu)授權(quán),回答得滾瓜爛熟。
圖2.3 MarvellArmada XP
這款集成度很高,功耗低的SoC非常適合存儲(chǔ)應(yīng)用。Dell以此為核心,出了“Copper”的arm服務(wù)器系統(tǒng)。百度也曾經(jīng)使用過(guò)。這是Arm服務(wù)器在互聯(lián)網(wǎng)公司的第一個(gè)案例。
Calxeda 倒閉 2013
如果Calxeda能籌集的第三輪投資,那么按照下面的路標(biāo),有一款A(yù)15的芯片馬上量產(chǎn),2款A(yù)rmv8的芯片在計(jì)劃中。但是很不幸,募資工作不成功。 Calxeda從2008年成立,到2013,總投資$103M ($48m in 2010 & $55m in 2012 ), 一共130員工。
它的結(jié)業(yè)郵件中說(shuō),因?yàn)锳rm服務(wù)器的出現(xiàn),“the industry will be transformed forever”。從現(xiàn)在看,是的。
圖2.4 Calxeda 路標(biāo)
Insight 64 的分析師說(shuō),他們?cè)?2bit Arm服務(wù)器上花了太多錢(qián)。是的,2011年Arm宣布了64bit的Armv8,Applied Micro公布了X-gene的計(jì)劃,其實(shí)第二輪Armv8 的服務(wù)器的浪潮就已經(jīng)展開(kāi)。
而Calxeda的倒閉,標(biāo)志著第一輪的結(jié)束。
第二波 Armv8.0 (2011-2018)
雖然頂著編年史這種文藝的名字,我是想把它寫(xiě)成一個(gè)技術(shù)分析文章,重點(diǎn)在Arm服務(wù)器芯片的特點(diǎn)與演進(jìn),不是解釋為什么這個(gè)公司成功,那個(gè)公司不成功。其實(shí)一個(gè)產(chǎn)品分析好做,一個(gè)公司的成敗,偶然因素真的影響很大。
第二波的三個(gè)關(guān)鍵詞是自研核心(custom core),主流性能,標(biāo)準(zhǔn)設(shè)計(jì)。在Arm服務(wù)器的初始?xì)q月里,芯片設(shè)計(jì)公司來(lái)自各個(gè)不同的領(lǐng)域,帶著自己對(duì)服務(wù)器CPU芯片的理解,各自交出了自己的產(chǎn)品。我把重點(diǎn)放在APM的X-gene,Cavium的ThunderX與高通的Centriq 2400上。同時(shí)也努力把所有的其它芯片都給一個(gè)線(xiàn)索,供有興趣的人,自己深入。
我做了一個(gè)excel表格,努力的比對(duì)所有的服務(wù)器SoC,包括公司規(guī)模,投資與花費(fèi)的人力資源。有緣線(xiàn)下做交流。
再說(shuō)一段,因?yàn)樵谶@一段歷史中自研核占了多數(shù),而且關(guān)于架構(gòu),ISA的爭(zhēng)論一直不斷,我不想展開(kāi)說(shuō),因?yàn)闀?huì)偏題。在一個(gè)做私有云的大牛那里學(xué)到一個(gè)詞,“累計(jì)優(yōu)勢(shì)”,做CPU,做ISA,做芯片,其實(shí)也在一個(gè)緩慢的累計(jì)優(yōu)勢(shì)。這些年,我有帶著客戶(hù)的需求,案例,測(cè)試數(shù)據(jù),信心滿(mǎn)滿(mǎn)地前往公司總部找架構(gòu)師或者產(chǎn)品經(jīng)理,要求改設(shè)計(jì),增加指令的時(shí)候(是的,我還管這事),結(jié)果么?我不能說(shuō)我一次也沒(méi)有成功,但是我家架構(gòu)師和產(chǎn)品經(jīng)理,都是狠角色,在對(duì)拼數(shù)據(jù)和應(yīng)用案例方面,鮮有敗績(jī)。
另外,Hock Tan一定要提一下,這人簡(jiǎn)直就是Arm服務(wù)器的發(fā)展道路和我職業(yè)生涯中的荊棘,一個(gè)拿了double kill 雙殺的男人。他先收購(gòu)Broadcom,賣(mài)掉服務(wù)器芯片項(xiàng)目,然后提出收購(gòu) Qualcomm,高通的管理層為了自保,提出每年消減1B的開(kāi)銷(xiāo),因此自我了斷所有長(zhǎng)期投資項(xiàng)目,運(yùn)作良好的服務(wù)器項(xiàng)目就這樣躺槍了。
AppliedMicro – X-gene (2011)
2011年10月,在Arm第一次宣布ARMv8架構(gòu)的同時(shí),Applied Micro公布了它們的自架構(gòu)x-gene計(jì)劃(大新聞都是和關(guān)鍵客戶(hù)一起發(fā)布的)。
如果你在那個(gè)時(shí)代讀新聞,你會(huì)留意到SoC這個(gè)概念,當(dāng)然現(xiàn)在,SoC這個(gè)概念不用解釋了。那個(gè)時(shí)候,還是需要強(qiáng)調(diào) SoC等于chip + chipset的集成設(shè)計(jì)。
X-gene的第一代是8個(gè)自研核心-Storm,兩個(gè)核共享256KB的L2 cache,這跟Arm的4個(gè)核一個(gè)cluster不同。下一章講的AMD的代號(hào)Seattle的Opteron A1100 processor,也沒(méi)有用4個(gè)Cortex-A57的一個(gè)cluster,兩個(gè)cluster的設(shè)計(jì),而是2個(gè)A57,4個(gè)cluster的設(shè)計(jì)。AMD的A1100的兩個(gè)A57,共享1MB的L2 cache,比X-gene大4倍。但是X-gene的自研核Storm是4 issue的, A57仍然在3 issue的能效比的甜蜜點(diǎn)上。
圖3.1 APM的X-Gene spec
圖3.2 APM的X-Gene產(chǎn)品路標(biāo)
現(xiàn)在,連手機(jī)CPU都奔著6 issue去了,從這點(diǎn)上看,自研核,還是展現(xiàn)自己對(duì)業(yè)界發(fā)展洞見(jiàn)的好武器。
X-gene為8個(gè)核,配了4個(gè)memory通道,這個(gè)也是在x86陣營(yíng)中少見(jiàn)的CPU:memory比例。而且集成了2個(gè)10G NIC,支持RoCE,算是SoC的優(yōu)勢(shì)。
Applied Micro官方資料給出的能耗參數(shù),滿(mǎn)負(fù)荷狀態(tài),一個(gè)核2瓦,idle狀態(tài),僅僅0.5w。
圖3.2 X-Gene的框架圖
我對(duì)X-Gene設(shè)計(jì)印象最深的部分是MSLIM ,這是4個(gè)A5組成的小處理器cluster,提供加速功能。我不知道到底有沒(méi)有客戶(hù)使用這個(gè)處理器組,也不知道當(dāng)年的設(shè)計(jì)理念。
從設(shè)計(jì)到成品,有多少設(shè)計(jì)被客戶(hù)忽略,有多少設(shè)計(jì)到了客戶(hù)手里超常發(fā)揮,我覺(jué)得架構(gòu)師也會(huì)感覺(jué)迷茫,工程的世界里竟然也有許多的不確定性。
圖3.3 X-Gene die
圖3.4 X-Gene CPU模塊
沒(méi)有整個(gè)die的信息,不過(guò)有處理器模塊的信息。每個(gè)處理器模塊,有2個(gè)core,共享的L2,在40nm的工藝下,14.8 mm?,84M transistors。照著這個(gè)尺寸,我估計(jì)整個(gè)die是300 mm2
Anandtech曾經(jīng)有篇蠻詳細(xì),也蠻負(fù)面的評(píng)測(cè)報(bào)告。中心意思就是尚未成熟,性能,能效比優(yōu)勢(shì)也不明顯。它測(cè)試的是HPE的moonshot系統(tǒng),HPE的官方文件其實(shí)對(duì)X-gene評(píng)價(jià)頗高,因?yàn)閄-gene是第一款量產(chǎn)的Arm 64bit 服務(wù)器芯片,初期的軟件伙伴們,都是用著它家的系統(tǒng)的。
我知道Applied Micro-APM的時(shí)候,它還叫AMCC。 AMCC團(tuán)隊(duì)算是硅谷老牌做CPU的不多團(tuán)隊(duì)之一,不過(guò)是做PowerPC的。它在多核路上不太順利,所以換了Arm重新開(kāi)始。大約因?yàn)槭抢吓艭PU設(shè)計(jì)團(tuán)隊(duì),他們一上手就選了最高難度的架構(gòu)授權(quán),自研核的路線(xiàn)。我曾經(jīng)為了它和同事?tīng)?zhēng)論到面紅耳赤,跟他說(shuō),我站起來(lái)是條漢子,倒下去還是條漢子。我同事,性別男,氣笑了,說(shuō),行,行,你是條漢子。
X-gene2大體上是X-gene1的28nm的tick實(shí)現(xiàn),略。
eMAG-X-Gene3 2018
我猶豫許久,不知道該把這顆Ampere重新設(shè)計(jì)的eMAG,歸為第二波尾巴,還是第三波的開(kāi)頭。按照核心的原設(shè)計(jì)脫胎于X-Gene 3來(lái)說(shuō),還是第二波尾巴。
圖3.5 Ampere eMAG
圖3.6 Ampere 產(chǎn)品優(yōu)勢(shì)
32核List price 是 $850,一個(gè)相對(duì)非常有競(jìng)爭(zhēng)力的價(jià)格。框架圖看起來(lái)很熟悉,不分析了。
圖3.6 Ampere eMag 框架圖
AMD’s A1100 (2012)
在Armv8架構(gòu)推出一年之后,Arm發(fā)布了A57和A53兩款 cortex-A5x系列的產(chǎn)品,按照國(guó)際慣例,一個(gè)重磅的合作伙伴在發(fā)布會(huì)與Arm一起閃亮登場(chǎng),AMD。
這款內(nèi)部代碼名為Seattle,屬于Opteron系列,后面的正式產(chǎn)品名字是A1100的芯片,現(xiàn)在在AMD主線(xiàn)產(chǎn)品歷史上找不到的產(chǎn)品。
AMD當(dāng)時(shí)花了蠻長(zhǎng)的時(shí)間,解釋為什么要做Arm服務(wù)器,怎么定位公司內(nèi)部的x86與Arm的產(chǎn)品線(xiàn),甚至為了穩(wěn)定外界的懷疑,推出了僅僅活在新聞中的K12 (2015)。
如果我們回頭看2012年,有一個(gè)名詞,不能忽略,“microserver”,而那個(gè)時(shí)候,AMD剛買(mǎi)了SeaMicro,一個(gè)圍繞著 Freedom Fabric打造高密度,低功耗的系統(tǒng)的公司。這個(gè)Fabric,超高密度(very-high-density),低功耗,聽(tīng)起來(lái)耳熟不? Calexda的路數(shù)啊。下圖是10U的尺寸,共有768個(gè)CPU,包括了四個(gè)GE交換機(jī)和一個(gè)流量均衡器(a loadbalancer)。
圖3.7 Calexda 10U系統(tǒng)
在這樣的系統(tǒng)設(shè)計(jì)下,配一顆超低功耗的Arm處理器,合情合理多了吧?因此選Arm的標(biāo)準(zhǔn)核Cortex-A57,縮短開(kāi)發(fā)時(shí)間,節(jié)省開(kāi)發(fā)費(fèi)用,也是順理成章的事情,都在合理邏輯之內(nèi)。
Cortex-A57的資料滿(mǎn)世界都是,我就不在這里羅列了。前一章有提,AMD選了2 core 4 cluster的配置,而不是手機(jī)AP常見(jiàn)的4 core 2 cluster。好處么,自己體會(huì)一下。
這顆芯片的list price是$150,也是很有殺傷力。
圖3.8 AMD Opteron A1100框架圖
圖3.9 AMD Opteron A1100 Floorplan
某種意義上,AMD這顆Seattle雖然被列入第二波浪潮中。它的設(shè)計(jì)理論完全是第一波的。K12才是第二波的。
可是看看K12的設(shè)計(jì)目標(biāo),在AMD的框架下,為什么要做Arm,自然是x86啊。Jim Keller這個(gè)男人本來(lái)是跟K12聯(lián)系在一起的。但是… … ,這個(gè)風(fēng)一樣不羈的男子啊。
Intel的對(duì)于此輪浪潮的反應(yīng)是14nm “Xeon-D”。
Cavium ThunderX 2014
某種程度上, Cavium的48核ThunderX 才是真正開(kāi)啟第二波Arm服務(wù)器浪潮的產(chǎn)品。它湊齊了一顆主流服務(wù)器芯片應(yīng)有的所有特點(diǎn),例如雙路和性能。
Cavium做為一家僅僅有AMD1/10大的公司,很早就有超多核處理器的設(shè)計(jì)能力,只是之前是MIPS網(wǎng)絡(luò)應(yīng)用處理。
雖然只有2 issue的自研核,單核性能較弱。但是整個(gè)SoC的設(shè)計(jì),特別多路設(shè)計(jì),是出色的。而且因?yàn)榫W(wǎng)絡(luò)處理器方面的積累,這顆芯片的加速引擎與IO接口非常豐富。
而且為了降低功耗,可以有選擇的關(guān)閉加速引擎,變成4種不同的配置: 云計(jì)算版本,存儲(chǔ)版本, 運(yùn)營(yíng)商版本,安全版本。
圖3.10 Cavium ThunderX 框架圖
Anandtech有個(gè)非常不錯(cuò)的性能測(cè)試,有助于對(duì) Cavium ThunderX的理解。
BroadcomVulcan ThunderX2
這是很糾結(jié)的一節(jié)。如果說(shuō)Broadcom Vulcan,那是2016的左右的事情。如果說(shuō)Cavium的Thunder X2 那是2018年的產(chǎn)品。然后就迅速變成了Marvell的ThunderX2。本來(lái)是同期規(guī)劃的產(chǎn)品,結(jié)果,各種曲折離奇的竟然二合一。有的時(shí)候,我都不相信,我們這個(gè)產(chǎn)業(yè),也有這么多戲劇化的故事。
說(shuō)起來(lái),源自RMI的Broadcom的CPU設(shè)計(jì)團(tuán)隊(duì),和Cavium的CPU設(shè)計(jì)團(tuán)隊(duì),有好多共同點(diǎn),都是MIPS系的,都是做網(wǎng)絡(luò)出身。但是跟Cavium老是做2 issue小核不同,Broadcom團(tuán)隊(duì)從一開(kāi)始就擅長(zhǎng)做多線(xiàn)程。因此在規(guī)劃的時(shí)候Vulcan就是逆天的4線(xiàn)程。此時(shí)ARM陣營(yíng)里,還沒(méi)有多線(xiàn)程的處理器呢。
Broadcom原先的設(shè)計(jì)目標(biāo)是16nm,die size 600 mm2,32核,每核4線(xiàn)程,支持雙P系統(tǒng)。被Cavium收購(gòu)之后,die size未披露。
最高配的CN9980,32核,2.5Ghz,TDP 200W。2.2Ghz,180W的CN9980,價(jià)格在$1795,而16核的CN9960,1.6 Ghz,75W售價(jià) $800
而它的目標(biāo)市場(chǎng),或者說(shuō)可見(jiàn)的design win集中在HPC市場(chǎng)。
圖3.11 ThunderX2的框架圖
圖3.12 ThunderX 2 布局
圖3.13 ThunderX2 IO接口
Qualcomm 2017
在2017年高通向市場(chǎng)推出原代號(hào)為“Amberwing”的48核10nm的Centriq 2400的同一周,高通公司接到了博通公司的$130收購(gòu)要約。
據(jù)估計(jì),這顆Centriq 2400,歷時(shí)4年,花費(fèi)在 $100M到 $125M,幾百名工程師的投入。期間,高通還做了一款24核的Centric 1200作為測(cè)試原型。
Centriq 2400有18Btransistors,398mm2,三星的10nm工藝,比thunderX2小巧多了。雖然它是單P處理器,但是對(duì)多年多代服務(wù)器發(fā)展規(guī)律,這本來(lái)不成問(wèn)題。
圖3.14 Centriq 2400
圖3.15 Centriq 2400的微架構(gòu)對(duì)比
圖3.16 Centriq2400的框架圖
這顆含著金鑰匙出生的芯片,一路順風(fēng)順?biāo)牡絫ape out,直到那位叫Hock Tan的黑天鵝的出現(xiàn)。
從價(jià)格功耗表上看,Centriq2400的定價(jià)與ThunderX2基本一致。
Centriq 2400的CPU核名字為“Falkor”的自研核。最高2.6Ghz,是高通的第五代自研核。如果有的話(huà),下一代核是“Saphira” ,芯片的名字叫“Firetail”。但是沒(méi)有然后了,高通取消了服務(wù)器芯片項(xiàng)目,也標(biāo)志著第二輪Arm服務(wù)器的浪潮的尾聲。
Samsung(2012-2014)
主線(xiàn)寫(xiě)完,支線(xiàn)也要寫(xiě)。
Samsung的Arm 服務(wù)器的故事,在國(guó)內(nèi)知道的人少,但是上過(guò)華爾街日?qǐng)?bào)的。Samsung也從來(lái)沒(méi)有官宣過(guò),整個(gè)項(xiàng)目起的時(shí)候,大家是猜測(cè),滅的時(shí)候,大家也都是傳聞。
2007年 Samsung在Austin投資$3.5b建工廠(chǎng),2010成立Samsung Austin Research Center,開(kāi)始招芯片設(shè)計(jì)工程師,然后招了一位AMD的VP做Austin的VP。大家的猜測(cè)是服務(wù)器芯片也在這個(gè)Austin研究中心的計(jì)劃中。
其實(shí),Samsung進(jìn)入服務(wù)器SoC設(shè)計(jì)的邏輯可以和高通很接近,但是當(dāng)時(shí)高通有CEO的支持,還有那樣的黯然收?qǐng)?,而一家韓國(guó)公司的美國(guó)分支部門(mén),想撐起一個(gè)大服務(wù)器芯片的設(shè)計(jì),有多困難,可以想象。
Nvidia Project Denver 2011-2014
Nvidia是一個(gè)我非常尊敬的公司,也是硅谷現(xiàn)存的仍然是創(chuàng)始人做CEO的極少數(shù)公司了。但是這一章,我寫(xiě)了幾次,都寫(xiě)不下去。大約是Nvidia仍然是GPU為主線(xiàn)的公司,它的CPU的發(fā)展邏輯,屬于面向應(yīng)用規(guī)劃的那種放飛型。
這是一個(gè)從Tegra開(kāi)始,到Carmel,集成Arm CPU在復(fù)雜功能芯片的路徑。 其實(shí),看起來(lái)更像是系統(tǒng)公司的芯片規(guī)劃路徑。因?yàn)楸疚募性谕ㄓ梅?wù)器芯片的分析,否則Nvidia家的產(chǎn)品路線(xiàn),絕對(duì)值得一個(gè)完整的大章分析。
圖3.17 Tegra Arm CPU
圖3.18 Eegra K1
圖3.19 Carmel CPU
Balkal
俄羅斯的第一顆28n芯片BE-M1000,其實(shí)不應(yīng)該算在服務(wù)器類(lèi),不過(guò)它涵蓋了工作站。這個(gè)芯片公司跟日本的Fujitsu,中國(guó)的飛騰,一樣都是從超算項(xiàng)目中孵化出來(lái),獨(dú)立運(yùn)作,更注重商業(yè)成功一點(diǎn)。
我當(dāng)年是看過(guò)他們計(jì)劃的超強(qiáng)路標(biāo)的。但是從路標(biāo)到產(chǎn)品落地,這中間的三五年的時(shí)間,太多變數(shù),因此風(fēng)消云散的多了。
說(shuō)到做芯片這事,這是超算的同志們的傳統(tǒng)強(qiáng)項(xiàng)。前面說(shuō)到的某個(gè)服務(wù)器SoC,其實(shí)也來(lái)自于超算市場(chǎng)的推動(dòng)。后面,我會(huì)說(shuō)到歐洲,歐洲的同志們也開(kāi)始發(fā)奮圖強(qiáng)要自己動(dòng)手做芯片了。
圖3.20 Balkal BE-M1000
Phytium
飛騰的芯片的公開(kāi)信息,來(lái)自hotchips 2015。最新的路標(biāo),來(lái)自飛騰總經(jīng)理竇強(qiáng)2019年12月19日的公開(kāi)分享。
恕不展開(kāi)。
HiSilicon 1616
海思的1616是鯤鵬920的前一代,比較低調(diào)的一代。華為官網(wǎng)上沒(méi)有介紹。我也就不放任何外網(wǎng)資料。
關(guān)于海思,我覺(jué)得可以按照《明朝那些事》的風(fēng)格寫(xiě)部史詩(shī)級(jí)的著作,再補(bǔ)一個(gè)《海思群雄譜》的人物傳記做后傳。文科生寫(xiě)像海思這種公司,寫(xiě)不出氣勢(shì),得我這種理工科的文藝青年。萬(wàn)事俱備,就差兩件事就可以動(dòng)手,一是海思宣傳部預(yù)付的稿費(fèi),當(dāng)然網(wǎng)友眾籌也可以考慮, 二是要等我退休哈。
Socionext
Socionext這顆"SynQuacer?" SC2A11大約是唯一一顆Cortex-A53的24核芯片了吧?
圖3.21Socionext SC2A11框圖
這顆芯片,不能光看芯片,要看系統(tǒng)設(shè)計(jì)。
圖3.22Socionext SC2A11服務(wù)器系統(tǒng)
這種小核,高密度系統(tǒng),有相似感覺(jué)了吧?那個(gè)時(shí)代的設(shè)計(jì)。
私評(píng)尾聲
2012-2014這幾年,我飛臺(tái)灣飛到吐血。我在我的硬盤(pán)了找到一份當(dāng)時(shí)的資料。當(dāng)時(shí)臺(tái)灣的業(yè)界有個(gè)說(shuō)法,ODM Direct模式改寫(xiě)產(chǎn)業(yè)鏈生態(tài)。ODM Direct 模式確實(shí)立住了,但是生態(tài)系統(tǒng)中的強(qiáng)者并不是ODM,是End Users,是那些個(gè)寫(xiě)著我們可以控制從power grid到gate的Hyperscale們。
第二波浪潮還是半導(dǎo)體業(yè)界和系統(tǒng)廠(chǎng)商推動(dòng)的,那么第三波,就是終端用戶(hù)自己下海弄潮了。
第三波 Neoverse
Drew Henry(建議大家去讀讀他在Linkedin上的簡(jiǎn)介,堪稱(chēng)高管簡(jiǎn)歷模版)這個(gè)男人也是要在Arm 服務(wù)器歷史上留下名字的。在他加入Arm一年之后,2018年10月 Arm Tech上,他宣布Arm在Infrastructure 市場(chǎng)上有了自己的品牌(Neoverse)和冰公布了每年一代,每代提升30%的路線(xiàn)圖。
這是第三波浪潮的開(kāi)始,只是深水靜流,那個(gè)時(shí)候,世界還是靜悄悄的。
而我還記得為了湊齊發(fā)布會(huì)上的那些大廠(chǎng)logo的那些瑣碎工作,還有伙伴們的給力支持。
圖4.1 Arm NEOVERSE路標(biāo)
Huawei Kunpeng 920
2019年1月7日,有大徐總之稱(chēng)的徐文偉發(fā)布了鯤鵬920。
我只放我覺(jué)得重要的公開(kāi)圖,怎么解讀,就看各位自己了。
這是顆世界先進(jìn)級(jí)的產(chǎn)品,無(wú)論哪個(gè)方面,包括關(guān)注的熱度。
圖4.2 鯤鵬920的發(fā)布會(huì)圖
圖4.4 鯤鵬920 4P互聯(lián)圖
AWS Graviton2
圖4.5 Graviton1 & Graviton2
即使2018年11月AWS發(fā)布了Graviton,并且用Neoverse稱(chēng)呼了這個(gè)16個(gè)cortex A72 的自制芯片。世界并不震驚?,F(xiàn)在看,16核A72 16nm@2.3GHz,確實(shí)更像是試水。
特別是看看2017年AWS發(fā)布的也是由2015年收購(gòu)的以色列創(chuàng)業(yè)公司Annapurna labs團(tuán)隊(duì)開(kāi)發(fā)的Nitro芯片。
但是2019年的AWS Graviton 2就是驚艷級(jí)別的產(chǎn)品了。64核 Neoverse N1,30 Billion transistors,7nm的工藝,推測(cè)die size應(yīng)該在 300-350mm?,官宣高于Intel Xeon-based 5th代處理器40%的性能,還有高達(dá)25 Gbps的網(wǎng)絡(luò)帶寬和18 Gbps of 優(yōu)化EBS的帶寬。
圖4.6 SPEC cpu 2017
圖4.7 AWS Graviton2支持的EC2
Ampere QuickSilver 2019
Ampere順著AWS的graviton的正面風(fēng)潮,透露了7nm 80核N1 代碼名字為QuickSilver的下一代計(jì)劃。最亮眼的是新芯片支持2 socket的配置,這要感謝Arm mesh IP (CMN-600)在CCIX方面的努力。
圖4.8 Ampere產(chǎn)品路標(biāo)
除了讓人覺(jué)得帥到炸裂的80核N1設(shè)計(jì)之外,QuickSilver擁有128 PCIe4 lanes這樣的豪華配置。還是Nividia家CUDA-on-ARM的核心伙伴。
這是我2020最期望的一顆芯片,畢竟能買(mǎi)到啊,AWS的graviton只能買(mǎi)云服務(wù)。
MarvellThunderX3
接著AWS的熱度,公布自己下一代計(jì)劃的不僅僅有Ampere,還有我們的老牌公司Marvell,因此我們知道了ThunderX3 processor的自研核的名字是“Triton”,還看到了每?jī)赡暌淮?,每代性能翻倍的?qiáng)勁產(chǎn)品路標(biāo)。
圖4.9 ThunderX 路標(biāo)
圖4.10 ThunderX3的增強(qiáng)部分
Fujistu A64FX 2016
最喜歡的要放到最后。我的同事,在跟與一位伙伴討論memory選擇的時(shí)候,說(shuō)“高吞吐,大容量和便宜三者之間,你只能選兩個(gè)”,這句話(huà)非常有哲理了,如果有三項(xiàng)都可以兼顧的方案,大家就不糾結(jié)了。有糾結(jié),肯定是有難選的地方,我個(gè)人偏好那種“除了貴,沒(méi)別的毛病”的方案,但是請(qǐng)放心,給伙伴推薦的時(shí)候,我絕對(duì)不會(huì)表露這種個(gè)人傾向性的。
富士通的這款A(yù)64FX其實(shí)不是服務(wù)器芯片,是用來(lái)做超算的,恰恰就是那種“除了貴,沒(méi)別的毛病”的產(chǎn)品。
2016年arm宣布了ArmV8的指令集擴(kuò)展SVE- Scalable Vector Extension,國(guó)際慣例,一個(gè)大客戶(hù)會(huì)出來(lái)站臺(tái),這就是是Fujistu-富士通,它的Post-K,傳聞中拿了$1.24 billion日本國(guó)家資金的超算項(xiàng)目,會(huì)采用Arm架構(gòu),而不是他們以前的SPARC。而且A64FX是第一款支持SVE的Arm處理器。
圖4.11 A64FX的緩存層級(jí)和速度
2018年富士通在hotchips上公開(kāi)介紹了A64FX這顆芯片。先看硬參數(shù):8.8 billion transistors (這個(gè)不算多,AWS Graviton2 有30B) ,7nm。48個(gè)自研核加上4個(gè)同質(zhì)的管理核,其實(shí)是4個(gè)處理器cluster,每個(gè)cluster是13個(gè)核。核間互聯(lián)是自研的第二代TOFU -6D mesh/torus片上網(wǎng)絡(luò)(第一代TOFU的口碑超級(jí)好),配的32GB HBM2 (超豪華配置),16PCIe 3.0 lanes (這個(gè)不算多,估計(jì)也不想接什么外設(shè)),1024 GB/s的存儲(chǔ)帶寬,2.7 TFLOPS @ 64bit,21.6 TFLOPS@8bit 的性能。Nvidia Tesla P4和P40,在8bit整數(shù)的時(shí)候,分別是22 TFlops和47TFLOPS,頗有一拼。
A64FX的cache層級(jí),吞吐很高,執(zhí)行流水線(xiàn),電源管理,RAS都很有特色,有興趣可以讀一下hotchips的文檔。
圖4.12 A64FX的floorplan
圖4.13 Fugaku節(jié)點(diǎn)(液冷的)
A64FX這種強(qiáng)悍的性能,可以不用和GPU組合,因此Cray在和富士通合作,把A64FX做進(jìn) CS500 clusters和未來(lái)Shasta系統(tǒng)中。
其它的新入者
2019年11月,一家叫Nuvia的創(chuàng)業(yè)公司,在SC會(huì)議期間,浮出水面。這家公司創(chuàng)始人的背景,蘋(píng)果的訴訟,立刻登上了頭條。沒(méi)有產(chǎn)品之前,讓我們記住他們的口號(hào)"deliver industry-leading performance and energyefficiency for the data center" 。
歐洲的歐洲處理器聯(lián)盟-EPI (https://www.european-processor-initiative.eu/project/epi/)也是一個(gè)以設(shè)計(jì)服務(wù)器級(jí)的CPU為目標(biāo)的努力。不多說(shuō),看路標(biāo)。
圖4.11 EPI路標(biāo)圖
總結(jié)
我在試圖回答Arm為什么要做服務(wù)器的時(shí)候,我能想到的就是“先進(jìn)生產(chǎn)力”這5個(gè)字。什么叫先進(jìn)生產(chǎn)力, Frank Frankovsky,F(xiàn)acebook VP of Hardware Design and Supply Chain Operations 也是個(gè)要有名字的男人。他提出 the most useful work per watt per dollar。真正能用上的算力除以買(mǎi)服務(wù)器花費(fèi)與運(yùn)營(yíng)服務(wù)器所花的電費(fèi)就是這個(gè)服務(wù)器的代表的生產(chǎn)力,這個(gè)值標(biāo)志了先進(jìn)性。
延伸一下,對(duì)產(chǎn)業(yè)鏈上的人就是the total useful work per total investment,提供有用計(jì)算力除以總投入的資金(時(shí)間,工程師的智慧與心血),這就是這個(gè)技術(shù)/方案/ISA/產(chǎn)品的生產(chǎn)力是否先進(jìn)的指標(biāo)。這也是我寫(xiě)這篇編年史的一條暗線(xiàn),多少投入,第三波浪潮會(huì)帶來(lái)多少產(chǎn)出。
真正的先進(jìn)生產(chǎn)力,是屬于全世界的,也是全世界共同努力的結(jié)果。
先進(jìn)的產(chǎn)品是一行行的代碼,一個(gè)個(gè)wafer累積出來(lái)的。
祝大家2020萬(wàn)事如意。