123,123

Arm服务器芯片发展史

日期： 2020-01-08

來源：半导体行业观察

關(guān)鍵詞： ARM 服务器

　　近年來，因?yàn)轱w騰、Ampere、Marvell和華為等廠商的投入，Arm 服務(wù)器芯片的熱潮又被再度燃起。但其實(shí)這并不是Arm在服務(wù)器芯片的第一次嘗試，而是一個從2008年就開始的規(guī)劃。

　　下面，我們來跟隨作者的筆觸，來回顧Arm服務(wù)器芯片的發(fā)展歷程。

　　Arm服務(wù)器的第一波浪潮，是一家叫Calexda開始，也是由它結(jié)束的。雖然我覺得2011的官宣Armv8架構(gòu)，就是32bit 服務(wù)器的終結(jié)。但是第一波的浪潮的起伏，并不僅僅是32bit，64bit 那么簡單，還有一個詞Microserver，微服務(wù)器。也是當(dāng)時產(chǎn)業(yè)界，包括x86陣營的共同探索。技術(shù)上，商業(yè)邏輯上，都不錯的產(chǎn)品，在市場上，沒有成功。

　　我個人得到的一個觀察：服務(wù)器市場是個求穩(wěn)的保守的市場，相對于活躍的終端市場。

　　啟程 2008

　　2008年，Arm內(nèi)部開始醞釀服務(wù)器計劃。心動就行動，Arm參與投資了一家當(dāng)時叫Smooth Stone，后來改名為Calxeda的startup公司。當(dāng)時的第一輪總投資金額是$48M。

　　Calxeda的一開始目標(biāo)就是降低數(shù)據(jù)中心的耗能，并且提高相同空間的計算力密度。請記住這兩個目標(biāo)，此時此刻，我們的初心依舊。

　　那一年市面上還是Cortex-A8的產(chǎn)品，而基于第一款多核Ccortex-A9的產(chǎn)品要到3年后才上市。（好懷念那個2，3年才發(fā)布一款產(chǎn)品的慢速時代）。

　　那時Intel的Xeon還是4個核，當(dāng)然主頻已經(jīng)3.xGhz了，而AMD的45nm Opteron CPU也剛剛上市。

　　那一年IBM剛剛宣布Power產(chǎn)品線，而且上來就高山仰止的高達(dá)64個核。

　　蘋果發(fā)布了iPhone 3G，就是iPhone2。（對，那時還是3G時代。）

　　TSMC 的主流工藝是40nm，年收入$10B。

　　我還在一家叫EZchip的公司做NP3，此處NP不是Neural Processor而是Network Processor。那是一個網(wǎng)絡(luò)處理器大繁榮的時代，我能說出一長串名字，可惜現(xiàn)在都湮滅了。低調(diào)的炫耀一下，其實(shí)我最擅長的部分是TM-Traffic Manager 而不僅僅是處理器部分，這也是這家100多人的以色列公司（年營收大約$60M）最突出的特色。此處省略若干文字，真講起來，我能一個人講一周的培訓(xùn)，收美金的那種。

　　Calxeda 2011

　　2010年Smooth Stone正式改名字為Calxeda，把總部搬到了Austin。

　　2011年 Calxeda發(fā)布它的芯片基于A9的芯片EnergyCore ECX-1000。

640.webp (39).jpg

　　圖2.1CalexdaEnergyCore架構(gòu)

　　這其實(shí)是一個值得細(xì)看的一款設(shè)計，4核cortex-a9組成的處理器模塊，比較中規(guī)中矩，I/O controllers部分也是常規(guī)接口（常規(guī)接口并不容易，一個好產(chǎn)品的核心是常規(guī)部分做到業(yè)界一流）。但是管理引擎（management engine）和交換引擎（Fabric Switch）部分就是技術(shù)非常創(chuàng)新之舉。

　　EnergyCore Fabric是一個集成的L2 switch支持mesh， butterfly tree， 2D Torus拓?fù)?，虛擬端口之間的帶寬可以按1 Gb/sec, 2.5Gb/sec, 5 Gb/sec, 核10 Gb/sec的不同規(guī)格分配。通過它，服務(wù)器節(jié)點(diǎn)可以自己自主成網(wǎng)，不必通過on top switch，因此Calexda的一塊板塊上有4個芯片，也就是16個核心。因此才有可以高達(dá)480個核的服務(wù)器系統(tǒng)。

　　這個設(shè)計理念是合理的，如果你設(shè)計一塊非常低成本的服務(wù)器芯片，但是配套的網(wǎng)絡(luò)仍然是昂貴的話，高密度的設(shè)計，只會增加成本。這個fabric可以將1024個系統(tǒng)板，也就是4096個芯片用10G網(wǎng)絡(luò)接口，集聯(lián)為系統(tǒng)。

　　EnergyCore ManagementEngine是一個集成BMC，支持IMP2.0和DCMI，還支持遠(yuǎn)程調(diào)試SoL協(xié)議。管理引擎最強(qiáng)的地方在于功耗管理，Calexda這款服務(wù)器芯片的功耗可以從4w到1w動態(tài)調(diào)整。

　　每個節(jié)點(diǎn)的制造成本大約是$28。

640.webp (38).jpg

　　圖2.2 4個節(jié)點(diǎn)的Calexda系統(tǒng)板

　　2011年，我加入Arm網(wǎng)絡(luò)市場部。那時我關(guān)注的是還在設(shè)計階段的LSI Axxia AXM5500 16-core ARMCortex-A15， Freescale 的QorIQ Layerscape 系列，TI的KeyStone，還有海思的hixxxx系列，那真是一個Arm在網(wǎng)絡(luò)市場大爆發(fā)的時代。但是很快，一年后，我跟著當(dāng)時的老板，一位有電影明星氣質(zhì)的印度裔資深美女，從網(wǎng)絡(luò)市場轉(zhuǎn)為服務(wù)器市場，從那時到現(xiàn)在，全心全意的投入服務(wù)器市場與生態(tài)建設(shè)。

　　Computex 2012

　　2012年，Ian Ferguson在臺北Computex上的公開演講，大約是Arm第一次向公眾介紹服務(wù)器方面的努力。和他一起站臺的是Ubuntu的Mark（軟件生態(tài)是個大話題，本文主要集中在芯片方面，系統(tǒng)硬件設(shè)計和軟件話題另外開文再說）。他引用了Facebook的 Frank說的performance per watt per dollar的價值觀。

　　提到Arm服務(wù)器，Ian Ferguson必須有姓名（他教我了一句做市場工作的最基本的一句話，“你是打算report news，還是make news？”，現(xiàn)在我也愿意和小伙伴一起說，來來來，我們一起搞事情。）如他在大會上的發(fā)言，從Arm打算考慮服務(wù)器市場的第一天起，整個業(yè)界都充滿了懷疑的論調(diào)。不僅僅懷疑是否能成功，甚至從根上，懷疑動機(jī)。

　　這些問題，我并不著急回答，如果你有耐心讀到最后，一切都自有答案。

　　Marvell Armada XP 2013

　　在第一波服務(wù)器浪潮中，Marvell Armada XP 四核系列，也是要提到的。而且這里的core，不是A9，也不是A15，是Marvell的custom Core。

　　也是因?yàn)锳rmada，我把什么叫架構(gòu)授權(quán)，回答得滾瓜爛熟。

640.webp (37).jpg

　　圖2.3 MarvellArmada XP

　　這款集成度很高，功耗低的SoC非常適合存儲應(yīng)用。Dell以此為核心，出了“Copper”的arm服務(wù)器系統(tǒng)。百度也曾經(jīng)使用過。這是Arm服務(wù)器在互聯(lián)網(wǎng)公司的第一個案例。

　　Calxeda 倒閉 2013

　　如果Calxeda能籌集的第三輪投資，那么按照下面的路標(biāo)，有一款A(yù)15的芯片馬上量產(chǎn)，2款A(yù)rmv8的芯片在計劃中。但是很不幸，募資工作不成功。 Calxeda從2008年成立，到2013，總投資$103M （$48m in 2010 & $55m in 2012 ）, 一共130員工。

　　它的結(jié)業(yè)郵件中說，因?yàn)锳rm服務(wù)器的出現(xiàn)，“the industry will be transformed forever”。從現(xiàn)在看，是的。

640.webp (36).jpg

　　圖2.4 Calxeda 路標(biāo)

　　Insight 64 的分析師說，他們在32bit Arm服務(wù)器上花了太多錢。是的，2011年Arm宣布了64bit的Armv8，Applied Micro公布了X-gene的計劃，其實(shí)第二輪Armv8 的服務(wù)器的浪潮就已經(jīng)展開。

　　而Calxeda的倒閉，標(biāo)志著第一輪的結(jié)束。

　　第二波 Armv8.0 （2011-2018）

　　雖然頂著編年史這種文藝的名字，我是想把它寫成一個技術(shù)分析文章，重點(diǎn)在Arm服務(wù)器芯片的特點(diǎn)與演進(jìn)，不是解釋為什么這個公司成功，那個公司不成功。其實(shí)一個產(chǎn)品分析好做，一個公司的成敗，偶然因素真的影響很大。

　　第二波的三個關(guān)鍵詞是自研核心(custom core)，主流性能，標(biāo)準(zhǔn)設(shè)計。在Arm服務(wù)器的初始?xì)q月里，芯片設(shè)計公司來自各個不同的領(lǐng)域，帶著自己對服務(wù)器CPU芯片的理解，各自交出了自己的產(chǎn)品。我把重點(diǎn)放在APM的X-gene，Cavium的ThunderX與高通的Centriq 2400上。同時也努力把所有的其它芯片都給一個線索，供有興趣的人，自己深入。

　　我做了一個excel表格，努力的比對所有的服務(wù)器SoC，包括公司規(guī)模，投資與花費(fèi)的人力資源。有緣線下做交流。

　　再說一段，因?yàn)樵谶@一段歷史中自研核占了多數(shù)，而且關(guān)于架構(gòu)，ISA的爭論一直不斷，我不想展開說，因?yàn)闀}。在一個做私有云的大牛那里學(xué)到一個詞，“累計優(yōu)勢”，做CPU，做ISA，做芯片，其實(shí)也在一個緩慢的累計優(yōu)勢。這些年，我有帶著客戶的需求，案例，測試數(shù)據(jù)，信心滿滿地前往公司總部找架構(gòu)師或者產(chǎn)品經(jīng)理，要求改設(shè)計，增加指令的時候（是的，我還管這事），結(jié)果么？我不能說我一次也沒有成功，但是我家架構(gòu)師和產(chǎn)品經(jīng)理，都是狠角色，在對拼數(shù)據(jù)和應(yīng)用案例方面，鮮有敗績。

　　另外，Hock Tan一定要提一下，這人簡直就是Arm服務(wù)器的發(fā)展道路和我職業(yè)生涯中的荊棘，一個拿了double kill 雙殺的男人。他先收購Broadcom，賣掉服務(wù)器芯片項目，然后提出收購 Qualcomm，高通的管理層為了自保，提出每年消減1B的開銷，因此自我了斷所有長期投資項目，運(yùn)作良好的服務(wù)器項目就這樣躺槍了。

　　AppliedMicro – X-gene (2011)

　　2011年10月，在Arm第一次宣布ARMv8架構(gòu)的同時，Applied Micro公布了它們的自架構(gòu)x-gene計劃（大新聞都是和關(guān)鍵客戶一起發(fā)布的）。

　　如果你在那個時代讀新聞，你會留意到SoC這個概念，當(dāng)然現(xiàn)在，SoC這個概念不用解釋了。那個時候，還是需要強(qiáng)調(diào) SoC等于chip + chipset的集成設(shè)計。

　　X-gene的第一代是8個自研核心-Storm，兩個核共享256KB的L2 cache，這跟Arm的4個核一個cluster不同。下一章講的AMD的代號Seattle的Opteron A1100 processor，也沒有用4個Cortex-A57的一個cluster，兩個cluster的設(shè)計，而是2個A57，4個cluster的設(shè)計。AMD的A1100的兩個A57，共享1MB的L2 cache，比X-gene大4倍。但是X-gene的自研核Storm是4 issue的， A57仍然在3 issue的能效比的甜蜜點(diǎn)上。

640.webp (35).jpg

　　圖3.1 APM的X-Gene spec

640.webp (34).jpg

　　圖3.2 APM的X-Gene產(chǎn)品路標(biāo)

　　現(xiàn)在，連手機(jī)CPU都奔著6 issue去了，從這點(diǎn)上看，自研核，還是展現(xiàn)自己對業(yè)界發(fā)展洞見的好武器。

　　X-gene為8個核，配了4個memory通道，這個也是在x86陣營中少見的CPU：memory比例。而且集成了2個10G NIC，支持RoCE，算是SoC的優(yōu)勢。

　　Applied Micro官方資料給出的能耗參數(shù)，滿負(fù)荷狀態(tài)，一個核2瓦，idle狀態(tài)，僅僅0.5w。

640.webp (33).jpg

　　圖3.2 X-Gene的框架圖

　　我對X-Gene設(shè)計印象最深的部分是MSLIM ，這是4個A5組成的小處理器cluster，提供加速功能。我不知道到底有沒有客戶使用這個處理器組，也不知道當(dāng)年的設(shè)計理念。

　　從設(shè)計到成品，有多少設(shè)計被客戶忽略，有多少設(shè)計到了客戶手里超常發(fā)揮，我覺得架構(gòu)師也會感覺迷茫，工程的世界里竟然也有許多的不確定性。

640.webp (32).jpg

　　圖3.3 X-Gene die

640.webp (31).jpg

　　圖3.4 X-Gene CPU模塊

　　沒有整個die的信息，不過有處理器模塊的信息。每個處理器模塊，有2個core，共享的L2，在40nm的工藝下，14.8 mm?，84M transistors。照著這個尺寸，我估計整個die是300 mm2

　　Anandtech曾經(jīng)有篇蠻詳細(xì)，也蠻負(fù)面的評測報告。中心意思就是尚未成熟，性能，能效比優(yōu)勢也不明顯。它測試的是HPE的moonshot系統(tǒng)，HPE的官方文件其實(shí)對X-gene評價頗高，因?yàn)閄-gene是第一款量產(chǎn)的Arm 64bit 服務(wù)器芯片，初期的軟件伙伴們，都是用著它家的系統(tǒng)的。

　　我知道Applied Micro-APM的時候，它還叫AMCC。 AMCC團(tuán)隊算是硅谷老牌做CPU的不多團(tuán)隊之一，不過是做PowerPC的。它在多核路上不太順利，所以換了Arm重新開始。大約因?yàn)槭抢吓艭PU設(shè)計團(tuán)隊，他們一上手就選了最高難度的架構(gòu)授權(quán)，自研核的路線。我曾經(jīng)為了它和同事爭論到面紅耳赤，跟他說，我站起來是條漢子，倒下去還是條漢子。我同事，性別男，氣笑了，說，行，行，你是條漢子。

　　X-gene2大體上是X-gene1的28nm的tick實(shí)現(xiàn)，略。

　　eMAG-X-Gene3 2018

　　我猶豫許久，不知道該把這顆Ampere重新設(shè)計的eMAG，歸為第二波尾巴，還是第三波的開頭。按照核心的原設(shè)計脫胎于X-Gene 3來說，還是第二波尾巴。

640.webp (30).jpg

　　圖3.5 Ampere eMAG

640.webp (29).jpg

　　圖3.6 Ampere 產(chǎn)品優(yōu)勢

　　32核List price 是 $850，一個相對非常有競爭力的價格?？蚣軋D看起來很熟悉，不分析了。

640.webp (28).jpg

　　圖3.6 Ampere eMag 框架圖

　　AMD’s A1100 （2012）

　　在Armv8架構(gòu)推出一年之后，Arm發(fā)布了A57和A53兩款 cortex-A5x系列的產(chǎn)品，按照國際慣例，一個重磅的合作伙伴在發(fā)布會與Arm一起閃亮登場，AMD。

　　這款內(nèi)部代碼名為Seattle，屬于Opteron系列，后面的正式產(chǎn)品名字是A1100的芯片，現(xiàn)在在AMD主線產(chǎn)品歷史上找不到的產(chǎn)品。

　　AMD當(dāng)時花了蠻長的時間，解釋為什么要做Arm服務(wù)器，怎么定位公司內(nèi)部的x86與Arm的產(chǎn)品線，甚至為了穩(wěn)定外界的懷疑，推出了僅僅活在新聞中的K12 （2015）。

　　如果我們回頭看2012年，有一個名詞，不能忽略，“microserver”，而那個時候，AMD剛買了SeaMicro，一個圍繞著 Freedom Fabric打造高密度，低功耗的系統(tǒng)的公司。這個Fabric，超高密度(very-high-density)，低功耗，聽起來耳熟不？ Calexda的路數(shù)啊。下圖是10U的尺寸，共有768個CPU，包括了四個GE交換機(jī)和一個流量均衡器(a loadbalancer)。

640.webp (27).jpg

　　圖3.7 Calexda 10U系統(tǒng)

　　在這樣的系統(tǒng)設(shè)計下，配一顆超低功耗的Arm處理器，合情合理多了吧？因此選Arm的標(biāo)準(zhǔn)核Cortex-A57，縮短開發(fā)時間，節(jié)省開發(fā)費(fèi)用，也是順理成章的事情，都在合理邏輯之內(nèi)。

　　Cortex-A57的資料滿世界都是，我就不在這里羅列了。前一章有提，AMD選了2 core 4 cluster的配置，而不是手機(jī)AP常見的4 core 2 cluster。好處么，自己體會一下。

　　這顆芯片的list price是$150，也是很有殺傷力。

640.webp (26).jpg

　　圖3.8 AMD Opteron A1100框架圖

640.webp (25).jpg

　　圖3.9 AMD Opteron A1100 Floorplan

　　某種意義上，AMD這顆Seattle雖然被列入第二波浪潮中。它的設(shè)計理論完全是第一波的。K12才是第二波的。

　　可是看看K12的設(shè)計目標(biāo)，在AMD的框架下，為什么要做Arm，自然是x86啊。Jim Keller這個男人本來是跟K12聯(lián)系在一起的。但是… … ，這個風(fēng)一樣不羈的男子啊。

　　Intel的對于此輪浪潮的反應(yīng)是14nm “Xeon-D”。

　　Cavium ThunderX 2014

　　某種程度上， Cavium的48核ThunderX 才是真正開啟第二波Arm服務(wù)器浪潮的產(chǎn)品。它湊齊了一顆主流服務(wù)器芯片應(yīng)有的所有特點(diǎn)，例如雙路和性能。

　　Cavium做為一家僅僅有AMD1/10大的公司，很早就有超多核處理器的設(shè)計能力，只是之前是MIPS網(wǎng)絡(luò)應(yīng)用處理。

　　雖然只有2 issue的自研核，單核性能較弱。但是整個SoC的設(shè)計，特別多路設(shè)計，是出色的。而且因?yàn)榫W(wǎng)絡(luò)處理器方面的積累，這顆芯片的加速引擎與IO接口非常豐富。

　　而且為了降低功耗，可以有選擇的關(guān)閉加速引擎，變成4種不同的配置：云計算版本，存儲版本，運(yùn)營商版本，安全版本。

640.webp (24).jpg

　　圖3.10 Cavium ThunderX 框架圖

　　Anandtech有個非常不錯的性能測試，有助于對 Cavium ThunderX的理解。

　　BroadcomVulcan ThunderX2

　　這是很糾結(jié)的一節(jié)。如果說Broadcom Vulcan，那是2016的左右的事情。如果說Cavium的Thunder X2 那是2018年的產(chǎn)品。然后就迅速變成了Marvell的ThunderX2。本來是同期規(guī)劃的產(chǎn)品，結(jié)果，各種曲折離奇的竟然二合一。有的時候，我都不相信，我們這個產(chǎn)業(yè)，也有這么多戲劇化的故事。

　　說起來，源自RMI的Broadcom的CPU設(shè)計團(tuán)隊，和Cavium的CPU設(shè)計團(tuán)隊，有好多共同點(diǎn)，都是MIPS系的，都是做網(wǎng)絡(luò)出身。但是跟Cavium老是做2 issue小核不同，Broadcom團(tuán)隊從一開始就擅長做多線程。因此在規(guī)劃的時候Vulcan就是逆天的4線程。此時ARM陣營里，還沒有多線程的處理器呢。

　　Broadcom原先的設(shè)計目標(biāo)是16nm，die size 600 mm2，32核，每核4線程，支持雙P系統(tǒng)。被Cavium收購之后，die size未披露。

　　最高配的CN9980，32核，2.5Ghz，TDP 200W。2.2Ghz，180W的CN9980，價格在$1795，而16核的CN9960，1.6 Ghz，75W售價 $800

　　而它的目標(biāo)市場，或者說可見的design win集中在HPC市場。

640.webp (23).jpg

　　圖3.11 ThunderX2的框架圖

640.webp (22).jpg

　　圖3.12 ThunderX 2 布局

640.webp (21).jpg

　　圖3.13 ThunderX2 IO接口

　　Qualcomm 2017

　　在2017年高通向市場推出原代號為“Amberwing”的48核10nm的Centriq 2400的同一周，高通公司接到了博通公司的$130收購要約。

　　據(jù)估計，這顆Centriq 2400，歷時4年，花費(fèi)在 $100M到 $125M，幾百名工程師的投入。期間，高通還做了一款24核的Centric 1200作為測試原型。

　　Centriq 2400有18Btransistors，398mm2，三星的10nm工藝，比thunderX2小巧多了。雖然它是單P處理器，但是對多年多代服務(wù)器發(fā)展規(guī)律，這本來不成問題。

640.webp (20).jpg

　　圖3.14 Centriq 2400

640.webp (19).jpg

　　圖3.15 Centriq 2400的微架構(gòu)對比

640.webp (18).jpg

　　圖3.16 Centriq2400的框架圖

　　這顆含著金鑰匙出生的芯片，一路順風(fēng)順?biāo)牡絫ape out，直到那位叫Hock Tan的黑天鵝的出現(xiàn)。

　　從價格功耗表上看，Centriq2400的定價與ThunderX2基本一致。

　　Centriq 2400的CPU核名字為“Falkor”的自研核。最高2.6Ghz，是高通的第五代自研核。如果有的話，下一代核是“Saphira” ，芯片的名字叫“Firetail”。但是沒有然后了，高通取消了服務(wù)器芯片項目，也標(biāo)志著第二輪Arm服務(wù)器的浪潮的尾聲。

　　Samsung（2012-2014）

　　主線寫完，支線也要寫。

　　Samsung的Arm 服務(wù)器的故事，在國內(nèi)知道的人少，但是上過華爾街日報的。Samsung也從來沒有官宣過，整個項目起的時候，大家是猜測，滅的時候，大家也都是傳聞。

　　2007年 Samsung在Austin投資$3.5b建工廠，2010成立Samsung Austin Research Center，開始招芯片設(shè)計工程師，然后招了一位AMD的VP做Austin的VP。大家的猜測是服務(wù)器芯片也在這個Austin研究中心的計劃中。

　　其實(shí)，Samsung進(jìn)入服務(wù)器SoC設(shè)計的邏輯可以和高通很接近，但是當(dāng)時高通有CEO的支持，還有那樣的黯然收場，而一家韓國公司的美國分支部門，想撐起一個大服務(wù)器芯片的設(shè)計，有多困難，可以想象。

　　Nvidia Project Denver 2011-2014

　　Nvidia是一個我非常尊敬的公司，也是硅谷現(xiàn)存的仍然是創(chuàng)始人做CEO的極少數(shù)公司了。但是這一章，我寫了幾次，都寫不下去。大約是Nvidia仍然是GPU為主線的公司，它的CPU的發(fā)展邏輯，屬于面向應(yīng)用規(guī)劃的那種放飛型。

　　這是一個從Tegra開始，到Carmel，集成Arm CPU在復(fù)雜功能芯片的路徑。其實(shí)，看起來更像是系統(tǒng)公司的芯片規(guī)劃路徑。因?yàn)楸疚募性谕ㄓ梅?wù)器芯片的分析，否則Nvidia家的產(chǎn)品路線，絕對值得一個完整的大章分析。

640.webp (17).jpg

　　圖3.17 Tegra Arm CPU

640.webp (16).jpg

　　圖3.18 Eegra K1

640.webp (15).jpg

　　圖3.19 Carmel CPU

　　Balkal

　　俄羅斯的第一顆28n芯片BE-M1000，其實(shí)不應(yīng)該算在服務(wù)器類，不過它涵蓋了工作站。這個芯片公司跟日本的Fujitsu,中國的飛騰，一樣都是從超算項目中孵化出來，獨(dú)立運(yùn)作，更注重商業(yè)成功一點(diǎn)。

　　我當(dāng)年是看過他們計劃的超強(qiáng)路標(biāo)的。但是從路標(biāo)到產(chǎn)品落地，這中間的三五年的時間，太多變數(shù)，因此風(fēng)消云散的多了。

　　說到做芯片這事，這是超算的同志們的傳統(tǒng)強(qiáng)項。前面說到的某個服務(wù)器SoC，其實(shí)也來自于超算市場的推動。后面，我會說到歐洲，歐洲的同志們也開始發(fā)奮圖強(qiáng)要自己動手做芯片了。

640.webp (14).jpg

　　圖3.20 Balkal BE-M1000

　　Phytium

　　飛騰的芯片的公開信息，來自hotchips 2015。最新的路標(biāo)，來自飛騰總經(jīng)理竇強(qiáng)2019年12月19日的公開分享。

　　恕不展開。

　　HiSilicon 1616

　　海思的1616是鯤鵬920的前一代，比較低調(diào)的一代。華為官網(wǎng)上沒有介紹。我也就不放任何外網(wǎng)資料。

　　關(guān)于海思，我覺得可以按照《明朝那些事》的風(fēng)格寫部史詩級的著作，再補(bǔ)一個《海思群雄譜》的人物傳記做后傳。文科生寫像海思這種公司，寫不出氣勢，得我這種理工科的文藝青年。萬事俱備，就差兩件事就可以動手，一是海思宣傳部預(yù)付的稿費(fèi)，當(dāng)然網(wǎng)友眾籌也可以考慮，二是要等我退休哈。

　　Socionext

　　Socionext這顆"SynQuacer?" SC2A11大約是唯一一顆Cortex-A53的24核芯片了吧？

640.webp (13).jpg

　　圖3.21Socionext SC2A11框圖

　　這顆芯片，不能光看芯片，要看系統(tǒng)設(shè)計。

　　圖3.22Socionext SC2A11服務(wù)器系統(tǒng)

640.webp (12).jpg

　　這種小核，高密度系統(tǒng)，有相似感覺了吧？那個時代的設(shè)計。

　　私評尾聲

　　2012-2014這幾年，我飛臺灣飛到吐血。我在我的硬盤了找到一份當(dāng)時的資料。當(dāng)時臺灣的業(yè)界有個說法，ODM Direct模式改寫產(chǎn)業(yè)鏈生態(tài)。ODM Direct 模式確實(shí)立住了，但是生態(tài)系統(tǒng)中的強(qiáng)者并不是ODM，是End Users，是那些個寫著我們可以控制從power grid到gate的Hyperscale們。

　　第二波浪潮還是半導(dǎo)體業(yè)界和系統(tǒng)廠商推動的，那么第三波，就是終端用戶自己下海弄潮了。

　　第三波 Neoverse

　　Drew Henry（建議大家去讀讀他在Linkedin上的簡介，堪稱高管簡歷模版）這個男人也是要在Arm 服務(wù)器歷史上留下名字的。在他加入Arm一年之后，2018年10月 Arm Tech上，他宣布Arm在Infrastructure 市場上有了自己的品牌(Neoverse)和冰公布了每年一代，每代提升30%的路線圖。

　　這是第三波浪潮的開始，只是深水靜流，那個時候，世界還是靜悄悄的。

　　而我還記得為了湊齊發(fā)布會上的那些大廠logo的那些瑣碎工作，還有伙伴們的給力支持。

640.webp (11).jpg

　　圖4.1 Arm NEOVERSE路標(biāo)

　　Huawei Kunpeng 920

　　2019年1月7日，有大徐總之稱的徐文偉發(fā)布了鯤鵬920。

　　我只放我覺得重要的公開圖，怎么解讀，就看各位自己了。

　　這是顆世界先進(jìn)級的產(chǎn)品，無論哪個方面，包括關(guān)注的熱度。

640.webp (10).jpg

　　圖4.2 鯤鵬920的發(fā)布會圖

640.webp (9).jpg

　　圖4.4 鯤鵬920 4P互聯(lián)圖

　　AWS Graviton2

640.webp (9).jpg

　　圖4.5 Graviton1 & Graviton2

　　即使2018年11月AWS發(fā)布了Graviton，并且用Neoverse稱呼了這個16個cortex A72 的自制芯片。世界并不震驚?，F(xiàn)在看，16核A72 16nm@2.3GHz，確實(shí)更像是試水。

　　特別是看看2017年AWS發(fā)布的也是由2015年收購的以色列創(chuàng)業(yè)公司Annapurna labs團(tuán)隊開發(fā)的Nitro芯片。

　　但是2019年的AWS Graviton 2就是驚艷級別的產(chǎn)品了。64核 Neoverse N1，30 Billion transistors，7nm的工藝，推測die size應(yīng)該在 300-350mm?，官宣高于Intel Xeon-based 5th代處理器40%的性能，還有高達(dá)25 Gbps的網(wǎng)絡(luò)帶寬和18 Gbps of 優(yōu)化EBS的帶寬。

640.webp (8).jpg

　　圖4.6 SPEC cpu 2017

640.webp (7).jpg

　　圖4.7 AWS Graviton2支持的EC2

　　Ampere QuickSilver 2019

　　Ampere順著AWS的graviton的正面風(fēng)潮，透露了7nm 80核N1 代碼名字為QuickSilver的下一代計劃。最亮眼的是新芯片支持2 socket的配置，這要感謝Arm mesh IP (CMN-600)在CCIX方面的努力。

640.webp (6).jpg

　　圖4.8 Ampere產(chǎn)品路標(biāo)

　　除了讓人覺得帥到炸裂的80核N1設(shè)計之外，QuickSilver擁有128 PCIe4 lanes這樣的豪華配置。還是Nividia家CUDA-on-ARM的核心伙伴。

　　這是我2020最期望的一顆芯片，畢竟能買到啊，AWS的graviton只能買云服務(wù)。

　　MarvellThunderX3

　　接著AWS的熱度，公布自己下一代計劃的不僅僅有Ampere，還有我們的老牌公司Marvell，因此我們知道了ThunderX3 processor的自研核的名字是“Triton”，還看到了每兩年一代，每代性能翻倍的強(qiáng)勁產(chǎn)品路標(biāo)。

640.webp (5).jpg

　　圖4.9 ThunderX 路標(biāo)

640.webp (4).jpg

　　圖4.10 ThunderX3的增強(qiáng)部分

　　Fujistu A64FX 2016

　　最喜歡的要放到最后。我的同事，在跟與一位伙伴討論memory選擇的時候，說“高吞吐，大容量和便宜三者之間，你只能選兩個”，這句話非常有哲理了，如果有三項都可以兼顧的方案，大家就不糾結(jié)了。有糾結(jié)，肯定是有難選的地方，我個人偏好那種“除了貴，沒別的毛病”的方案，但是請放心，給伙伴推薦的時候，我絕對不會表露這種個人傾向性的。

　　富士通的這款A(yù)64FX其實(shí)不是服務(wù)器芯片，是用來做超算的，恰恰就是那種“除了貴，沒別的毛病”的產(chǎn)品。

　　2016年arm宣布了ArmV8的指令集擴(kuò)展SVE- Scalable Vector Extension，國際慣例，一個大客戶會出來站臺，這就是是Fujistu-富士通，它的Post-K，傳聞中拿了$1.24 billion日本國家資金的超算項目，會采用Arm架構(gòu)，而不是他們以前的SPARC。而且A64FX是第一款支持SVE的Arm處理器。

640.webp (3).jpg

　　圖4.11 A64FX的緩存層級和速度

　　2018年富士通在hotchips上公開介紹了A64FX這顆芯片。先看硬參數(shù)：8.8 billion transistors (這個不算多，AWS Graviton2 有30B) ，7nm。48個自研核加上4個同質(zhì)的管理核，其實(shí)是4個處理器cluster，每個cluster是13個核。核間互聯(lián)是自研的第二代TOFU -6D mesh/torus片上網(wǎng)絡(luò)（第一代TOFU的口碑超級好），配的32GB HBM2 （超豪華配置），16PCIe 3.0 lanes （這個不算多，估計也不想接什么外設(shè)），1024 GB/s的存儲帶寬，2.7 TFLOPS @ 64bit，21.6 TFLOPS@8bit 的性能。Nvidia Tesla P4和P40，在8bit整數(shù)的時候，分別是22 TFlops和47TFLOPS，頗有一拼。

　　A64FX的cache層級，吞吐很高，執(zhí)行流水線，電源管理，RAS都很有特色，有興趣可以讀一下hotchips的文檔。

640.webp (2).jpg

　　圖4.12 A64FX的floorplan

640.webp (1).jpg

　　圖4.13 Fugaku節(jié)點(diǎn)（液冷的）

　　A64FX這種強(qiáng)悍的性能，可以不用和GPU組合，因此Cray在和富士通合作，把A64FX做進(jìn) CS500 clusters和未來Shasta系統(tǒng)中。

　　其它的新入者

　　2019年11月，一家叫Nuvia的創(chuàng)業(yè)公司，在SC會議期間，浮出水面。這家公司創(chuàng)始人的背景，蘋果的訴訟，立刻登上了頭條。沒有產(chǎn)品之前，讓我們記住他們的口號"deliver industry-leading performance and energyefficiency for the data center" 。

　　歐洲的歐洲處理器聯(lián)盟-EPI （https://www.european-processor-initiative.eu/project/epi/）也是一個以設(shè)計服務(wù)器級的CPU為目標(biāo)的努力。不多說，看路標(biāo)。

640.webp.jpg

　　圖4.11 EPI路標(biāo)圖

　　總結(jié)

　　我在試圖回答Arm為什么要做服務(wù)器的時候，我能想到的就是“先進(jìn)生產(chǎn)力”這5個字。什么叫先進(jìn)生產(chǎn)力， Frank Frankovsky，F(xiàn)acebook VP of Hardware Design and Supply Chain Operations 也是個要有名字的男人。他提出 the most useful work per watt per dollar。真正能用上的算力除以買服務(wù)器花費(fèi)與運(yùn)營服務(wù)器所花的電費(fèi)就是這個服務(wù)器的代表的生產(chǎn)力，這個值標(biāo)志了先進(jìn)性。

　　延伸一下，對產(chǎn)業(yè)鏈上的人就是the total useful work per total investment，提供有用計算力除以總投入的資金（時間，工程師的智慧與心血），這就是這個技術(shù)/方案/ISA/產(chǎn)品的生產(chǎn)力是否先進(jìn)的指標(biāo)。這也是我寫這篇編年史的一條暗線，多少投入，第三波浪潮會帶來多少產(chǎn)出。

　　真正的先進(jìn)生產(chǎn)力，是屬于全世界的，也是全世界共同努力的結(jié)果。

　　先進(jìn)的產(chǎn)品是一行行的代碼，一個個wafer累積出來的。

　　祝大家2020萬事如意。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

Arm服务器芯片发展史

日期： 2020-01-08

來源：半导体行业观察

相關(guān)內(nèi)容