本文為re:Invent 2021亮點(diǎn)解讀的第一部分,關(guān)于自研Graviton的部分,后續(xù)還有關(guān)于機(jī)器學(xué)習(xí)和關(guān)于存儲(chǔ)的部分,敬請關(guān)注后續(xù)。
正文:
自從亞馬遜云科技(以下簡稱AWS)發(fā)布自研的ARM處理器以及ARM云主機(jī)以來,各家云服務(wù)商在自研芯片的道路上越走越遠(yuǎn)。
2021年,云服務(wù)商內(nèi)卷的越來越激烈了,作為云服務(wù)商內(nèi)卷運(yùn)動(dòng)的發(fā)起者,AWS在2021年年底又介紹了新一款A(yù)RM處理器——Amazon Graviton 3。
只不過,Graviton 3沿用了64核心的配置,而市場上已經(jīng)有云服務(wù)商做出了128核的Arm芯片,背后究竟有什么樣的考慮呢,本文將分享亞馬遜云科技大中華區(qū)產(chǎn)品部計(jì)算與存儲(chǔ)總監(jiān)周舸的正式回應(yīng)。
時(shí)隔2年,Graviton 3帶來哪些提升
AWS官方新聞宣稱,Graviton 3比Graviton 2快了25%,與科學(xué)計(jì)算和媒體編碼有關(guān)的浮點(diǎn)運(yùn)算性能翻了1倍,加密工作負(fù)載運(yùn)算速度提升高達(dá)2倍,由于支持bfloat16,所以,機(jī)器學(xué)習(xí)推理運(yùn)算能力提升了3倍。
目前,Graviton 3公開的信息比較少,湊巧在AWS首席布道師Jeff Bar的推特里發(fā)現(xiàn)了一張開蓋的Graviton 3的圖片。圖中顯示,Graviton 3采用的是時(shí)下最流行的Chiplet設(shè)計(jì)和先進(jìn)的封裝技術(shù),這為I/O提升埋下了伏筆。
另外一張網(wǎng)傳的圖片顯示Graviton 3采用了PCIe 5.0的I/O連接。DDR 5加PCIe 5.0,IO規(guī)格與最新的x86系列CPU對齊了。按理說,后者距離上市應(yīng)該還有幾個(gè)月時(shí)間,Graviton 3搶先一步了。
此外,AWS還宣稱,Graviton 3的功耗最多可降低60%,不清楚是跟x86服務(wù)器做對比的還是跟此前的哪款服務(wù)器做對比,總之,AWS有資格獲得一枚綠色節(jié)能小能手勛章。
在面向中國媒體的溝通會(huì)上,亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理顧凡大談亞馬遜云通過技術(shù)創(chuàng)新(比如Graviton通用芯片和Trainium AI芯片),通過具體行動(dòng)在節(jié)能減排上所取得的成績(比如大量使用清潔可再生能源),讓人們看到上云對于節(jié)能減排的意義,多買一臺(tái)云服務(wù)器可能比多種一棵樹還環(huán)保。
AWS副總裁Peter DeSantis解釋了提升Graviton核心效能的一個(gè)重要因素,那就是讓核心變得更寬(Make the core wider),比如,把Graviton3把每個(gè)核心在每個(gè)時(shí)鐘周期執(zhí)行的指令數(shù)量從5個(gè)提升到8個(gè),總之,就是讓每個(gè)時(shí)鐘周期能做更多事兒。
AWS還宣布Graviton 3芯片將用于EC2 C7g實(shí)例,新的服務(wù)器將采用了新的DDR5內(nèi)存,與此前Graviton 2采用的DDR 4內(nèi)存相比,DDR 5的內(nèi)存帶寬提升50%,有利于提高科學(xué)計(jì)算等內(nèi)存密集型應(yīng)用的性能表現(xiàn)。
C7g實(shí)例所采用的服務(wù)器硬件采用了三路設(shè)計(jì),Graviton2的服務(wù)器只有2路,計(jì)算密度得以大幅提升。筆者所見的單路雙路和四路會(huì)多一些,三路相對少一些。
另外,網(wǎng)傳圖片顯示Graviton 3使用了大約550億個(gè)晶體管,而大會(huì)上,AWS副總裁Peter DeSantis展示的PPT則顯示有500億晶體管,這年頭,上下50億晶體管都是誤差范圍了?
官方數(shù)據(jù)顯示,C7g實(shí)例與由Graviton2支持的C6g實(shí)例相比,計(jì)算密集型工作負(fù)載性能提高多達(dá)25%,C7g實(shí)例的網(wǎng)絡(luò)帶寬也高出20%。
此外,C7g實(shí)例還支持 Elastic Fabric Adapter (EFA),允許應(yīng)用程序直接與網(wǎng)絡(luò)接口卡通信,提供更低且更一致的延遲,提高需要大規(guī)模并行處理的應(yīng)用性能,比如HPC并行計(jì)算集群,比如機(jī)器學(xué)習(xí)訓(xùn)練集群,總之,它很重要。
記得Graviton2發(fā)布的時(shí)候,強(qiáng)調(diào)相關(guān)實(shí)例相較于x86實(shí)例有高達(dá)40%的性價(jià)比提升,而Graviton3的發(fā)布沒有過于強(qiáng)調(diào)性價(jià)比方面的提升(雖然肯定有),而是強(qiáng)調(diào)在高性能計(jì)算等更多場景上的性能表現(xiàn)。
Graviton 3的細(xì)節(jié)已不是最重要的事
在采訪中,亞馬遜云科技大中華區(qū)產(chǎn)品部計(jì)算與存儲(chǔ)總監(jiān)周舸則不愿意多聊芯片本身,他更愿意談的是,Graviton3實(shí)例用的好不好的問題。
但媒體似乎沒有放棄各種有趣的猜測,全球許多專業(yè)媒體都在根據(jù)已知信息猜測Graviton3的更多細(xì)節(jié),有猜測說,Graviton3用的是Arm Neoverse V1架構(gòu),有的人猜測是N2。
Timothy Prickett Morgan發(fā)表在NextPlatform上的猜測,紅色字體是猜測的數(shù)據(jù),黑體則是公開的信息。值得注意的是,媒體普遍猜測Graviton3的TDP大約為100瓦,遠(yuǎn)低于x86方案。
Graviton3采用了臺(tái)積電的5nm工藝制程,Arm v8.5版本架構(gòu),主頻相比上一代僅僅提升了0.1G(僅為2.6G),主頻晶體管數(shù)量雖然相比上代增長了200萬,而核心數(shù)量卻沒有增長,還是64核。
才64核?Graviton 3為什么不堆更多核心?
我們知道,2021年,國際市場上的Ampere Altra Max也提升到了128核,國內(nèi)市場上的阿里平頭哥半導(dǎo)體也發(fā)布了一款128核的基于Arm v9的處理器,為什么先搞ARM芯片的Graviton3還是64核呢,多出來200億的晶體管放在哪兒了呢?
周舸表示,新增的晶體管主要用于提升內(nèi)存帶寬而不是增加核心,之所以如此選擇,是考慮到Graviton用戶的實(shí)際工作負(fù)載主要是大數(shù)據(jù)、微服務(wù)以及HPC,這些負(fù)載對于內(nèi)存帶寬和延時(shí)的要求很高,于是AWS認(rèn)為提升內(nèi)存比增加核數(shù)更有意義,用戶的實(shí)際反饋也確實(shí)如此。
AWS的設(shè)計(jì)原則是如何以最低的成本提供更多的性能,芯片設(shè)計(jì)和實(shí)例設(shè)計(jì)需要考慮性價(jià)比,就好比司機(jī)憑經(jīng)驗(yàn)掌握車速,把車速控制在某一個(gè)速度才更省油,AWS的EC2也要考慮類似的問題,而不是一昧的追求更主頻或者更多核。
Graviton在中國市場表現(xiàn)喜人
此外,相信許多人都好奇基于Graviton處理器的EC2實(shí)例的市場表現(xiàn),特別是在國內(nèi)市場的接受度如何,對此,周舸雖然沒有用數(shù)字來直接加以說明,但言語間,對于Graviton實(shí)例的市場表現(xiàn)還是非常滿意的。
之所以有較好的市場表現(xiàn),一方面是因?yàn)閺膞86遷移工作負(fù)載并不是太困難,周舸表示有許多負(fù)載都能在一兩天內(nèi)完成。更重要的一方面在于,AWS自己的很多托管服務(wù)的底層就在用Graviton,用戶自己用了Graviton可能連自己都不知道。
高通如果看到這里可能會(huì)發(fā)瘋,當(dāng)年,高通的ARM服務(wù)器如果想替代x86服務(wù)器,必須要解決從x86硬件遷移到ARM服務(wù)器的所有問題,基本是要在整個(gè)應(yīng)用生態(tài)上,重走x86多少年來走過的路,其難度可想而知,而AWS充分利用了云服務(wù)的天然優(yōu)勢,高通只能大呼羨慕。
高通的ARM服務(wù)器好比在大冬天里讓用戶從暖和的被窩爬出來,鉆到另外一個(gè)冰涼的被窩,而AWS的做法則是在被窩的一頭又放了一個(gè)被窩,用戶不用克服任何障礙就能走到另一頭,因?yàn)?,Graviton用成本優(yōu)勢正吸引著用戶自愿走向另一頭。
從2018年發(fā)布以來,AWS的Graviton處理器已經(jīng)度過了為期四年的考驗(yàn)期,實(shí)踐證明,這么一折騰,居然還挺成功的。
Graviton的應(yīng)用生態(tài)還在成長,AWS用各種方式鼓勵(lì)開發(fā)者把工作負(fù)載遷移到Graviton實(shí)例上,包括VMware等知名企業(yè)都參與其中,Linux生態(tài)也都響應(yīng)了Graviton生態(tài),此外,AWS也有一些面向合作伙伴認(rèn)證也在推行當(dāng)中。