123,123,123

强悍的A64FX为Arm服务器打了一针强心剂

日期： 2018-08-31

關(guān)鍵詞： 全球超算处理器 X86

在全球超算領(lǐng)域，中美一直在爭奪算力第一的位置，此外，日本和歐洲是兩股重要力量。而在超級計算機(jī)的核心——處理器方面，也是八仙過海，各顯神通，特別是在處理器架構(gòu)方面，業(yè)界有著不同的路線：有的采用傳統(tǒng)的x86以及IBM的Power，有的采用最新的并行異構(gòu)計算體系，還有一個就是ARM服務(wù)器架構(gòu)。

上周，在Hotchips會議上，富士通公司公布了號稱最強(qiáng)ARM處理器A64FX，其集成了48+4個核心，配備32GB HBM 2內(nèi)存，帶寬1TB/s，浮點(diǎn)性能2.7TFLOPS，使用7nm工藝生產(chǎn)。該處理器將用于日本新一代代號為Post-K的百億億次超算，據(jù)悉，其性能將是現(xiàn)在的京式超算的100倍，而能耗只有三倍。

日本現(xiàn)在的超算京（Kyo）是富士通聯(lián)合日本理化研究所開發(fā)的，使用的處理器是SPARC64架構(gòu)，而新一代的百億億次超算將使用全新研發(fā)的處理器A64FX，與現(xiàn)有的超算相比，新一代Post-K超算最大的變化就是處理器從SPARC64架構(gòu)全面轉(zhuǎn)向了ARM，富士通還聯(lián)合ARM推出了SVE（可伸縮矢量擴(kuò)展）指令集，大幅強(qiáng)化浮點(diǎn)性能。

據(jù)悉，A64FX處理器使用了ARM的ARMv8.2-A指令集，浮點(diǎn)單元則是上面提到的SVE，支持512bit位寬浮點(diǎn)運(yùn)算。這個處理器的架構(gòu)設(shè)計也很特別，有48個計算核心及4個協(xié)助核心組成，分為四個CMG單元，每個單元13個核心，28Gbps I/O帶寬，16條PCIe 3.0通道。

微信圖片_20180831172357.jpg

A64FX處理器將使用7nm FinFET工藝生產(chǎn)，87.86億個晶體管，性能可達(dá)2.7TFLOPS，是前代的SPARC V9處理器1.1TFLOPS的2.5倍左右。

根據(jù)富士通公布的信息，目前A64FX處理器已經(jīng)完成原型開發(fā)，新一代超算已經(jīng)進(jìn)入功能測試階段。

富士通這一處理器產(chǎn)品的推出，特別是該公司將原有的超算處理器架構(gòu)由原來的SPARC64全面轉(zhuǎn)向了ARM，無疑是給當(dāng)下的ARM服務(wù)器市場打了一針強(qiáng)心劑。

全球服務(wù)器市場的ARM元素

在當(dāng)今的服務(wù)器CPU架構(gòu)領(lǐng)域，ARM明顯處于弱勢地位，市場主要由x86主導(dǎo)，另外還有Power。在美國，ARM服務(wù)器CPU聲勢越來越弱，高通、AMD等大廠紛紛裁撤在該方面的投入。

ARM服務(wù)器CPU主要應(yīng)用包括商用和超算等，下面就以超算應(yīng)用為例，因?yàn)樗€是比較有代表性的。

今年6月，美國能源部與IBM、英偉達(dá)合作打造出了新一代超級計算機(jī)，名為Summit。其峰值運(yùn)算性能達(dá)到200PFlops，也就是每秒執(zhí)行20億億次浮點(diǎn)運(yùn)算，是迄今為止性能最強(qiáng)的超級計算機(jī)，也標(biāo)志著自2012年以來美國超算超越中國，再次奪冠。Summit基于IBM的Power Systems AC922做節(jié)點(diǎn)，每個節(jié)點(diǎn)搭載2個Power9處理器和6個NVIDIA Tesla V100 GPU顯卡，總共設(shè)計約4600個節(jié)點(diǎn)。

可見，美國的超算更看好CPU+GPU的發(fā)展路線。

而全球超算兩強(qiáng)之一的中國，在處理器架構(gòu)方面，則呈現(xiàn)百花齊放，并行發(fā)展的態(tài)勢。

中國現(xiàn)在同時啟動了三大百億億次超算研發(fā)項(xiàng)目，分別是國防科大/天津超算中心的“天河三號”、中科曙光的E級超算以及江南所/濟(jì)南超算中心的“神威”E級。以上三套百億億次超算中，核心處理器都將是國產(chǎn)的。

其中，“天河三號”采取的技術(shù)路線則是基于ARM構(gòu)架處理器，中科曙光則選擇了類似于美國主流超算的CPU+GPU技術(shù)路線，“神威”采用的是眾核異構(gòu)體系——國產(chǎn)申威SW26010處理器。

此外，歐盟預(yù)計于2022~2023年交付首臺E級超算，使用的是美國、歐盟處理器，架構(gòu)有可能類似ARM。

以上主要給出全球超算市場的處理器架構(gòu)情況，而在商用服務(wù)器市場，ARM處理器應(yīng)用情況與超算沒有太大的差別?？梢姡珹RM架構(gòu)在全球服務(wù)器市場是處于弱勢地位的。

但隨著中國在ARM服務(wù)器研發(fā)上的發(fā)力，以及日本的代表企業(yè)富士通將超算處理器架構(gòu)由SPARC64全面轉(zhuǎn)向了ARM，特別是本次推出了強(qiáng)悍的新一代ARM處理器A64FX，讓人感覺眼前一亮。這些，是否預(yù)示著ARM服務(wù)器在市場洗牌之后，進(jìn)入了新一輪的博弈呢？答案還要由市場和時間給出。

中國ARM服務(wù)器CPU陣營

中國的ARM服務(wù)器CPU有三強(qiáng)，分別是飛騰，華芯通和華為。

“天河三號”原型機(jī)采用的就是飛騰的ARM處理器，是一款百億億次的超算產(chǎn)品，綜合運(yùn)算能力是“天河一號”的200倍，“天河二號”的30倍（“天河一號”、“天河二號”用的都是Intel的Xeon處理器）?！疤旌尤枴痹蜋C(jī)于今年6月部署在天津超算中心，年底將正式上線投入使用。據(jù)悉，原型機(jī)的作用是為了驗(yàn)證‘天河三號’的技術(shù)路線。

在“天河一號”、“天河二號”階段，飛騰處理器就有應(yīng)用，但當(dāng)時采用的不是ARM架構(gòu)，而是Ultra SPARC，基于此架構(gòu)的8核64線程的FT-1000被用在天河一號的節(jié)點(diǎn)網(wǎng)絡(luò)上，之后，同樣基于SPARC架構(gòu)的FT-1500，用在了天河二號超算上，用于節(jié)點(diǎn)前端處理器。

之后的FT-1500A，其架構(gòu)則由SPARC轉(zhuǎn)變成了ARM 64位，這與富士通的發(fā)展路線非常相似。不過飛騰這一轉(zhuǎn)變還有另外一層因素，就是避免被Intel的Xeon處理器“卡脖子”。

之后，飛騰在2016年發(fā)布了基于ARM架構(gòu)的FT-2000，最新產(chǎn)品是尚未對外發(fā)布的升級版——FT-2000 Plus。

FT-2000采用28nm制造工藝，可被用于超算計算節(jié)點(diǎn)和高性能服務(wù)器。集成了64個FTC661處理器核。工作主頻1.5GHz—2.0GHz。支持16個DDR3-1600存儲控制器，可提供204.8GB/s訪存帶寬。最大功耗100W。

據(jù)悉，在ARMv8指令集兼容的現(xiàn)有產(chǎn)品中，F(xiàn)T-2000在單核計算能力、單芯片并行性能、單芯片cache一致性規(guī)模、訪存帶寬等指標(biāo)上處于國際先進(jìn)水平。其自定義的擴(kuò)展接口不但可以用來擴(kuò)展緩存容量和存儲能力，還可以用來外接FPGA等加速器類專用芯片，實(shí)現(xiàn)異構(gòu)計算。

雖然沒有公開，但業(yè)界普遍認(rèn)為，“天河三號”采用的處理器應(yīng)該就是FT-2000 Plus。這款CPU是FT-2000的后繼產(chǎn)品。有信息顯示，F(xiàn)T-2000 Plus采用16nm制程。

微信圖片_20180831172420.jpg

相對于FT-2000，F(xiàn)T-2000 Plus首要任務(wù)就是提升集成度，以便于整機(jī)設(shè)計，其由支持可擴(kuò)展DDR3存儲控制器改為片內(nèi)集成DDR4內(nèi)存控制器，再加上使用了臺積電16nm制造工藝，主頻最高可穩(wěn)定在2.4GHz，使FT-2000 Plus相對于FT-2000還是有不小的性能提升，能夠滿足高端服務(wù)器和超算主控CPU的性能要求。雖然FT-2000 Plus在單核性能上和Intel還存在一定差距，但在多核性能上，已經(jīng)達(dá)到Intel服務(wù)器CPU E5 主流產(chǎn)品的水平。

華芯通

今年5月，華芯通在數(shù)博會的“Arm服務(wù)器產(chǎn)業(yè)生態(tài)高峰論壇”上正式發(fā)布了其高性能服務(wù)器CPU品牌“昇龍”。華芯通首款“昇龍”處理器采用10nm制程工藝，最多48核，ARM V8架構(gòu)，內(nèi)置國密密碼模塊和芯片級的安全基礎(chǔ)架構(gòu)。

據(jù)悉，昇龍?zhí)幚砥髁髌貋淼膶?shí)測性能已達(dá)到兩顆英特爾最新主流CPU水平，其能耗卻低了50%以上。如果情況果真如此的話，那么其性能還是比較強(qiáng)勁的，至少從算力上是可以進(jìn)入主流云服務(wù)市場的，可以與x86架構(gòu)產(chǎn)品爭一爭，但短期內(nèi)還難以形成規(guī)模，發(fā)展道阻且長，市場前景還要看華芯通的運(yùn)營能力，以及主要合作和技術(shù)提供方——高通的支持力度。

華為

2016年，華為推出了第一款A(yù)RM架構(gòu)服務(wù)器CPU“泰山”(Taishan)1612，采用的是ARM Cortex A57，這款處理器采用了臺積電16nm制程工藝，兼容ARM v8-A指令集，是華為在國內(nèi)主推的第一款多核服務(wù)器CPU。

據(jù)悉，1612是核高基1號專項(xiàng)項(xiàng)目，用來做互聯(lián)網(wǎng)冷卻儲存的生態(tài)系統(tǒng)驗(yàn)證，并未進(jìn)行推廣和量產(chǎn)。據(jù)說，經(jīng)過幾年攻堅，華為已經(jīng)攻克多項(xiàng)技術(shù)難題，2017年成功開發(fā)出第一款自研的、基于ARM架構(gòu)的CPU，能效是x86的x倍、領(lǐng)先市場上的同類ARM架構(gòu)CPU。從華為的一次會議上獲悉，華為海思圖靈業(yè)務(wù)部開發(fā)的泰山自研64 位CPU已經(jīng)成功商用。

最近有消息傳出，2019年華為將研制出性能堪比x86主流中端產(chǎn)品的ARM架構(gòu)服務(wù)器芯片，并將正式量產(chǎn)，進(jìn)行公開商用推廣。

華為在研發(fā)處理器方面一向都非常謹(jǐn)慎，而在ARM架構(gòu)服務(wù)器芯片方面更是低調(diào)至極，鮮有公開信息。可以肯定的是，在ARM服務(wù)器CPU研發(fā)方面，華為內(nèi)部一定是在緊鑼密鼓地進(jìn)行著，就看這個憋了很久的大招何時能夠放出吧。

結(jié)語

ARM在手機(jī)和嵌入式應(yīng)用當(dāng)中順風(fēng)順?biāo)麸L(fēng)喚雨，在此基礎(chǔ)上，有了足夠的底氣和資本，從而想在服務(wù)器領(lǐng)域與傳統(tǒng)的x86陣營掰一掰手腕，要想在堅固的x86生態(tài)中分得更多蛋糕，確實(shí)困難重重，需要付出的努力和投入將是巨大的。

而日本及中國ARM服務(wù)器CPU陣營的堅持與投入無疑為其發(fā)展增加了砝碼，而如何運(yùn)用這些砝碼來建設(shè)新生態(tài)，突破固有格局，走上良性的商用之路，是擺在ARM服務(wù)器陣營面前的大課題，前途如何，將由時間來檢驗(yàn)。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

强悍的A64FX为Arm服务器打了一针强心剂

日期： 2018-08-31

相關(guān)內(nèi)容