123,123,123

搭建一个超算中心，需要哪些芯片？

日期： 2022-11-17

來(lái)源：半导体产业纵横

關(guān)鍵詞： 芯片国际超算太湖之光

2022國(guó)際超算大會(huì)發(fā)布最新TOP500榜單，美國(guó)田納西州橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室（ORNL）的“前沿”（Frontier）以1．102 exaflops的成績(jī)屠榜，成為第一個(gè)真正突破Exascale大關(guān)的超算。

在這一份榜單中，我國(guó)的神威太湖之光位列第六，天河二號(hào)位列第九，與前幾年相比排名有所下降，算力也不及美國(guó)“前沿”的十分之一。

長(zhǎng)期以來(lái)，超算被視為綜合國(guó)力的象征之一，是支撐國(guó)家持續(xù)發(fā)展的關(guān)鍵技術(shù)之一。那么，中國(guó)的超算能力如何？國(guó)內(nèi)芯片供應(yīng)鏈?zhǔn)欠衲軌蛑沃袊?guó)搭建超算中心呢？

超算市場(chǎng)的形成

簡(jiǎn)單來(lái)說(shuō)，超級(jí)計(jì)算機(jī)是指由數(shù)千甚至更多處理器組成、能計(jì)算普通計(jì)算機(jī)和服務(wù)器不能完成的大型復(fù)雜課題的計(jì)算機(jī)，它是將大量的處理器集中在一起以處理龐大的數(shù)據(jù)量，同時(shí)運(yùn)算速度比常規(guī)計(jì)算機(jī)快許多倍。

根據(jù)中國(guó)科學(xué)院院士錢德沛2019年所做的一個(gè)報(bào)告，1993－2012年，超級(jí)計(jì)算機(jī)的性能大約每10年提高1000倍，從2013年起，上升速率變緩，降低為每10年100倍左右。但無(wú)論如何，超級(jí)計(jì)算機(jī)性能增長(zhǎng)的速度遠(yuǎn)高于民用PC的性能增長(zhǎng)，這說(shuō)明超級(jí)計(jì)算機(jī)性能提高固然要靠單芯片性能的增長(zhǎng)，也非常依賴系統(tǒng)規(guī)模的擴(kuò)大。

最早，超算領(lǐng)域一直是由美國(guó)主導(dǎo)的，美國(guó)是該領(lǐng)域的傳統(tǒng)強(qiáng)國(guó)，已構(gòu)建了三大E級(jí)超算體系。自20世紀(jì)80年代中期開(kāi)始，日本逐漸追趕上，其自主研發(fā)的超級(jí)計(jì)算機(jī)的性能屢創(chuàng)佳績(jī)。

近幾年，中國(guó)在超算領(lǐng)域也逐漸崛起，占據(jù)了突出優(yōu)勢(shì)。在2022年的榜單上，中國(guó)共有兩個(gè)超級(jí)計(jì)算機(jī)進(jìn)入前十，分別是HPL得分為93PFlop／s、位列第六的“神威·太湖之光”和HPL得分為61．4PFlop／s、位列第九的“天河二號(hào)”。

截至目前，我國(guó)共掛牌8座國(guó)家級(jí)超算中心，分別位于天津、長(zhǎng)沙、濟(jì)南、廣州、深圳、無(wú)錫、鄭州、昆山。

那么如此重要的算力場(chǎng)景，究竟需要那些芯片呢？

超算中心需要哪些芯片？

先來(lái)看國(guó)內(nèi)，2010年，中國(guó)的“天河一號(hào)”位居全球超級(jí)計(jì)算機(jī)500強(qiáng)排行榜榜首。其思路采用“CPU＋GPU”的設(shè)計(jì)思路，結(jié)合了大約7000個(gè)英偉達(dá)GPU和14000個(gè)英特爾CPU，將GPU（圖形芯片）用于超級(jí)計(jì)算機(jī)，起到了“CPU加速器”的作用。

盡管“天河”的主要部件仍來(lái)自英特爾與英偉達(dá)兩個(gè)美國(guó)制造商，但互聯(lián)芯片則完全是中國(guó)自主研發(fā)，“天河”安裝有由中國(guó)自主研發(fā)的“飛騰1000”芯片，部分取代了進(jìn)口芯片。

2016年“神威·太湖之光”誕生，是世界首臺(tái)峰值運(yùn)算性能超過(guò)每秒十億億次浮點(diǎn)運(yùn)算能力的超級(jí)計(jì)算機(jī)。這臺(tái)計(jì)算機(jī)共有40960顆國(guó)產(chǎn)芯片，運(yùn)算系統(tǒng)全面采用了國(guó)產(chǎn)“申威26010”眾核處理器。這也是我國(guó)第一臺(tái)全部采用國(guó)產(chǎn)處理器構(gòu)建的超級(jí)計(jì)算機(jī)。

從北京超級(jí)云計(jì)算中心來(lái)看，根據(jù)處理器的類別，北京超級(jí)云計(jì)算中心的超算分區(qū)可以劃分為四大系列：基于AMD芯片的A分區(qū)與M分區(qū)，以及A分區(qū)的加強(qiáng)版「A6分區(qū)」；基于英特爾芯片的T分區(qū)與L分區(qū)；基于國(guó)產(chǎn)芯片的先導(dǎo)一號(hào)；基于英偉達(dá)芯片的AI智算云，比如N17、N19區(qū)。

其中，A分區(qū)采用的是AMD在2019年推出的第二代EPYC（霄龍）服務(wù)級(jí)處理器，代號(hào)羅馬（Rome），基于7nm工藝，搭載64核心128線程，每一個(gè)核心的內(nèi)存為4GB，在提升核心的同時(shí)也提升了時(shí)鐘速度，加速頻率可達(dá)3．4GHz。

國(guó)外方面，今年在超算榜單排名第一的美國(guó)的“前沿（Frontier）”超級(jí)計(jì)算機(jī)，相較于神威·太湖之光，美國(guó)的Frontier只有9408個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)配備一個(gè)AMD Epyc 7A53 CPU和四個(gè)AMD Instinct MI250X加速卡。顯然，F(xiàn)rontier的節(jié)點(diǎn)間通信的壓力要小得多，也更容易設(shè)計(jì)。

該系統(tǒng)共包括8730112個(gè)內(nèi)核，整個(gè)系統(tǒng)總共有9400多個(gè)CPU和37000多個(gè)GPU。Frontier核心計(jì)算部分主要依靠AMD Instinct MI250X加速卡，采用的是CDNA2架構(gòu)。

此外，每塊加速卡上還集成了128GB HBM2e高帶寬內(nèi)存?，F(xiàn)在的超算主要還是馮·諾依曼結(jié)構(gòu)占主導(dǎo)，內(nèi)存速度將直接影響計(jì)算速度，這種內(nèi)存比普通的要快得多，目前卻只有少數(shù)企業(yè)能夠生產(chǎn)。

超算中心如何分配芯片

超級(jí)計(jì)算機(jī)的性能野蠻生長(zhǎng)了20年，至今為止，美國(guó)研制Frontier的花費(fèi)也不過(guò)區(qū)區(qū)6億美元，這說(shuō)明超算系統(tǒng)規(guī)模的擴(kuò)大并不是簡(jiǎn)單的堆硬件。

日本“富岳”（Fugaku）超算，宣稱它的浮點(diǎn)運(yùn)算速度峰值可達(dá)每秒41．5億億次；中國(guó)的“神威太湖之光”，它的浮點(diǎn)運(yùn)算速度峰值是每秒12．5億億次。都達(dá)到了10億億次以上。超算用了很多個(gè)芯片，讓它們同時(shí)執(zhí)行任務(wù)，而單個(gè)芯片的性能跟個(gè)人電腦的芯片是差不多的。用科學(xué)術(shù)語(yǔ)來(lái)說(shuō)，這叫做“并行計(jì)算”，這是高性能計(jì)算的基本思路。

超算的算力是和核數(shù)有關(guān)的。但算力速度并不能與核數(shù)構(gòu)成正比例關(guān)系。實(shí)際上，要讓多個(gè)芯片同時(shí)運(yùn)行，就必須首先給它們劃分好任務(wù)，這個(gè)任務(wù)劃分是要消耗時(shí)間的。然后，當(dāng)各個(gè)芯片開(kāi)始計(jì)算之后，還不時(shí)地要和其他芯片交換數(shù)據(jù)，這個(gè)通信也是要消耗時(shí)間的。

超算的競(jìng)爭(zhēng)主要是超算系統(tǒng)中調(diào)度、分發(fā)、通信相關(guān)的軟硬件的競(jìng)爭(zhēng)。早期的超算中心，每一個(gè)節(jié)點(diǎn)要么純CPU，要么是CPU＋加速卡的異構(gòu)計(jì)算方案。但從2010年前后開(kāi)始，純CPU的方案劣勢(shì)太大，越來(lái)越少地被采用。CPU＋加速卡的異構(gòu)計(jì)算方案也存在很大缺點(diǎn)，即計(jì)算的數(shù)據(jù)會(huì)反復(fù)在CPU和加速卡之間傳輸，造成大量的性能浪費(fèi)。

因此，為了更高的性價(jià)比和計(jì)算速度，早期國(guó)內(nèi)往往會(huì)購(gòu)買英特爾和英偉達(dá)兩家美國(guó)廠商的成熟產(chǎn)品。

再之后異構(gòu)計(jì)算進(jìn)入超算中心的眼簾。事實(shí)上，最近幾年曾經(jīng)在TOP500刷榜，或者排名靠前的超算都采用了異構(gòu)計(jì)算——中國(guó)神威太湖之光、美國(guó)超算泰坦、中國(guó)天河1號(hào)和天河2號(hào)。

泰坦有18688個(gè)運(yùn)算節(jié)點(diǎn)，每個(gè)運(yùn)算節(jié)點(diǎn)由1個(gè)16核心AMD Opteron 6274處理器和1個(gè)英偉達(dá) Tesla K20加速器組成，共計(jì)299008個(gè)運(yùn)算核心，屬于CPU＋GPU。

天河1號(hào)使用了14336片英特爾 Xeon X5670處理器和7168片英偉達(dá) Tesla M2050高性能計(jì)算卡，屬于CPU＋GPU。　

天河2號(hào)有16000個(gè)計(jì)算節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)由2片英特爾的E5 2692和3片Xeon PHI組成，共使用了32000片英特爾的E5 2692和48000片Xeon PHI，屬于CPU＋眾核芯片。正在升級(jí)的天河2號(hào)則將美國(guó)的Xeon PHI換成了自主研發(fā)的矩陣2000，屬于CPU＋DSP。

神威·太湖之光使用的sw26010將兩個(gè)部分的電路，集成到了一個(gè)芯片上（片上異構(gòu)），這樣既避免了純CPU不擅長(zhǎng)專業(yè)計(jì)算的劣勢(shì)，又避免了加速卡不能和CPU共享內(nèi)存的問(wèn)題。使得sw26010在設(shè)計(jì)團(tuán)隊(duì)規(guī)模很小，制程落后整整兩代的情況，實(shí)現(xiàn)了和英特爾類似產(chǎn)品相似的功耗和性能。

太湖之光的成功，啟迪了后來(lái)日本的“富岳”超算?！案辉馈蓖瑯訏仐壛嗣绹?guó)成熟的計(jì)算方案，購(gòu)買ARMv8．2－A指令集開(kāi)發(fā)管理核心，并自研專業(yè)計(jì)算模塊，推出了富士通版的片上異構(gòu)芯片A64FX。

總結(jié)

我國(guó)在發(fā)展超算中心的途中，仍有許多問(wèn)題。國(guó)產(chǎn)芯片研究起步較晚，CPU、GPU等超算核心芯片指令集架構(gòu)領(lǐng)域仍然存在明顯短板，缺乏高端芯片制造能力。EDA和編程平臺(tái)長(zhǎng)期面臨卡脖子風(fēng)險(xiǎn)，核心設(shè)備依賴進(jìn)口，自主權(quán)和議價(jià)權(quán)仍由國(guó)外巨頭掌控。

目前來(lái)看，超級(jí)計(jì)算機(jī)的核心硬件CPU與GPU市場(chǎng)呈現(xiàn)馬太效應(yīng)，CPU主要由Intel與AMD領(lǐng)跑，GPU市場(chǎng)由英偉達(dá)等國(guó)際巨頭掌握關(guān)鍵技術(shù)話語(yǔ)權(quán)。并且在美國(guó)的刻意制裁下，上榜超算大會(huì)TOP500的企業(yè)，往往更容易被加入實(shí)體清單。

2019年6月，美國(guó)將江南計(jì)算技術(shù)研究所等列入實(shí)體清單；2021年4月8日，包括天津飛騰信息技術(shù)公司、上海集成電路技術(shù)與產(chǎn)業(yè)促進(jìn)中心、Sunway Microelectronics、國(guó)家超級(jí)計(jì)算濟(jì)南中心、國(guó)家超級(jí)計(jì)算深圳中心、國(guó)家超級(jí)計(jì)算無(wú)錫中心以及國(guó)家超級(jí)計(jì)算鄭州中心被美國(guó)列入黑名單。

在重重壓力下，我國(guó)超算仍然保持著優(yōu)秀的成績(jī)。在今年的ISC 2022超級(jí)計(jì)算大會(huì)上，中國(guó)是超級(jí)計(jì)算機(jī)上榜數(shù)量最多的國(guó)家，以173臺(tái)的數(shù)量位列第一，占全球34．6％；排名第二的美國(guó)從上一期的150臺(tái)下降到127臺(tái)，占比25．6％；排名第三的日本則有33臺(tái)進(jìn)入榜單，占比6．6％。

從2016年開(kāi)始，我國(guó)超算進(jìn)入TOP500榜單的數(shù)量，除了2017年6月稍下滑位居第二外，基本上就一直穩(wěn)定在世界第一的位置。這些成績(jī)的出現(xiàn)，并非易事。

隨著我國(guó)高度重視超級(jí)計(jì)算機(jī)核心芯片自主國(guó)產(chǎn)化研究，國(guó)產(chǎn)x86架構(gòu)CPU、DCU深度計(jì)算單元均已獲得一定的應(yīng)用。

更多信息可以來(lái)這里獲取==>>電子技術(shù)應(yīng)用-AET<<

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

搭建一个超算中心，需要哪些芯片？

日期： 2022-11-17

來(lái)源：半导体产业纵横

相關(guān)內(nèi)容