2022國際超算大會發(fā)布最新TOP500榜單,美國田納西州橡樹嶺國家實驗室(ORNL)的“前沿”(Frontier)以1.102 exaflops的成績屠榜,成為第一個真正突破Exascale大關的超算。
在這一份榜單中,我國的神威太湖之光位列第六,天河二號位列第九,與前幾年相比排名有所下降,算力也不及美國“前沿”的十分之一。
長期以來,超算被視為綜合國力的象征之一,是支撐國家持續(xù)發(fā)展的關鍵技術之一。那么,中國的超算能力如何?國內芯片供應鏈是否能夠支撐中國搭建超算中心呢?
超算市場的形成
簡單來說,超級計算機是指由數(shù)千甚至更多處理器組成、能計算普通計算機和服務器不能完成的大型復雜課題的計算機,它是將大量的處理器集中在一起以處理龐大的數(shù)據(jù)量,同時運算速度比常規(guī)計算機快許多倍。
根據(jù)中國科學院院士錢德沛2019年所做的一個報告,1993-2012年,超級計算機的性能大約每10年提高1000倍,從2013年起,上升速率變緩,降低為每10年100倍左右。但無論如何,超級計算機性能增長的速度遠高于民用PC的性能增長,這說明超級計算機性能提高固然要靠單芯片性能的增長,也非常依賴系統(tǒng)規(guī)模的擴大。
最早,超算領域一直是由美國主導的,美國是該領域的傳統(tǒng)強國,已構建了三大E級超算體系。自20世紀80年代中期開始,日本逐漸追趕上,其自主研發(fā)的超級計算機的性能屢創(chuàng)佳績。
近幾年,中國在超算領域也逐漸崛起,占據(jù)了突出優(yōu)勢。在2022年的榜單上,中國共有兩個超級計算機進入前十,分別是HPL得分為93PFlop/s、位列第六的“神威·太湖之光”和HPL得分為61.4PFlop/s、位列第九的“天河二號”。
截至目前,我國共掛牌8座國家級超算中心,分別位于天津、長沙、濟南、廣州、深圳、無錫、鄭州、昆山。
那么如此重要的算力場景,究竟需要那些芯片呢?
超算中心需要哪些芯片?
先來看國內,2010年,中國的“天河一號”位居全球超級計算機500強排行榜榜首。其思路采用“CPU+GPU”的設計思路,結合了大約7000個英偉達GPU和14000個英特爾CPU,將GPU(圖形芯片)用于超級計算機,起到了“CPU加速器”的作用。
盡管“天河”的主要部件仍來自英特爾與英偉達兩個美國制造商,但互聯(lián)芯片則完全是中國自主研發(fā),“天河”安裝有由中國自主研發(fā)的“飛騰1000”芯片,部分取代了進口芯片。
2016年“神威·太湖之光”誕生,是世界首臺峰值運算性能超過每秒十億億次浮點運算能力的超級計算機。這臺計算機共有40960顆國產芯片,運算系統(tǒng)全面采用了國產“申威26010”眾核處理器。這也是我國第一臺全部采用國產處理器構建的超級計算機。
從北京超級云計算中心來看,根據(jù)處理器的類別,北京超級云計算中心的超算分區(qū)可以劃分為四大系列:基于AMD芯片的A分區(qū)與M分區(qū),以及A分區(qū)的加強版「A6分區(qū)」;基于英特爾芯片的T分區(qū)與L分區(qū);基于國產芯片的先導一號;基于英偉達芯片的AI智算云,比如N17、N19區(qū)。
其中,A分區(qū)采用的是AMD在2019年推出的第二代EPYC(霄龍)服務級處理器,代號羅馬(Rome),基于7nm工藝,搭載64核心128線程,每一個核心的內存為4GB,在提升核心的同時也提升了時鐘速度,加速頻率可達3.4GHz。
國外方面,今年在超算榜單排名第一的美國的“前沿(Frontier)”超級計算機,相較于神威·太湖之光,美國的Frontier只有9408個節(jié)點,每個節(jié)點配備一個AMD Epyc 7A53 CPU和四個AMD Instinct MI250X加速卡。顯然,F(xiàn)rontier的節(jié)點間通信的壓力要小得多,也更容易設計。
該系統(tǒng)共包括8730112個內核,整個系統(tǒng)總共有9400多個CPU和37000多個GPU。Frontier核心計算部分主要依靠AMD Instinct MI250X加速卡,采用的是CDNA2架構。
此外,每塊加速卡上還集成了128GB HBM2e高帶寬內存?,F(xiàn)在的超算主要還是馮·諾依曼結構占主導,內存速度將直接影響計算速度,這種內存比普通的要快得多,目前卻只有少數(shù)企業(yè)能夠生產。
超算中心如何分配芯片
超級計算機的性能野蠻生長了20年,至今為止,美國研制Frontier的花費也不過區(qū)區(qū)6億美元,這說明超算系統(tǒng)規(guī)模的擴大并不是簡單的堆硬件。
日本“富岳”(Fugaku)超算,宣稱它的浮點運算速度峰值可達每秒41.5億億次;中國的“神威太湖之光”,它的浮點運算速度峰值是每秒12.5億億次。都達到了10億億次以上。超算用了很多個芯片,讓它們同時執(zhí)行任務,而單個芯片的性能跟個人電腦的芯片是差不多的。用科學術語來說,這叫做“并行計算”,這是高性能計算的基本思路。
超算的算力是和核數(shù)有關的。但算力速度并不能與核數(shù)構成正比例關系。實際上,要讓多個芯片同時運行,就必須首先給它們劃分好任務,這個任務劃分是要消耗時間的。然后,當各個芯片開始計算之后,還不時地要和其他芯片交換數(shù)據(jù),這個通信也是要消耗時間的。
超算的競爭主要是超算系統(tǒng)中調度、分發(fā)、通信相關的軟硬件的競爭。早期的超算中心,每一個節(jié)點要么純CPU,要么是CPU+加速卡的異構計算方案。但從2010年前后開始,純CPU的方案劣勢太大,越來越少地被采用。CPU+加速卡的異構計算方案也存在很大缺點,即計算的數(shù)據(jù)會反復在CPU和加速卡之間傳輸,造成大量的性能浪費。
因此,為了更高的性價比和計算速度,早期國內往往會購買英特爾和英偉達兩家美國廠商的成熟產品。
再之后異構計算進入超算中心的眼簾。事實上,最近幾年曾經在TOP500刷榜,或者排名靠前的超算都采用了異構計算——中國神威太湖之光、美國超算泰坦、中國天河1號和天河2號。
泰坦有18688個運算節(jié)點,每個運算節(jié)點由1個16核心AMD Opteron 6274處理器和1個英偉達 Tesla K20加速器組成,共計299008個運算核心,屬于CPU+GPU。
天河1號使用了14336片英特爾 Xeon X5670處理器和7168片英偉達 Tesla M2050高性能計算卡,屬于CPU+GPU?!?/p>
天河2號有16000個計算節(jié)點,每個節(jié)點由2片英特爾的E5 2692和3片Xeon PHI組成,共使用了32000片英特爾的E5 2692和48000片Xeon PHI,屬于CPU+眾核芯片。正在升級的天河2號則將美國的Xeon PHI換成了自主研發(fā)的矩陣2000,屬于CPU+DSP。
神威·太湖之光使用的sw26010將兩個部分的電路,集成到了一個芯片上(片上異構),這樣既避免了純CPU不擅長專業(yè)計算的劣勢,又避免了加速卡不能和CPU共享內存的問題。使得sw26010在設計團隊規(guī)模很小,制程落后整整兩代的情況,實現(xiàn)了和英特爾類似產品相似的功耗和性能。
太湖之光的成功,啟迪了后來日本的“富岳”超算?!案辉馈蓖瑯訏仐壛嗣绹墒斓挠嬎惴桨福徺IARMv8.2-A指令集開發(fā)管理核心,并自研專業(yè)計算模塊,推出了富士通版的片上異構芯片A64FX。
總結
我國在發(fā)展超算中心的途中,仍有許多問題。國產芯片研究起步較晚,CPU、GPU等超算核心芯片指令集架構領域仍然存在明顯短板,缺乏高端芯片制造能力。EDA和編程平臺長期面臨卡脖子風險,核心設備依賴進口,自主權和議價權仍由國外巨頭掌控。
目前來看,超級計算機的核心硬件CPU與GPU市場呈現(xiàn)馬太效應,CPU主要由Intel與AMD領跑,GPU市場由英偉達等國際巨頭掌握關鍵技術話語權。并且在美國的刻意制裁下,上榜超算大會TOP500的企業(yè),往往更容易被加入實體清單。
2019年6月,美國將江南計算技術研究所等列入實體清單;2021年4月8日,包括天津飛騰信息技術公司、上海集成電路技術與產業(yè)促進中心、Sunway Microelectronics、國家超級計算濟南中心、國家超級計算深圳中心、國家超級計算無錫中心以及國家超級計算鄭州中心被美國列入黑名單。
在重重壓力下,我國超算仍然保持著優(yōu)秀的成績。在今年的ISC 2022超級計算大會上,中國是超級計算機上榜數(shù)量最多的國家,以173臺的數(shù)量位列第一,占全球34.6%;排名第二的美國從上一期的150臺下降到127臺,占比25.6%;排名第三的日本則有33臺進入榜單,占比6.6%。
從2016年開始,我國超算進入TOP500榜單的數(shù)量,除了2017年6月稍下滑位居第二外,基本上就一直穩(wěn)定在世界第一的位置。這些成績的出現(xiàn),并非易事。
隨著我國高度重視超級計算機核心芯片自主國產化研究,國產x86架構CPU、DCU深度計算單元均已獲得一定的應用。
更多信息可以來這里獲取==>>電子技術應用-AET<<