周末最大的科技新聞,應該是美國超級計算機重奪世界第一,速度超過了中國“神威”60%。
筆者也正好借此機會向公眾介紹一下超級計算機領域激烈的中美競爭。而且這應該是真正最完整和最通俗的解讀了。
【美國已經(jīng)落后甚至被甩開了5年】
這將是自2013年6月以來,美國首次登上超級計算機的榜首,當時它被中國廣州的天河二號奪去了第一名。到2016年,中國無錫的神威-太湖之光,又以3倍的優(yōu)勢大幅度刷新記錄,繼續(xù)為中國把持著榜單首位。
在上一輪,也就是去年年底的全球超級計算機TOP500排行上,美國的最高排位已經(jīng)被瑞士和日本擠到了第五位。
而在TOP500總榜單中,中國系統(tǒng)總數(shù)為202臺,占比超過四成位居第一。美國只剩143臺。中國在總體算力上也超過了美國。在TOP500的總算力中,中國占了35.4%,美國只有29.6%。
再往下的國家數(shù)字就很少了,日本35臺,德國20臺,法國18臺,英國15臺……這就是當今全球頂尖科技與商業(yè)的競逐寫照:只有中美兩個大玩家。
【請不要再用人手去類比了——G的十億級領域】
在進一步介紹之前,很有必要科普衡量現(xiàn)代計算機性能的基本專業(yè)參數(shù)——每秒浮點運算次數(shù)(英文縮寫:FLOPS)。否則,一味地還在采用“相當于全球70億人手按多少百億年計算器”,實在既不直觀,也難比較。
從鼻祖ENIAC的300 FLOPS開始,計算機開始了指數(shù)化發(fā)展的歷程。在英文詞匯與縮寫里,K是千,10的3次方;M是百萬,10的6次方;G是十億,10的9次方,以此進位。
在超級計算機(簡稱超算)首次被中國媒體報道的80年代中期,超級計算機的速度是1 GFLOPS量級,也就是每秒十億次浮點運算。
1983年中國造出第一臺銀河一號巨型計算機,每秒運算一億次以上,也就是0.1GFLOPS。而當年全球最快的美國克雷,則是八億次,也就是0.8GFLOPS。
放在今天,這性能大概連塊電子表都不如。
【千倍性能的超算,過十幾年就還不如個人玩具——T的萬億級領域】
十五年后,到了90年代末期,個人電腦上的CPU開始出現(xiàn)1 GFLOPS的能力,而此時全球最快的超級計算機,性能已達到了1 TFLOPS以上——T是一萬億,10的12次方。
因此個人電腦與同時代專業(yè)超算的差距,是1000倍。
而再過十五年,2014年的個人電腦CPU就有0.6 TFLOPS的能力,現(xiàn)在2018年的頂級手機CPU,也具備了同樣的水準。
絕大部分人都不會意識到,手上小小的智能手機,竟然堪比20年前極其龐大笨重的全球最強超算,而且體積重量也縮小了1000倍。
否則,還怎么玩微信、刷視頻、打游戲,以及實時美顏?那都是以接近T級的計算能力,實時算出來的!
信息科技的指數(shù)化發(fā)展,創(chuàng)造了無與倫比的爆炸式進步,也推動了無法想象的社會形態(tài)變革。
所以TFLOPS(萬億),才應該是討論現(xiàn)代計算機的起點。否則,數(shù)據(jù)后面所列的〇和億太多,實在超出了普通人的理解力和想象力,也脫離當下的發(fā)展現(xiàn)實。
【同樣的,專業(yè)超算要保持比個人玩具強1000倍——P的千萬億級領域】
而主要用于游戲的顯卡,由于幾百個運算單元并行處理的特性,性能增長還高出一個數(shù)量級。
以目前市場上最熱銷、最主流的NVIDIA GTX 1060游戲顯卡為例,它的成品價格是2000多元人民幣,游戲單精度計算能力是4.4 TFLOPS,比傳統(tǒng)CPU高了約10倍。
再往上,目前NVIDIA最新的頂級顯卡Titan V達到了15 TFLOPS,是GTX 1060的三倍多,當然,售價也達到了兩萬多元。
而當TFLOPS再增長1000倍,就是PFLOPS(千萬億)。這才是當今專業(yè)超算的能力范疇——實際1個PFLOPS能力的超算,在去年底的榜單上,能排在全球183位。
【美國怎么奪回冠軍的:等了整整3年】
為了奪回被中國占據(jù)的最快超算王座,早在2015年,IBM和NVIDIA就接下了美國政府的訂單,要為掌管研制核武器的美國能源部所屬的橡樹嶺國家實驗室、勞倫斯利福摩爾國家實驗室,分別打造20億億次和15億億次,也就是200 FLOPS和150 PFLOPS的超算。
兩臺超算分別命名為Summit和Sierra,總耗資約3.8億美元。但一直要到2017年底,兩家公司研制出相關核心芯片之后,才能轉(zhuǎn)換為工程現(xiàn)實。
橡樹嶺國家實驗室名為“頂點”(Summit)的超算,使用了4608個計算服務器節(jié)點,每個節(jié)點含有2個IBM的Power 9處理器(CPU)和6個NVIDIA(英偉達)公司生產(chǎn)的Tesla V100圖形處理單元加速器(GPU),以及512 GB的DDR4 內(nèi)存。采用效率更高的水冷散熱。
NVIDIA的Tesla V100,采用臺積電12納米工藝制造,集成了210億個晶體管,外圍是32 GB內(nèi)存。每個售價9000美元。
Tesla V100和民用頂級顯卡Titan V同為Volta 架構(gòu),但考慮穩(wěn)定性頻率略低,理論計算能力為單精度14 TFLOPS,但科學計算都用雙精度模式,為7 TFLOPS。
GPU接管了大部分的工作負載,但CPU仍然是數(shù)據(jù)處理的中心。IBM的POWER9,采用格羅方德(原AMD的制造部分)的14納米工藝制造,集成了擁有80億個晶體管。具有24核96個線程,實際使用22核。每顆售價6000美元起。
這樣,單個節(jié)點擁有6塊雙精度7 TFLOPS的V100,理論計算能力就超過42 TFLOPS。4608個節(jié)點合起來,就是20萬個TFLOPS,200個PFLOPS——用中文說就是20億億次。
這相當于個人電腦中高端游戲顯卡的9萬倍,主流CPU的90萬倍。也比美國目前排名世界第五的的最強系統(tǒng)‘泰坦’(Titan)強8倍。
當然,比起個人電腦,一要解決大規(guī)模集成與互聯(lián)并行計算,二要解決超大數(shù)據(jù)量吞吐與節(jié)點間交換,三要追求更高的效率和更高的功耗比,這就需要最先進的配件。
【只花了2億美元?背后是幾十億美元的研制經(jīng)費】
單算比例分攤,Summit的造價的確是2億美元出頭,看似并不多,在中國也就能修一公里多地鐵,在美國連毛都不算。
但是,光TESLA V100及其背后的Volta 架構(gòu),就凝聚了Nvidia 7000 多名工程師超過3 年的研發(fā),投入資金達30 億美元。IBM的Power 9以及總體架構(gòu)設計也要花差不多同樣的錢。
IBM的女CEO羅睿蘭(Ginni Rometty)表示:“這是我們最大的成就之一,它是最快、最智能的超級計算機?!?/p>
美國能源部長里克?佩里自豪地表示:“Summit的發(fā)布體現(xiàn)了美國在科學創(chuàng)新和技術(shù)開發(fā)方面的領導實力。它將對能源研究、科學發(fā)現(xiàn)、經(jīng)濟競爭力和國家安全有深遠影響。”
【憋了5年美國超算重新超越中國,但也許只能秀半年】
另外,Summit的理論總計算能力是200 PFLOPS,也就是20億億次。但實測的真實計算能力還未公布,因為理論加總的總和本無法全部兌現(xiàn)。
中國的神威-太湖之光,理論能力125 PFLOPS,實測對兌現(xiàn)了93 PFLOPS,效率近75%,已經(jīng)是很高的記錄了。
美國之前排名第三、全球第七,能源部洛斯阿拉莫斯國家實驗室的Trinity,實測效率不到32%??梢娤到y(tǒng)架構(gòu)設計有問題。
美國雖然能借Summit 重回超算榜首地位,但這個寶座恐怕坐不了多久,根據(jù)中國最新的進展,恐怕到年底,中國超算就有望重新取而代之。
想必,中國超算的最新進展及其應用場景,才是廣大讀者真正更關心的話題。請待下篇。