周末最大的科技新聞,應(yīng)該是美國(guó)超級(jí)計(jì)算機(jī)重奪世界第一,速度超過(guò)了中國(guó)“神威”60%。
筆者也正好借此機(jī)會(huì)向公眾介紹一下超級(jí)計(jì)算機(jī)領(lǐng)域激烈的中美競(jìng)爭(zhēng)。而且這應(yīng)該是真正最完整和最通俗的解讀了。
【美國(guó)已經(jīng)落后甚至被甩開(kāi)了5年】
這將是自2013年6月以來(lái),美國(guó)首次登上超級(jí)計(jì)算機(jī)的榜首,當(dāng)時(shí)它被中國(guó)廣州的天河二號(hào)奪去了第一名。到2016年,中國(guó)無(wú)錫的神威-太湖之光,又以3倍的優(yōu)勢(shì)大幅度刷新記錄,繼續(xù)為中國(guó)把持著榜單首位。
在上一輪,也就是去年年底的全球超級(jí)計(jì)算機(jī)TOP500排行上,美國(guó)的最高排位已經(jīng)被瑞士和日本擠到了第五位。
而在TOP500總榜單中,中國(guó)系統(tǒng)總數(shù)為202臺(tái),占比超過(guò)四成位居第一。美國(guó)只剩143臺(tái)。中國(guó)在總體算力上也超過(guò)了美國(guó)。在TOP500的總算力中,中國(guó)占了35.4%,美國(guó)只有29.6%。
再往下的國(guó)家數(shù)字就很少了,日本35臺(tái),德國(guó)20臺(tái),法國(guó)18臺(tái),英國(guó)15臺(tái)……這就是當(dāng)今全球頂尖科技與商業(yè)的競(jìng)逐寫(xiě)照:只有中美兩個(gè)大玩家。
【請(qǐng)不要再用人手去類(lèi)比了——G的十億級(jí)領(lǐng)域】
在進(jìn)一步介紹之前,很有必要科普衡量現(xiàn)代計(jì)算機(jī)性能的基本專(zhuān)業(yè)參數(shù)——每秒浮點(diǎn)運(yùn)算次數(shù)(英文縮寫(xiě):FLOPS)。否則,一味地還在采用“相當(dāng)于全球70億人手按多少百億年計(jì)算器”,實(shí)在既不直觀(guān),也難比較。
從鼻祖ENIAC的300 FLOPS開(kāi)始,計(jì)算機(jī)開(kāi)始了指數(shù)化發(fā)展的歷程。在英文詞匯與縮寫(xiě)里,K是千,10的3次方;M是百萬(wàn),10的6次方;G是十億,10的9次方,以此進(jìn)位。
在超級(jí)計(jì)算機(jī)(簡(jiǎn)稱(chēng)超算)首次被中國(guó)媒體報(bào)道的80年代中期,超級(jí)計(jì)算機(jī)的速度是1 GFLOPS量級(jí),也就是每秒十億次浮點(diǎn)運(yùn)算。
1983年中國(guó)造出第一臺(tái)銀河一號(hào)巨型計(jì)算機(jī),每秒運(yùn)算一億次以上,也就是0.1GFLOPS。而當(dāng)年全球最快的美國(guó)克雷,則是八億次,也就是0.8GFLOPS。
放在今天,這性能大概連塊電子表都不如。
【千倍性能的超算,過(guò)十幾年就還不如個(gè)人玩具——T的萬(wàn)億級(jí)領(lǐng)域】
十五年后,到了90年代末期,個(gè)人電腦上的CPU開(kāi)始出現(xiàn)1 GFLOPS的能力,而此時(shí)全球最快的超級(jí)計(jì)算機(jī),性能已達(dá)到了1 TFLOPS以上——T是一萬(wàn)億,10的12次方。
因此個(gè)人電腦與同時(shí)代專(zhuān)業(yè)超算的差距,是1000倍。
而再過(guò)十五年,2014年的個(gè)人電腦CPU就有0.6 TFLOPS的能力,現(xiàn)在2018年的頂級(jí)手機(jī)CPU,也具備了同樣的水準(zhǔn)。
絕大部分人都不會(huì)意識(shí)到,手上小小的智能手機(jī),竟然堪比20年前極其龐大笨重的全球最強(qiáng)超算,而且體積重量也縮小了1000倍。
否則,還怎么玩微信、刷視頻、打游戲,以及實(shí)時(shí)美顏?那都是以接近T級(jí)的計(jì)算能力,實(shí)時(shí)算出來(lái)的!
信息科技的指數(shù)化發(fā)展,創(chuàng)造了無(wú)與倫比的爆炸式進(jìn)步,也推動(dòng)了無(wú)法想象的社會(huì)形態(tài)變革。
所以TFLOPS(萬(wàn)億),才應(yīng)該是討論現(xiàn)代計(jì)算機(jī)的起點(diǎn)。否則,數(shù)據(jù)后面所列的〇和億太多,實(shí)在超出了普通人的理解力和想象力,也脫離當(dāng)下的發(fā)展現(xiàn)實(shí)。
【同樣的,專(zhuān)業(yè)超算要保持比個(gè)人玩具強(qiáng)1000倍——P的千萬(wàn)億級(jí)領(lǐng)域】
而主要用于游戲的顯卡,由于幾百個(gè)運(yùn)算單元并行處理的特性,性能增長(zhǎng)還高出一個(gè)數(shù)量級(jí)。
以目前市場(chǎng)上最熱銷(xiāo)、最主流的NVIDIA GTX 1060游戲顯卡為例,它的成品價(jià)格是2000多元人民幣,游戲單精度計(jì)算能力是4.4 TFLOPS,比傳統(tǒng)CPU高了約10倍。
再往上,目前NVIDIA最新的頂級(jí)顯卡Titan V達(dá)到了15 TFLOPS,是GTX 1060的三倍多,當(dāng)然,售價(jià)也達(dá)到了兩萬(wàn)多元。
而當(dāng)TFLOPS再增長(zhǎng)1000倍,就是PFLOPS(千萬(wàn)億)。這才是當(dāng)今專(zhuān)業(yè)超算的能力范疇——實(shí)際1個(gè)PFLOPS能力的超算,在去年底的榜單上,能排在全球183位。
【美國(guó)怎么奪回冠軍的:等了整整3年】
為了奪回被中國(guó)占據(jù)的最快超算王座,早在2015年,IBM和NVIDIA就接下了美國(guó)政府的訂單,要為掌管研制核武器的美國(guó)能源部所屬的橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室、勞倫斯利福摩爾國(guó)家實(shí)驗(yàn)室,分別打造20億億次和15億億次,也就是200 FLOPS和150 PFLOPS的超算。
兩臺(tái)超算分別命名為Summit和Sierra,總耗資約3.8億美元。但一直要到2017年底,兩家公司研制出相關(guān)核心芯片之后,才能轉(zhuǎn)換為工程現(xiàn)實(shí)。
橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室名為“頂點(diǎn)”(Summit)的超算,使用了4608個(gè)計(jì)算服務(wù)器節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)含有2個(gè)IBM的Power 9處理器(CPU)和6個(gè)NVIDIA(英偉達(dá))公司生產(chǎn)的Tesla V100圖形處理單元加速器(GPU),以及512 GB的DDR4 內(nèi)存。采用效率更高的水冷散熱。
NVIDIA的Tesla V100,采用臺(tái)積電12納米工藝制造,集成了210億個(gè)晶體管,外圍是32 GB內(nèi)存。每個(gè)售價(jià)9000美元。
Tesla V100和民用頂級(jí)顯卡Titan V同為Volta 架構(gòu),但考慮穩(wěn)定性頻率略低,理論計(jì)算能力為單精度14 TFLOPS,但科學(xué)計(jì)算都用雙精度模式,為7 TFLOPS。
GPU接管了大部分的工作負(fù)載,但CPU仍然是數(shù)據(jù)處理的中心。IBM的POWER9,采用格羅方德(原AMD的制造部分)的14納米工藝制造,集成了擁有80億個(gè)晶體管。具有24核96個(gè)線(xiàn)程,實(shí)際使用22核。每顆售價(jià)6000美元起。
這樣,單個(gè)節(jié)點(diǎn)擁有6塊雙精度7 TFLOPS的V100,理論計(jì)算能力就超過(guò)42 TFLOPS。4608個(gè)節(jié)點(diǎn)合起來(lái),就是20萬(wàn)個(gè)TFLOPS,200個(gè)PFLOPS——用中文說(shuō)就是20億億次。
這相當(dāng)于個(gè)人電腦中高端游戲顯卡的9萬(wàn)倍,主流CPU的90萬(wàn)倍。也比美國(guó)目前排名世界第五的的最強(qiáng)系統(tǒng)‘泰坦’(Titan)強(qiáng)8倍。
當(dāng)然,比起個(gè)人電腦,一要解決大規(guī)模集成與互聯(lián)并行計(jì)算,二要解決超大數(shù)據(jù)量吞吐與節(jié)點(diǎn)間交換,三要追求更高的效率和更高的功耗比,這就需要最先進(jìn)的配件。
【只花了2億美元?背后是幾十億美元的研制經(jīng)費(fèi)】
單算比例分?jǐn)?,Summit的造價(jià)的確是2億美元出頭,看似并不多,在中國(guó)也就能修一公里多地鐵,在美國(guó)連毛都不算。
但是,光TESLA V100及其背后的Volta 架構(gòu),就凝聚了Nvidia 7000 多名工程師超過(guò)3 年的研發(fā),投入資金達(dá)30 億美元。IBM的Power 9以及總體架構(gòu)設(shè)計(jì)也要花差不多同樣的錢(qián)。
IBM的女CEO羅睿蘭(Ginni Rometty)表示:“這是我們最大的成就之一,它是最快、最智能的超級(jí)計(jì)算機(jī)?!?/p>
美國(guó)能源部長(zhǎng)里克?佩里自豪地表示:“Summit的發(fā)布體現(xiàn)了美國(guó)在科學(xué)創(chuàng)新和技術(shù)開(kāi)發(fā)方面的領(lǐng)導(dǎo)實(shí)力。它將對(duì)能源研究、科學(xué)發(fā)現(xiàn)、經(jīng)濟(jì)競(jìng)爭(zhēng)力和國(guó)家安全有深遠(yuǎn)影響?!?/p>
【憋了5年美國(guó)超算重新超越中國(guó),但也許只能秀半年】
另外,Summit的理論總計(jì)算能力是200 PFLOPS,也就是20億億次。但實(shí)測(cè)的真實(shí)計(jì)算能力還未公布,因?yàn)槔碚摷涌偟目偤捅緹o(wú)法全部?jī)冬F(xiàn)。
中國(guó)的神威-太湖之光,理論能力125 PFLOPS,實(shí)測(cè)對(duì)兌現(xiàn)了93 PFLOPS,效率近75%,已經(jīng)是很高的記錄了。
美國(guó)之前排名第三、全球第七,能源部洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室的Trinity,實(shí)測(cè)效率不到32%??梢?jiàn)系統(tǒng)架構(gòu)設(shè)計(jì)有問(wèn)題。
美國(guó)雖然能借Summit 重回超算榜首地位,但這個(gè)寶座恐怕坐不了多久,根據(jù)中國(guó)最新的進(jìn)展,恐怕到年底,中國(guó)超算就有望重新取而代之。
想必,中國(guó)超算的最新進(jìn)展及其應(yīng)用場(chǎng)景,才是廣大讀者真正更關(guān)心的話(huà)題。請(qǐng)待下篇。