123,123,123

E级超算样机要来了

日期： 2017-01-22

關(guān)鍵詞： 高性能超级计算机半导体互联网

從天河二號到神威太湖之光，中國多次登頂世界超算500強，無愧于超算大國之名，而在向超算強國蛻變的路上，中國再次有了突破性的進展，在不久的將來，或能摘下超算領(lǐng)域的“下一頂皇冠”——E級超算。近日，據(jù)媒體報道，2016年天津超算中心同國防科技大學(xué)合作，啟動了新一代百億億次超級計算機樣機系統(tǒng)的研制，目前已經(jīng)取得了階段性成果，預(yù)計2017年底能夠研制成功。

天津市人大代表、天津超算中心應(yīng)用研發(fā)工程師張婷出席本月17日舉行的天津市第十六屆人大六次會議時，介紹了有關(guān)新一代百億億次超級計算機一些信息。

據(jù)國家并行計算機工程技術(shù)研究中心此前透露，該中心牽頭的“E級高性能計算機原型系統(tǒng)”研制項目正式啟動，目標(biāo)10倍于目前世界最高水平。這標(biāo)志著包括核心處理器在內(nèi)的全國產(chǎn)化百億億次超級計算機步入實際研發(fā)階段。

張婷介紹說，新一代百億億次超級計算機預(yù)計2020年研制成功并建成投用，它的計算能力將是目前中國首臺千萬億次超級計算機“天河一號”的200倍。

除了在計算能力上的拓展，更重要的是技術(shù)的突破，它在計算密度、單塊計算芯片計算能力、內(nèi)部數(shù)據(jù)通信速率等方面都將得到極大提升，而且，它將是國內(nèi)自主化率最高的超算，包括自主芯片、自主操作系統(tǒng)、自主運行計算環(huán)境等。

張婷表示，新一代百億億次超級計算機研制成功后，將依托超級計算平臺，開展高性能計算、云計算、大數(shù)據(jù)等方面的綜合應(yīng)用，在支持國家科技創(chuàng)新、支持區(qū)域產(chǎn)業(yè)服務(wù)等方面開展新的應(yīng)用創(chuàng)新。

超算領(lǐng)域的有力競爭者

全球超級計算機500強排行榜主要編撰人之一、美國勞倫斯伯克利國家實驗室副主任霍斯特·西蒙曾說，中國在高性能計算領(lǐng)域已經(jīng)取得巨大進步，正成長為全球超算舞臺上的有力競爭者。

西蒙說，超算對科學(xué)、經(jīng)濟與軍事等多個領(lǐng)域具有重要意義，自2000年以來中國在超算技術(shù)方面大力投資，現(xiàn)在中國在這個領(lǐng)域已經(jīng)到達“一個非常、非常、非常有競爭力的階段”。

但西蒙并不認(rèn)為中國已經(jīng)成為超算強國。他說，超算是一個整體生態(tài)系統(tǒng)，它包括硬件、軟件、應(yīng)用以及培訓(xùn)下一代科學(xué)家等，此外大學(xué)、研究機構(gòu)和企業(yè)也應(yīng)積極參與其中，但要同時做到這些不同方面非常困難。中國在努力去做美國可能花了20年做的事情，希望能在較短時間內(nèi)完成這些工作，但“我認(rèn)為中國還是需要稍微長一點的時間。從這個意義上說，中國仍然還有一系列事情需要去完成”。

中國在超算應(yīng)用上的進展讓西蒙印象深刻。他回憶說，2010年“天河一號”在超算500強榜單上奪冠時，這個超算系統(tǒng)距應(yīng)用還有很長的距離；但去年6月“神威·太湖之光”登頂榜單時，中方就介紹了好幾個應(yīng)用，這些應(yīng)用都很棒，而且中國科學(xué)家現(xiàn)在也以更快的速度學(xué)會怎樣使用這個系統(tǒng)。

“我認(rèn)為已經(jīng)有了很明顯的進展，”西蒙說，“中國可能還有一些其他的不足，但很顯然，考慮到硬件有了、應(yīng)用有了、基礎(chǔ)設(shè)施有了，有很多支持，中國在使用超算上已經(jīng)取得巨大進步?！?/p>

西蒙認(rèn)為，中國超算發(fā)展不僅僅是超算自身的事，還關(guān)系到中國半導(dǎo)體行業(yè)的發(fā)展。中國每年進口的芯片數(shù)額巨大，存在巨大的半導(dǎo)體貿(mào)易赤字，所以中國發(fā)展超算是減少這種赤字的“一個很好的深思熟慮的”戰(zhàn)略的一部分。

“中國進口了大量半導(dǎo)體（指芯片），而今天半導(dǎo)體在所有地方都有應(yīng)用，尤其在空間領(lǐng)域和汽車行業(yè)。物聯(lián)網(wǎng)也是到處需要芯片，所以中國要發(fā)展高端生產(chǎn)，顯然需要在半導(dǎo)體方面大量投資，以取得更大的國內(nèi)生產(chǎn)份額。我認(rèn)為這是一個大問題。超算只是整個戰(zhàn)略的一部分，”他說。

搶灘E級超算

“神威·太湖之光”成為世界最快超級計算機后，美國、日本、歐洲等國先后制定了自己的E級超算研發(fā)計劃，并將相應(yīng)計劃的完成時間表設(shè)定在了2020—2022年。中國也將百億億次超級計算機及相關(guān)技術(shù)的研究寫入了國家“十三五”規(guī)劃，同時也希望在2020年左右實現(xiàn)。

不過，百億億次超級計算機的建造難度并不僅僅在于速度的提升。中科院計算所研究員、中國計算機學(xué)會高性能計算專委會秘書長張云泉介紹說，研發(fā)E級超算實際上面臨著編程墻、功耗墻、可靠性墻和存儲墻幾個“大墻”的圍堵，如何越過這幾堵墻，面臨很大的挑戰(zhàn)。

在“神威·太湖之光”以自主芯片和操作系統(tǒng)獲得接近十億億次的計算速度之后，中國看到了自主研發(fā)E級超算的希望和曙光。在國家“十三五”高性能計算專項課題中，我國公示出了三個分別由中科曙光、國防科技大學(xué)以及江南計算技術(shù)研究所牽頭的E級超算的原型系統(tǒng)研制項目。

為何研制？

這既是很多人的問題，也是超級計算機發(fā)展面臨的矛盾。超級計算機性能不斷提升，但由于能耗越來越大，而應(yīng)用范圍卻并沒有相應(yīng)擴大。

“超級計算機在高性能與通用性方面一直存在矛盾?！敝锌圃涸菏坷顕苁鞘锕夤镜拈_創(chuàng)者之一，研制了我國第一臺對稱式結(jié)構(gòu)計算機——曙光一號。

曙光公司總裁歷軍說，超級計算機在性能不斷提升的同時，面對著存儲、可靠性、能耗、擴展性以及應(yīng)用創(chuàng)新等問題。在每秒10億次計算能力的時候，超級計算機主要是用于工程計算或者科學(xué)計算，但是到了百億億次計算能力時，已經(jīng)很難有一個題目需要這么大的規(guī)模，傳統(tǒng)的科學(xué)計算領(lǐng)域已經(jīng)很難找到這樣的題目了。

“所以超級計算機未來向何處發(fā)展是擺在我們面前最最重要的挑戰(zhàn)。在E級應(yīng)用創(chuàng)新方面，我們希望把傳統(tǒng)的超級計算機的應(yīng)用向云服務(wù)和數(shù)據(jù)處理去延伸。”歷軍介紹，在這些方面曙光公司已經(jīng)做了大量工作。未來最新的E級超級計算機的應(yīng)用可能來自于云計算、云服務(wù)，來自于大規(guī)模的數(shù)據(jù)處理。

“對于E級計算機來說，應(yīng)用是最大的挑戰(zhàn)。”曙光公司副總裁邵宗有一言以蔽之，“如果超級計算機技術(shù)不能在市場上獲得應(yīng)有的回報，這個市場會萎縮，研發(fā)投入就會萎縮?！?/p>

生命科學(xué)、流體空氣力學(xué)、仿真、氣象、氣候、環(huán)境等是超級計算機傳統(tǒng)的幾大應(yīng)用，而超級計算機如何與云計算、大數(shù)據(jù)、人工智能相結(jié)合是新的發(fā)展方向。

中科院計算所研究員，中國計算機學(xué)會高性能計算專委會秘書長張云泉指出，E級超算可以應(yīng)對一些具有重大計算的需求，如全球氣候變化模擬、天體物理大數(shù)據(jù)的處理、模擬宇宙的演化、模擬新型材料及核武器等。同時，除了科學(xué)計算，它也將在深度學(xué)習(xí)、大數(shù)據(jù)、云計算等領(lǐng)域發(fā)揮重大價值，幫助提高人們對各領(lǐng)域日益劇增的海量數(shù)據(jù)處理利用的能力，并從中發(fā)現(xiàn)新事物、新規(guī)律和新機會。因此，E級超算具有極高的科學(xué)、社會、經(jīng)濟和產(chǎn)業(yè)生態(tài)價值。

人才儲備漸多

一直以來，高性能方面的人才培養(yǎng)都是國內(nèi)教育的一大難題，而培養(yǎng)之后的人才也非常容易流失。聯(lián)想集團首席科學(xué)家祝明發(fā)博士認(rèn)為：高性能人才培養(yǎng)主要是兩個方面，一個是學(xué)校，另一個是需要應(yīng)用渠道，因為就業(yè)就需要高性能事業(yè)本身的發(fā)展。

高性能計算和高性能計算機不是一個概念，大部分都是高性能計算化學(xué)、材料科學(xué)，這方面的人才培養(yǎng)不僅是計算機專業(yè)，還有物理、數(shù)學(xué)、材料科學(xué)、地理勘探等等，他們這些專業(yè)都要學(xué)習(xí)高性能計算機知識，還要學(xué)習(xí)高性能計算機的軟件編程以及并行算法。這些完全是靠應(yīng)用來驅(qū)動，各個學(xué)校、各個單位都是非常重視。

另外就是高性能計算機本身的硬件和系統(tǒng)軟件，系統(tǒng)軟件方面的人才培養(yǎng)一定要是通過高性能計算機的研制和生產(chǎn)。高性能計算機現(xiàn)在規(guī)模已經(jīng)很大了，這方面人才培養(yǎng)就是很多的高性能計算機科研項目和國家項目。這些專項對于支持高性能計算機軟硬件的研發(fā)就直接推動了人才的培養(yǎng)，因為科研項目首先是推動研究生、博士生和碩士生，另外就是一些學(xué)校已經(jīng)對本科生開設(shè)高性能計算課程。

在九十年代初，國內(nèi)高性能計算產(chǎn)業(yè)沒有起來，很多人才都去了硅谷或者紐約，但是現(xiàn)在的情況已經(jīng)完全不一樣了，因為國內(nèi)不管是產(chǎn)業(yè)規(guī)模還是應(yīng)用規(guī)模都起來了，需要大量的人才，這個行業(yè)目前的待遇也不算太低，所以還是對人才有很大的吸引力。

附超級計算機的性能指標(biāo)及高性能計算簡史

超級計算機的性能指標(biāo)

Top500 排行榜

幾十年來，超算性能的定義等同于計算速度，以flops衡量。Top500以運行LINPACK基準(zhǔn)測試所能達到的最高性能Rmax（單位：Tflops）對500個超算系統(tǒng)進行排名。排行榜同時提供很多有用的信息，包括制造商、地點、核數(shù)、網(wǎng)絡(luò)互連技術(shù)等。表1為2016年6月排行榜前10的超算，其中Rpeak（單位：Tflops）代表理論峰值速度。

10臺超算中，中國的超級計算機位居前兩位。其中2013年7月發(fā)布的天河二號，已經(jīng)在此之前連續(xù)6 次以33.86Pflops的運行速度排行榜首。其他4臺在美國，日本、瑞士、德國和沙特阿拉伯各有1臺。

Green500 排行榜

在持續(xù)幾十年的運行速度的競賽中，建造和能耗的預(yù)算并不在考慮之中，但從業(yè)者逐漸發(fā)現(xiàn)超級計算機正面臨著能耗過高的限制。2007年，側(cè)重于超算能效的Green500排行榜開始發(fā)布。用電效率Mflops/W，即每W 功率可以支持多少Mflops的運行速度。最近，Green500和Top500宣布合并使用同樣的提交規(guī)則來標(biāo)準(zhǔn)化能耗測量標(biāo)準(zhǔn)。相關(guān)的說明文檔詳細規(guī)定了能耗測量所需要考量的因素，并設(shè)定了由低到高3種測量品質(zhì)。這對提交的數(shù)據(jù)提出了更高的要求，以保證最后能效排名的準(zhǔn)確性。同時Green500和Top500依然是不同網(wǎng)站上獨立的兩個排行榜。

表2為2016年1月Green500榜單前10位系統(tǒng)，出人意料的是，Green500上大多數(shù)高排名的超算沒有在Top500的前列出現(xiàn)。通常節(jié)能型的超級計算機是在給定的能耗限制下仔細設(shè)計建造的，以求達到可能的最高能效。通常這些機器規(guī)模較小，能耗只有幾萬瓦。制造同時擁有頂尖計算速度和高能效的大規(guī)模超級計算機依然是一項具有挑戰(zhàn)的任務(wù)。

Graph500 排行榜

Top500排行榜采用LINPACK基準(zhǔn)測試超級計算機在解稠密線性方程組時的性能。然而對于超算系統(tǒng)在包括數(shù)據(jù)密集型應(yīng)用在內(nèi)的許多其他應(yīng)用中，Top500并沒有提供有用的信息。2010年，一個小組開始著手研究大數(shù)據(jù)應(yīng)用方面的新的性能基準(zhǔn)，并在當(dāng)年發(fā)布了Graph500。該基準(zhǔn)用于衡量超算通信子系統(tǒng)的性能，它測量的是在一個大型無向圖上執(zhí)行廣度優(yōu)先算法時，每秒遍歷邊緣的數(shù)量，單位為Gteps（每秒10億遍歷邊緣數(shù)）。

該基準(zhǔn)包括一個可擴展的數(shù)據(jù)生成器，可以生成包含所有邊起點和終點邊的數(shù)組。第一個核心進程生成一個無向圖，其格式能夠被接下來所有的核心進程所用。此后不允許任何改動，以防止某些核心進程會因此獲益。第二個核心進程則是對生成的圖執(zhí)行廣度優(yōu)先算法。兩個進程都進行計時。根據(jù)輸入規(guī)格大小分成6個問題類型：從最小1010字節(jié)的“toy”到1015字節(jié)的“huge”。

Graph500還是一個非常年輕的項目。最新的排行榜只列出了211 臺超算，離真正500 有一段距離。大多數(shù)Graph500的小規(guī)模超算并沒有出現(xiàn)在Top500上。大約70％的Graph500超算系統(tǒng)來自美國和日本（表3）。

高性能計算簡史

高性能計算技術(shù)源于現(xiàn)代計算機工業(yè)。20世紀(jì)40年代到60年代，可以稱為第一代超級計算機時代。第一代超級計算機的出現(xiàn)源于軍方的需要。二戰(zhàn)期間，需要手工計算彈道。1943年到1946年間，美國第一代計算機ENIAC應(yīng)運而生。其間，納粹Enigma密碼機的破譯極大歸功于英國的Bombe和Colossus計算機。二戰(zhàn)以后，美蘇兩大陣營冷戰(zhàn)，核武研制、飛機潛水艇設(shè)計、情報收集處理和代碼破譯的需求驅(qū)使計算機朝更強的超級計算能力發(fā)展。

1964年，CDC公司的CDC6600具備了每秒50萬次浮點運算的能力，第一次被冠以“超級計算機”的名稱。1975年到1990年，超算進入了所謂“克雷時代”。1972年Seymour Cray成立了自己的專事超算設(shè)計制造的公司。Cray 1采用了標(biāo)量和向量處理器，80 MHz時鐘，133Mflops。發(fā)展到1982年、1988年的Cray X-MP和Cray Y-MP分別達到105MHz和167MHz，采用2、4或8個向量處理器，計算峰值達200Mflops和333Mflops。

20世紀(jì)80年代，超級計算機的設(shè)計主要得益于兩個架構(gòu)，一是向量處理器，二是共享內(nèi)存的胖節(jié)點。1990年到2010年間，超算進入了集群時代。隨著Unix和Linux服務(wù)器的普及，超算進入了真正有效的并行計算時代，此時胖節(jié)點的小型機遇到了內(nèi)存瓶頸。以太網(wǎng)和高速網(wǎng)絡(luò)的出現(xiàn)使得其后出現(xiàn)的將單臺服務(wù)器通過網(wǎng)絡(luò)互連的分布式內(nèi)存計算大行其道。1994年，NASA的唐納德·貝克和湯姆斯特林用個人計算機和以太網(wǎng)硬件搭建了第一個計算集群，將16臺英特爾486DX臺式機用10Mb以太網(wǎng)連接起來，起名為Beowulf集群，用當(dāng)時的5萬美金成本搭建了1Gflops的超算系統(tǒng)，這是現(xiàn)在Top500中占最大份額的高性能計算集群的源頭。

從2000年到現(xiàn)在，高性能計算進入了采用GPGPU加速器的異構(gòu)計算時代。21世紀(jì)初，由于處理器的發(fā)展進入了多核到眾核的時代，使得計算機群呈現(xiàn)了混合集群模式。

隨著大數(shù)據(jù)和人工智能技術(shù)在互聯(lián)網(wǎng)、自動駕駛、機器人等領(lǐng)域的回暖，新的對計算和數(shù)據(jù)遷移的壓力，使得異構(gòu)混合集群更成為高性能計算的主流架構(gòu)。深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和量子計算的引進成為新趨勢。從計算的角度，當(dāng)前高性能計算技術(shù)的階段，可以總結(jié)為一句話：“計算近乎免費，而數(shù)據(jù)移動是昂貴的。”中國自己的超算發(fā)展，也沿襲了一條從小型向量機到混合異構(gòu)計算集群的發(fā)展道路。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

E级超算样机要来了

日期： 2017-01-22

相關(guān)內(nèi)容