超算是一個國家計算能力和經(jīng)濟實力的綜合較量,所以每年舉行的國際超算大會都是世界各國叫板超算能力的競技場。上周在德國法蘭克福召開的2019年國際超算大會(ISC 2019)上,公布了新一期的Top500榜單,中國以44%的份額高居第一,幾乎是排名第二的美國的兩倍。曙光這次在ISC上展出了其HPC產(chǎn)品——曙光新一代硅立方高性能計算機(以下簡稱硅立方),完成了該產(chǎn)品的歐洲“首秀”。該產(chǎn)品以高性能、高功率密度、高效冷卻而備受關(guān)注,單體功率即可達320kW,PUE低于1.04,在展會上備受關(guān)注。
目前,全球HPC發(fā)展面臨新的轉(zhuǎn)型,無論是在技術(shù)上還是發(fā)展方向上或是在服務(wù)模式上都蘊含新的變數(shù),曙光的“硅立方”創(chuàng)新有哪些可以復(fù)制的經(jīng)驗?曙光如何看到未來的HPC技術(shù)之變?未來的HPC將呈現(xiàn)哪些新的趨勢?就相關(guān)問題,日前《中國電子報》記者采訪了曙光公司總裁助理兼高性能計算產(chǎn)品事業(yè)部總經(jīng)理李斌。
全浸沒式相變液冷技術(shù)突破能耗困境
一個十萬億億次的超算中心能耗甚至相當(dāng)于一個小型核電站,國內(nèi)某超算中心的年耗電量約為2億度,電費超過1億元。如果未來計算力進一步提升到百億億次、千億億次,那么功耗就將是成為難以逾越的“墻”。曙光的硅立方采用什么思路來突破能耗的挑戰(zhàn)?這種液冷技術(shù)有沒有更大復(fù)制范圍?液冷對于攻克高性能計算機功耗問題有什么啟示?
李斌表示,高性能計算機或者通用的IT設(shè)備,它的冷卻技術(shù)和方案需要從三個維度進行設(shè)計:其一是制冷效率。如何高效把熱量快速的從IT設(shè)備帶走,這是要考慮的第一點。其二是節(jié)能性。把熱量帶出去之后,可能需要消耗額外的能耗。其三冷卻方案成本和維護,這個也需要考慮。
現(xiàn)在業(yè)界的基本技術(shù)路線是從傳統(tǒng)的風(fēng)冷散熱轉(zhuǎn)向液冷散熱。而液冷技術(shù)現(xiàn)在也分很多流派,有用冷板間接式的液冷,這個技術(shù)在國際上起步比較早,也比較成熟。曙光在這方面投入比較早,在2015年基本就實現(xiàn)了這個技術(shù)的量產(chǎn)?,F(xiàn)在從制冷散熱、效率、節(jié)能技術(shù)方向上有了更好的選擇,就是用浸沒式的液冷。在這個方向上有相變和非相變不同的技術(shù)方案,“相變”就是利用冷卻液的沸騰過程高效的帶走熱量。在浸沒的相變液冷方面,曙光應(yīng)該處于國際領(lǐng)先地位,浸沒式液冷的效率比冷板好,不過目前在浸沒液冷技術(shù)領(lǐng)域進行投入和突破的廠商并不多。李斌介紹。
既然浸沒式液冷的效率比冷板好,為什么采用這個方式的廠商并不多呢?李斌說:“其一是因為難度大。要實現(xiàn)浸沒相變冷卻有一系列的科學(xué)問題和工程問題需要解決。比如所有的元器件要進行浸泡,它的電信號等一系列就會有影響,這跟普通的風(fēng)冷有很大的差別,需要的不僅僅是物理學(xué),在化學(xué)、材料科學(xué)上都需要突破。其二是浸沒液冷的成本和維度難度大?!崩畋笸嘎?,曙光去年在美國的SC和今年德國ISC上都展示了新一代風(fēng)冷板的技術(shù)路線,這類產(chǎn)品在國際上也是非常領(lǐng)先的?,F(xiàn)在開始研發(fā)嘗試將液冷技術(shù)用在通用服務(wù)器上。
目前制冷、散熱效率其實已經(jīng)低近到了一個極限,設(shè)備的密度也做得非常高了,全年的冷卻PUE曙光可以降到1.04,但依然有很多維度的創(chuàng)新可以做。李斌表示,比如熱量利用的如此大的計算中心所產(chǎn)生的熱量、熱源,可以用作熱水源給大樓供暖,給游泳池加熱等,在未來,當(dāng)我們設(shè)計規(guī)劃計算中心就可以把整體的能耗和能源利用進行很好的結(jié)合。
高性能計算普及化服務(wù)化
計算正在向服務(wù)化、云化的方向發(fā)生變化,高性能發(fā)展也正在高性能計算機到高性能計算技術(shù)方向去演變。在這種背景之下,高性能計算機也在朝著通用化、普及化、平民化方向發(fā)展,HPC要實現(xiàn)平民化會從哪幾個維度會發(fā)生變化?
李斌表示,計算領(lǐng)域的大趨勢是走向融合,各種技術(shù)包括云計算、大數(shù)據(jù)、人工智能、高性能計算等界限正變得模糊。而高性能計算機的用途正在從科學(xué)計算、工程計算,向面向更多的社會服務(wù),包括數(shù)據(jù)處理、云化服務(wù)方向演變。
李斌進一步表示,這樣的融合更多的是從計算機設(shè)計方式或者管理運維的方式上進行區(qū)別。比如,傳統(tǒng)高性能計算機的業(yè)務(wù)支撐方式是批處理資源方式。而云的方式更強調(diào)彈性資源配置,大數(shù)據(jù)、人工智能可能面向不同業(yè)務(wù)的處理方式。從計算設(shè)備硬件來說沒有太大的本質(zhì)差別,更多能是在管理的方式上。現(xiàn)在我們在設(shè)計大型高性能計算機時,已經(jīng)考慮到這樣的資源管理和服務(wù)的方式,從而提供更加融合的技術(shù)來支撐。事實上,一個傳統(tǒng)的高性能計算機有足夠強的計算能力和存儲能力來支撐不同的業(yè)務(wù)類型,而現(xiàn)在的一些新技術(shù),本身也是以融合服務(wù)為前提,包括高性能計算機也都多分布式存儲,這樣當(dāng)我們在做大數(shù)據(jù)處理的時候,就可以實現(xiàn)對不同業(yè)務(wù)之間的融合。
人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等應(yīng)用需求現(xiàn)在發(fā)生很多的變化,這些變化,要求高性能計算技術(shù)有怎么樣調(diào)整才能應(yīng)用需求的變化呢?
李斌表示,高性能計算機所面對的需求在走向融合和多元化。原來的HPC過去更多的任務(wù)處理是偏向離線的,而現(xiàn)在更多的任務(wù)處理要從離線走向在線。走向在線,必不可少地要與物聯(lián)網(wǎng)相關(guān)的各種數(shù)據(jù)采集設(shè)備、科學(xué)裝置、儀器設(shè)備實現(xiàn)耦合。計算方式從過去的離線處理,走向更多的在線應(yīng)用場景,要走向在線必服務(wù)方式,與物聯(lián)網(wǎng)技術(shù)耦合就車給必須。這其中的變化有兩個關(guān)鍵趨勢,一是處理任務(wù)和業(yè)務(wù)類型的變化,二是與終端設(shè)備或者物聯(lián)網(wǎng)設(shè)備走向聯(lián)合。
增強能力加速國際化合作
李斌表示,目前國際上對高性能計算機的定位和方向、支撐服務(wù)和服務(wù)方式有了一些新共識,也蘊含著一些新的技術(shù)架構(gòu)的變化,同時國際上的競爭強度、熱度不斷增大。從走出去的角度看,曙光一方面是不斷增強實力,希望心無旁鶩的研發(fā),爭取在技術(shù)創(chuàng)新上有更大的技術(shù)突破,另一方面也在積極尋找合作的機會,增強海外的服務(wù)和運維能力。
在這次ISC上,許多來自美國、英國等國外合作伙伴以及展覽的參觀者都對硅立方給予了很高的評價。來自俄羅斯的RSC 的COO Alexey表示,曙光的超算已經(jīng)達到全球領(lǐng)先水平,我們非常愿意與曙光合作,為俄羅斯用戶提供先進的解決方案。