國防科大研究計算機技術(shù)起步于50年代末,50多年來,國防科大在心酸和淚水、鮮花與掌聲交織之中,艱苦奮斗,自強不息,一步一個腳印地走出了從模仿到超越的旅程。
一、國防科大
國防科大是國防部和教育部雙重領(lǐng)導(dǎo)下的國家重點綜合性大學(xué),前身是1953年創(chuàng)建于黑龍江省的哈爾濱市軍事工程學(xué)院。1970年學(xué)校主體南遷長沙,改名為長沙工學(xué)院,1978年改建為國防科技大學(xué)。
國防科大現(xiàn)有10個學(xué)院,下設(shè)40多個系、所、實驗室,其中有國家重點實驗室4個、教育部重點實驗室1個,共有10個國家重點學(xué)科處于國內(nèi)領(lǐng)先水平。在 2007-2009年全國一級學(xué)科整體水平評估中,計算機科學(xué)與技術(shù)、信息與通信工程、系統(tǒng)科學(xué)、光學(xué)工程、管理科學(xué)與工程、航空宇航科學(xué)與技術(shù)等6個學(xué) 科進入前5名。
二、國防科大計算機學(xué)院
計算機學(xué)院起步于1958年,1966年成立全國第一個電子計算機 系,1971年擴建成計算機系兼研究所,1999年成立計算機學(xué)院。學(xué)院下設(shè)計算機科學(xué)與技術(shù)系、網(wǎng)絡(luò)工程系、計算機研究所、軟件研究所、微電子與微處理 器研究所、網(wǎng)絡(luò)與信息安全研究所、并行與分布處理國家重點實驗室和銀河計算機工廠。
計算機學(xué)院是研制國產(chǎn)計算機的老牌單位,在陳賡大將 任哈軍工校長期間,就開始著手計算機研發(fā)。在上世紀(jì)60-70年代,先后研發(fā)出安裝有分時操作系統(tǒng)和匯編語言、FORTRAN語言及標(biāo)準(zhǔn)程序庫的441B 系列計算機,該型計算機在軟件和硬件方面實現(xiàn)全部國產(chǎn)化,共生產(chǎn)100余臺,在科研和教學(xué)領(lǐng)域穩(wěn)定運行10年以上。
在80年代后又先后研發(fā)了銀河系列、天河系列超級計算機, 技術(shù)底蘊深厚。共獲部委級三等獎以上科技進步獎500多項,其中國防科技成果特等獎1項、國家發(fā)明二等獎1項、國家科技進步一等獎6項、二等獎13項、部 委級科技進步一等獎82項、二等獎151項。在國家5次教學(xué)成果評獎中,學(xué)院獲得特等獎1次,一等獎2次,二等獎1次。"計算機體系結(jié)構(gòu)"、"軟件工 程"、"編譯原理"、"計算機網(wǎng)絡(luò)"、"計算機原理"和"操作系統(tǒng)"6門課程被評為"國家級精品課程"。《計算機前沿領(lǐng)域的研究》獲全國圖書一等獎,《編 譯原理》獲國家優(yōu)秀教材一等獎,《并行算法》獲第七屆中國圖書獎。
三、善于"借鑒"的國防科大
因80年代迷信"造不如買、買不如租"、"市場換技術(shù)"等理論,國防科大放棄了自主芯片的研發(fā)轉(zhuǎn)而大量外購國外芯片。
在80、90年代,國防科大的銀河1、銀河2、銀河3超算都沒有中國芯。
因此,研發(fā)自己的CPU就成為國防科大的一項緊迫任務(wù)。相對于從零開始自主研發(fā),"借鑒"國外的產(chǎn)品,將技術(shù)消化吸收后,站在巨人的肩膀上顯然擁有更高 的研發(fā)效率,而且國防科大科研任務(wù)多、時間緊、任務(wù)重、資金少、科研力量有限,當(dāng)年在不考慮商業(yè)應(yīng)用,主攻軍用和超算領(lǐng)域的情況下,飛騰"借鑒"國外產(chǎn)品 自然成為國防科大計算機學(xué)院的必然選擇。
之后,國防科大和一直深耕Mips和Alpha并擴展了指令集,建設(shè)自主體系的龍芯和申威不同,飛騰一直沒有一條很明確的技術(shù)路線,先后仿制過德儀、INTEL、SUN等公司的產(chǎn)品,前后產(chǎn)品基本沒有多大延續(xù)性。
飛騰這種路線雖然在發(fā)展初期占優(yōu)勢,并能較短的時間內(nèi)拿出性能不錯的芯片,還能鍛煉一批技術(shù)人才,但是因為缺乏技術(shù)延續(xù)性和技術(shù)積累,很容易導(dǎo)致后勁不足和難以構(gòu)建自己的生態(tài)體系。
舉例來說,國防科大先后仿制過德州儀器的DSP、Intel的 安騰和Pentium MMX,在imagine基礎(chǔ)上研制過流處理器,仿制過UltraSPARC T2,也有自主研發(fā)的飛騰ARM處理器和矩陣2000(DSP),先后換了X86、Epic(VLIW)、SPARC、ARM四個指令集,雖然這些產(chǎn)品都 屬于銀河飛騰系列,但是彼此之間完全沒有什么關(guān)系。
(天河1號)
四、飛騰(Sparc)與天河2號
飛騰(Sparc)有飛騰1000和飛騰1500兩款產(chǎn)品。Sun在被甲骨文收購前將UltraSPARC T2開源,國防科大遂對其進行仿制和改良,成功研發(fā)出飛騰1000和飛騰1500兩款產(chǎn)品,并用于天河超算中作為計算節(jié)點前端處理器。
飛騰1000為65nm工藝制造,八核64線程,晶體管數(shù)目達到3.5億個。芯片主頻800MHz-1GHz,擁有3個HTT直連總線接口,4個獨立的DDR3內(nèi)存通道,帶寬達到32GB/s,8個PCIE 2.0通道。
飛騰1500是對飛騰1000的改進升級,是一款40nm的16和芯片,主頻也提升到1.8G,最大功耗65W,雙精浮點144G。
據(jù)統(tǒng)計,天河1號使用了2048片飛騰1000作為計算節(jié)點前端處理器,天河2號使用了4096片飛騰1500作為計算節(jié)點前端處理器。
相對于天河2大量采用的Intel芯片,為天河2號55Pflops超強運算能力打下堅實基礎(chǔ)的架構(gòu)設(shè)計--高效異構(gòu)協(xié)同計算技術(shù)、高效易用的用戶編程環(huán)境、網(wǎng)絡(luò)連接等方面技術(shù)能力才更值得我們關(guān)注。
四、飛騰(ARM)
自2012年開始,飛騰選擇加入ARM陣營,雖然在發(fā)展權(quán)上會受制于ARM,還要花費不菲的ARM指令集授權(quán)費,但也有可以兼容AA體系的軟件生態(tài)上的優(yōu)勢。
目前,飛騰(ARM)有"火星"和"地球"2款產(chǎn)品。
"地球"是一款4核CPU,微結(jié)構(gòu)是國防科大自主研發(fā)的"小米",是一款桌面CPU。"火星"的微結(jié)構(gòu)也是"小米","火星"擁有64核心,主頻達 2G,制程工藝28nm,功耗120W,理論浮點計算能力是512G,擁有32M二級緩存、128M三級緩存和16通道內(nèi)存,205G/s理論內(nèi)存帶寬。 芯片上還有32個PCIe 3.0通道。
雖然"火星"單核性能較弱,但依靠核心數(shù)量優(yōu)勢,在Spec 2006跑分中,多核整數(shù)分?jǐn)?shù)達672,浮點分?jǐn)?shù)585,足以和Xeon E5-2699v3相媲美。
當(dāng)然,目前的"小米"還無法與Intel的 ivy、haswel相比,即使和龍芯GS464E也有一定差距。但在ARM陣營中,根據(jù)Spec 2006測試成績,單核性能是強于ARM的A57的。在功耗方面和高通810做參照的話,28nm制程,2G主頻功耗僅僅2W不到,顯然比同樣2G主 頻,20nm的A57功耗要小不少。
因此,"小米"顯然是一個優(yōu)于ARM公版設(shè)計的微結(jié)構(gòu)。
國防科大雖然有很強的技 術(shù)研發(fā)能力,但公關(guān)營銷、市場推廣能力遠(yuǎn)不能和海思、展訊相提并論。想要在ARM陣營立足,10%-20%的性能優(yōu)勢沒有太多意義,市場營銷能力強弱、芯 片搭載平臺穩(wěn)定性和平臺的數(shù)量等因素才是關(guān)鍵。畢竟,用ARM公版微結(jié)構(gòu)照樣能在市場上大賣。
國防科大真要想將自主研發(fā)的微結(jié)構(gòu)推廣出去,親自上陣賣芯片顯然是以己之短,攻敵之長。正途是和展訊、海思等購買ARM微結(jié)構(gòu)的IC設(shè)計公司加強合作,向展訊、海思推銷國防科大研發(fā)的IP核,使其能集成到展訊、海思的SOC中去。
五、GPU
國內(nèi)做GPU的有兩家公司,一家是兆芯,技術(shù)源自被VIA收購的美國S3公司;另一家是和國防科大有很深淵源的景嘉微電子(當(dāng)然,十有八九是國防科大的馬甲)。
景嘉微電子是國家火炬計劃重點高新技術(shù)企業(yè),和國防科大有很深的淵源。公司位于長沙,公司的三位創(chuàng)始人都畢業(yè)于國防科大,而且最初的一批骨干成員也大多 來自國防科大。目前有員工300余人,共申請國家發(fā)明專利83項,其中已授權(quán)專利33項。產(chǎn)品涵蓋芯片設(shè)計、板卡、整機和小型系統(tǒng)等,神舟飛船、軍用戰(zhàn)機 等都曾搭載有景嘉微的產(chǎn)品。
2014年,景嘉微年產(chǎn)值超過2億元,凈利潤達7600余萬元,目前最好的產(chǎn)品是JM5400。雖然性能有限,但性能參數(shù)和已公開的資料怎么看都像軍用GPU。
軍用GPU更看重穩(wěn)定性和可靠性,性能較弱。因此,就不多介紹了。
下圖為景嘉微的發(fā)展計劃。一般這樣的小公司三年以后的計劃基本可以無視,但景嘉微的背景使本人對它多了幾分期待。另外,景嘉微和龍芯是合作伙伴,5年后,沒準(zhǔn)市場上會出現(xiàn)龍芯CPU或飛騰CPU+景嘉微GPU的組合。
六、天河2A和矩陣2000
在ISC 2015發(fā)布會上,國防科大公布了天河2A升級方案,用矩陣2000(DSP)替換被美國政府禁售的PHI。
DSP是數(shù)字信號處理器,廣泛用于雷達、移動通訊、衛(wèi)星導(dǎo)航、高清電視、網(wǎng)絡(luò)攝像、可視電話、數(shù)碼相機、圖像與指紋識別、網(wǎng)絡(luò)控制、數(shù)字硬盤等領(lǐng)域。
國防科大在DSP方面有較深厚的技術(shù)積累。國防科大早在2004年就研發(fā)過一款嵌入式數(shù)字信號處理器YHFT-Q,該處理器用130nm工藝制造,主頻 350MHz,雙精浮點11.2Gflops,功耗2.99W。今年發(fā)布的矩陣2000采用40nm制程工藝,擁有16核,主頻1G,雙精浮點2.4T, 功耗為200W。
根據(jù)國防科大公布的資料,因保留了天河2號的主體I/O結(jié)構(gòu),計算節(jié)點處理器依舊使用E5-2692 V2,計算節(jié)點增加到18000個,按照一個計算節(jié)點需要2個E5和3個加速器來計算,天河2A需要36000片E5和54000片矩陣2000,僅 54000片矩陣2000的理論浮點峰值就可以達到129.6Pflops。
在美國對華禁售用于超算的至強PHI后,國防科大接連對外發(fā)布足以替代E5的"火星"和可以替代至強PHI的矩陣2000,既是向美國禁售至強PHI的亮劍,也是公開了天河超算將來的發(fā)展方向--矩陣2000替代PHI,走GPDSP路線,創(chuàng)建超算GPDSP體系。
甚至在不遠(yuǎn)的將來,不排除會用"火星"或者"火星"的下一代產(chǎn)品替代E5,實現(xiàn)天河超算軟件和硬件的全面國產(chǎn)化。
走GPDSP路線的難點不是芯片,而是軟件堆棧--包括GPDPS驅(qū)動程序、操作系統(tǒng)、編譯器、數(shù)學(xué)庫等,這是一項工程量巨大的工作。
祝國防科大好運!
七、小結(jié)
相比于龍芯中科和總參56所,國防科大計算機學(xué)院就少了幾分定力和毅力。在技術(shù)路線上存在朝令夕改、朝秦暮楚的問題,客觀上使飛騰沒能像龍芯、申威那樣走出一條自己的路埋下了伏筆。
白璧微瑕,瑕不掩瑜。國防科大計算機學(xué)院技術(shù)成就可謂碩果累累,本文介紹的關(guān)于飛騰、天河超算、GPU僅為冰山一角。
自進入21世紀(jì)以來,國防科大以"借鑒"國外先進產(chǎn)品為突破口,學(xué)習(xí)技術(shù)、積攢內(nèi)功,并在擁有一定技術(shù)實力后設(shè)計出了"火星"和矩陣2000等擁有自主 知識產(chǎn)權(quán)的產(chǎn)品,在學(xué)習(xí)借鑒用GPU和眾核處理器做加速器后,在超算領(lǐng)域探索出GPDSP道路,實現(xiàn)了從模仿到自主創(chuàng)新的飛躍。