文獻標識號: A
DOI:10.16157/j.issn.0258-7998.2017.01.013
中文引用格式: 宋立國,胡承秀,亓洪亮. 面向SAR雷達信號處理的異構多核SoC研究[J].電子技術應用,2017,43(1):50-52,56.
英文引用格式: Song Liguo,Hu Chengxiu,Qi Hongliang. Heterogeneous multi-core SoC architecture exploration of SAR radar digital system[J].Application of Electronic Technique,2017,43(1):50-52,56.
0 引言
合成孔徑雷達(SAR)作為一種全天時、全天候的有源主動式微波成像系統(tǒng),以其優(yōu)越的二維高分辨率特性,在國防、地質(zhì)、自然資源勘探與監(jiān)測、地形繪測、災害估計等領域中已經(jīng)得到了日益廣泛的應用。SAR的搭載平臺也從機載到星載,向著更高的太空發(fā)展。日本、加拿大、美國以及俄羅斯都陸續(xù)展開星載SAR成像技術的研究。
星載SAR系統(tǒng)結構如圖1所示。傳統(tǒng)的SAR 成像處理需要將原始回波數(shù)據(jù)記錄下傳至地面站進行, 采用原始SAR數(shù)據(jù)壓縮算法,即分塊自適應量化(BAQ),但SAR原始數(shù)據(jù)熵值很高,無損壓縮算法壓縮比太低,這不僅要求雷達衛(wèi)星具有高帶寬的下行數(shù)據(jù)鏈路,而且還受到衛(wèi)星過頂時間的限制?,F(xiàn)在普遍希望在星上完成原始數(shù)據(jù)的處理,只將處理結果下傳,但SAR系統(tǒng)龐大的數(shù)據(jù)量以及高實時性要求高性能信號處理器。
TS201是ADI公司TigerSHARC系列處理器,具有非常強的運算能力,在雷達陣列信號處理中,TS201應用非常廣泛。SAR處理系統(tǒng)中,普遍采用多顆TS201共同完成信號處理,文獻[1]中機載SAR系統(tǒng)采用12顆TS201,文獻[2]無人機SAR系統(tǒng)采用8顆TS201,文獻[3]星載SAR系統(tǒng)采用16顆TS201。利用幾十片TS201搭建星載SAR雷達系統(tǒng),無論從功耗、可靠性、重量、體積等方面都將很難滿足星上處理的要求。同時,在研制過程中,由于系統(tǒng)采用多片DSP器件,系統(tǒng)過于復雜,調(diào)試困難。
1 異構多核SoC
隨著處理器設計技術的進步,單核SoC邁向多核SoC,以提供更加強大的計算能力,如csx600[4],Tile-Gx36[5],QorIQT4080[6]。由于SAR雷達信號處理中計算密集型應用的多樣性和復雜性,使得多核異構成為面向這類復雜應用的片上系統(tǒng)首選方案。異構多核SoC優(yōu)勢是將結構、功能、功耗、運算性能各不相同的多個處理器集成在芯片上,并通過任務分工和劃分,將不同的任務分配給不同的處理單元,讓每個處理單元處理自己擅長的任務,這種多核異構的組織方式執(zhí)行任務更有效率,實現(xiàn)了資源的最佳化配置,而且降低了整體功耗。同時,芯片上各個處理器還可以動態(tài)地改變可重構資源之間的互連關系,控制數(shù)據(jù)流的流動,進一步提高運算的數(shù)據(jù)吞吐率。
1.1 異構多核SoC系統(tǒng)結構
異構多核SoC(MPSoC)是北京微電子技術研究所在成功研制出32位高可靠微處理器后,開發(fā)的一款高性能異構多核嵌入式數(shù)字信號處理器。
多核處理器芯片內(nèi)部主要由一個兼容SPARC V8的主控制器和16個DSP引擎組成。12個DSP引擎包括8個兼容SPARC V8的精簡處理器和4個可重構浮點蝶形運算加速單元RBE、4個可重構矢量加速單元RAE。芯片中DSP引擎按照2維網(wǎng)格結構規(guī)則排列,形成并行的處理單元陣列,由高速片上互連總線鏈接,主控制器和16個DSP引擎能夠同時并行運行。其整體結構如圖2所示。
芯片采用片上網(wǎng)絡結構,所有的單元和模塊與具有自主知識產(chǎn)權的片上網(wǎng)絡總線(SANOC-BUS)相連接。SANOC-BUS呈規(guī)則的二維網(wǎng)格結構,連接有存儲器模塊(RAM)、PE、RAE、RBE、LINK、只讀存儲器(ROM,存儲旋轉因子)和64位SDRAM存儲器接口。
在片上網(wǎng)絡系統(tǒng)中,各模塊主要功能為:
(1)PE, 哈佛結構DSP核,由整數(shù)單元(IU)、FPU、內(nèi)部存儲器和總線接口4部分組成。
(2)RBE單元采用配置計算領域中可重構的概念,根據(jù)不同的配置指令,RBE執(zhí)行單精度浮點蝶形運算、乘累加運算、復數(shù)乘和求模等不同的運算,支持數(shù)據(jù)流處理。
(3)RAE以流處理的方式加速大量數(shù)據(jù)的規(guī)則運算,此單元采用配置計算領域中可重構的概念,根據(jù)不同的配置指令,RAE執(zhí)行矢量字節(jié)加減運算、矢量字節(jié)乘累加等不同的運算,支持數(shù)據(jù)流處理。
(4)LINK模塊功能與TS201的LINK模塊功能兼容,支持與RAM模塊和SDRAM之間DMA傳遞。
(5)RAM中的數(shù)據(jù)既能夠被主控制器和PE讀寫,支持RAM模塊之間、RAM模塊和SDRAM之間DMA傳遞。
1.2 片上網(wǎng)絡總線設計
片上網(wǎng)絡SANOC_BUS由5層相同的總線系統(tǒng)組成,每層總線系統(tǒng)采用2維網(wǎng)格結構,包括4條水平線和4條垂直線。如圖3所示,這5層總線系統(tǒng)分別命名為:L_P2M、L_I2M、L_P2P、L_DMA、L_CMD,負責傳輸不同的數(shù)據(jù)包,規(guī)定如下:
(1)L_P2M:負責為處理單元PE對存儲器的訪問傳遞信息;
(2)L_I2M:負責為link接口和SDRAM接口對存儲器的訪問傳遞信息;
(3)L_P2P:負責在處理單元PE間相互訪問傳遞信息;
(4)L_DMA:負責處理單元PE和存儲器之間的快速DMA數(shù)據(jù)傳遞;
(5)L_CMD:負責傳遞主控制器和處理單元PE針對控制寄存器組和狀態(tài)寄存器組的訪問。
上圖中,在每層總線上,水平線和垂直線的交叉點在此層2維網(wǎng)格平面中擁有唯一的坐標。規(guī)定坐標原點定義為網(wǎng)格的左上角,坐標以(x,y)方式表示,x軸方向向右,y軸方向向下。
每層總線內(nèi)部存在兩種傳遞模式:動態(tài)傳遞和靜態(tài)傳遞。
(1)動態(tài)傳遞
對于動態(tài)傳遞,不需要任何設置,芯片硬件自動完成數(shù)據(jù)包的打包和解析。在多核內(nèi)部總線中,所有的數(shù)據(jù)傳遞按照X-Y蟲蠕維序動態(tài)的方式進行傳遞。在傳遞數(shù)據(jù)時,不需要預先規(guī)劃好單獨的路徑,數(shù)據(jù)在觸發(fā)傳遞時自動加入包頭信息,在傳遞過程中依靠路由結點內(nèi)部仲裁機制自動尋找路徑的總線。動態(tài)傳遞為分時復用,交叉結點間的傳遞通道在不同時刻傳遞不同的數(shù)據(jù)包,這些數(shù)據(jù)包的源和目的允許不同。
動態(tài)總線數(shù)據(jù)傳遞包頭格式定義如圖4所示。
在路由單元中,仲裁邏輯規(guī)定為:在沒有到達目的坐標時,按照XY蟲蠕維序路由機制傳遞;在到達目的坐標后,傳遞到位于此坐標處的DSP引擎。
(2)靜態(tài)傳遞
靜態(tài)傳遞功能,目的是快速處理規(guī)則的流運算。數(shù)據(jù)流在靜態(tài)傳遞過程中,具有唯一確定的源坐標地址和目的坐標地址,并且傳遞通道完全被源和目的間的數(shù)據(jù)傳遞所獨占。在應用靜態(tài)傳遞時,需要設置目的地址和所占用的總線層,占用總線層一旦設定,就不能夠再傳遞其它動態(tài)數(shù)據(jù)包。靜態(tài)傳遞數(shù)據(jù)包包頭格式如圖5所示。
靜態(tài)傳遞功能對總線具有獨占性,數(shù)據(jù)流在整個傳遞過程中,僅利用一個數(shù)據(jù)包頭標志??偩€中進行靜態(tài)傳遞的路徑只被單一的處理單元或存儲器發(fā)出的數(shù)據(jù)所占用,其它處理單元若也想采用靜態(tài)傳遞的方式傳遞數(shù)據(jù),只能為其規(guī)劃一條單獨的數(shù)據(jù)傳遞通道。
靜態(tài)傳遞包頭格式如圖5所示,“目的坐標”,“預路由坐標”,“傳遞層號”需要預先設置。
“預路由坐標”的功能描述如下:雖然依靠X-Y路由機制,數(shù)據(jù)包能夠主動找到目的地址,但在靜態(tài)傳遞數(shù)據(jù)時,每個數(shù)據(jù)包都會很長,由于對數(shù)據(jù)傳遞通道具有獨占性,可能會阻礙其它靜態(tài)數(shù)據(jù)包的傳遞,為此,增加“預路由坐標”參數(shù)設計。數(shù)據(jù)包首先按照“預路由坐標”傳遞,先按照X軸參數(shù)傳遞,再按照Y軸參數(shù)傳遞;當“預路由坐標”參數(shù)傳遞完后,再按照X-Y路由機制達到目的坐標。
2 異構多核SoC的應用
2.1 性能比較
在SAR雷達信號處理中,對FFT算法的處理速度是評價多核處理器性能非常重要和關鍵的指標。表1為多核處理器與目前比較常用的數(shù)字信號處理器(DSP)快速處理32 K點單精度浮點FFT運算性能比較。
多種不同可重構加速處理單元結合在一起,發(fā)揮各自的優(yōu)勢:主控制器發(fā)揮靈活的控制功能;RSIC架構的PE適合非規(guī)則數(shù)據(jù)處理,可重配置的RBE/RAE適合數(shù)據(jù)流處理。不同功能單元相互獨立,每個單元的功能劃分相對單一,把運算、存儲、控制、調(diào)度等功能分散在不同的功能單元中實現(xiàn),降低系統(tǒng)功耗,降低了每個處理單元的復雜度,改善了系統(tǒng)的可實現(xiàn)性。
2.2 SAR算法處理
圖6為利用ERS-2衛(wèi)星數(shù)據(jù)處理結果。圖6(a)中方框中圍起來的部分為北京西邊官廳水庫的遙感圖像,圖6(b)為SAR雷達數(shù)據(jù)經(jīng)過CS算法處理的結果。
3 結論
異構多核SoC具備高性能、高可靠性、擴展能力強、低功耗的特點,主要面向雷達信號處理,星載圖像處理等高數(shù)據(jù)吞吐率、計算密集型的應用領域,也可用于對可靠性要求非常高的多任務實時控制系統(tǒng)。SoC內(nèi)采用多層二維網(wǎng)格總線結構,每一層總線傳遞各自特定的信息包,互不干擾,片內(nèi)總線帶寬非常高,不會成為影響性能的瓶頸,能夠在此基礎上開發(fā)面向各種應用的異構多核SoC。
參考文獻
[1] 蔣留兵,車俐.新一代通用機載雷達信號處理機的實現(xiàn)[J].電子設計工程,2009(5):79-81.
[2] 郝慧軍.無人機載SAR實時信號處理設計及實現(xiàn)[J].科技視界,2015(26):7-8.
[3] 朱木.同步軌道SAR實時成像算法研究[D].哈爾濱:哈爾濱工業(yè)大學,2014.
[4] YUAN M,BAKER J W.Scalable and efficient associative processor solution to guarantee real time requirements for air traffic control systems[M].2012 IEEE 26th international parallel and distributed processing symposium p1688-1695.
[5] http://www.tilera.com/pdf/productbrief.
[6] 飛思卡爾推出基于Layerscape架構的全新QorIQ系列多核處理器[J].單片機與嵌入式系統(tǒng)應用,2014(5):77-77.
作者信息:
宋立國1,胡承秀2,亓洪亮1
(1.北京微電子技術研究所,北京100076;2.北京宇航系統(tǒng)工程研究所,北京100076)