《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于多核DSP的MIMO雷達(dá)信號(hào)處理的實(shí)現(xiàn)
基于多核DSP的MIMO雷達(dá)信號(hào)處理的實(shí)現(xiàn)
2014年電子技術(shù)應(yīng)用第9期
龐 娜1,2,徐平江3
1.北京理工大學(xué) 信息與電子學(xué)院,北京100081;2.北京無線電測(cè)量研究所,北京100854;3.南瑞集團(tuán)通信與用電技術(shù)分公司,北京100192
摘要: 針對(duì)MIMO雷達(dá)多通道回波信號(hào)處理的同步性和實(shí)時(shí)性需求,在分析MIMO雷達(dá)信號(hào)處理的特點(diǎn)及多核DSP硬件結(jié)構(gòu)的基礎(chǔ)上,提出了一種基于多核處理器TMS320C6678的并行實(shí)現(xiàn)方法,并解決了使用過程中的諸多關(guān)鍵技術(shù)。該方法實(shí)現(xiàn)了多任務(wù)并行處理和高效通信。實(shí)驗(yàn)結(jié)果表明,該方法在較小規(guī)模的硬件平臺(tái)上實(shí)現(xiàn)了較低功耗且高實(shí)時(shí)性的應(yīng)用。
關(guān)鍵詞: 多核DSP MIMO雷達(dá) 并行處理
中圖分類號(hào): TN492
文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2014)09-0004-03
Implementation of MIMO radar signal processing based on multi-core DSP
Pang Na1,2,Xu Pingjiang3
1.School of Information and Electronic, Beijing Institute of Technology,Beijing 100081,China;2.Beijing Institute of Radio Measurement,Beijing 100854,China;3.Communications & Power Utilization Technology Subcompany,NARI Group Corporation,Beijing 100192,China
Abstract: In the view of the synchronization and real-time requirements of multi-channel echo in MIMO radar system, this paper proposes a method of parallel implementation based on multi-core DSP TMS320C6678 after analyzing characters of the MIMO radar signal processing and hardware structure of multi-core DSP. Many key techniques are solved in the process of design. This method implements task-level parallel processing and efficient communication. The experimental results show that the method realizes the application of low power consumption and high real-time in the use of smaller hardware platform.
Key words : multi-core DSP;MIMO radar;parallel processing

  MIMO雷達(dá)是近十年來發(fā)展起來的新體制雷達(dá),與普通相控陣?yán)走_(dá)相比,MIMO雷達(dá)具有低截獲概率、高速度分辨能力、高角分辨力、可同時(shí)識(shí)別多個(gè)目標(biāo)等優(yōu)點(diǎn)[1]。國(guó)內(nèi)外學(xué)者們?cè)贛IMO雷達(dá)技術(shù)的諸多方面進(jìn)行了深入而全面的理論研究,其中以美國(guó)麻省理工學(xué)院林肯實(shí)驗(yàn)室和貝爾實(shí)驗(yàn)室的研究尤為深入[1],但涉及工程實(shí)現(xiàn)方面的文獻(xiàn)很少。

  由于軟硬件發(fā)展水平的限制,MIMO雷達(dá)理論的研究領(lǐng)先于雷達(dá)系統(tǒng)的應(yīng)用[2],而普通的雷達(dá)信號(hào)處理機(jī)的設(shè)計(jì)相對(duì)比較成熟,這方面的文獻(xiàn)中實(shí)現(xiàn)的具體途徑主要有兩種方式,一種是基于FPGA+DSP的架構(gòu)[3-4],另一種是基于FPGA+PowerPC的架構(gòu)[5],以第一種的應(yīng)用為主流。MIMO雷達(dá)信號(hào)處理需要接收多個(gè)通道的數(shù)據(jù),在多波束采集后的雷達(dá)回波數(shù)據(jù)量非常大,實(shí)現(xiàn)多波束雷達(dá)回波數(shù)據(jù)信號(hào)處理的關(guān)鍵是并行同步和實(shí)時(shí)處理。近幾年來,DSP生產(chǎn)商紛紛采用多核架構(gòu)來滿足日益增長(zhǎng)的系統(tǒng)實(shí)時(shí)處理性能要求,實(shí)現(xiàn)更快速的數(shù)據(jù)信號(hào)處理。TI公司于2010年推出了基于KeyStone架構(gòu)的、集成了RISC和8核DSP的高性能信號(hào)處理器TMS-

  320C6678(簡(jiǎn)稱C6678),初始設(shè)計(jì)背景為圖像領(lǐng)域的應(yīng)用,現(xiàn)在已經(jīng)推廣到視頻處理、語音識(shí)別等領(lǐng)域[6-7]。

  本文以C6678為平臺(tái),研究了MIMO雷達(dá)信號(hào)處理的實(shí)現(xiàn)方法。首先,介紹了MIMO雷達(dá)信號(hào)處理的基本原理以及基于C6678多核芯片的系統(tǒng)架構(gòu)和編程開發(fā)特點(diǎn),并基于算法給出了并行實(shí)現(xiàn)中的關(guān)鍵技術(shù)及解決方法,然后給出實(shí)驗(yàn)評(píng)估并進(jìn)行了測(cè)試性能等方面的對(duì)比分析,最后得出基于多核DSP的MIMO雷達(dá)信號(hào)處理方法,實(shí)現(xiàn)了在降低成本和提高性能等方面的有效性。

1 MIMO雷達(dá)信號(hào)處理的原理

  本設(shè)計(jì)的MIMO雷達(dá)是基于正交波形雙基地集中式MIMO而構(gòu)建,發(fā)射端各子通道發(fā)射相互正交的信號(hào),形成低增益寬波束;對(duì)于接收端,為恢復(fù)出各個(gè)發(fā)射端子通道內(nèi)由單個(gè)發(fā)射信號(hào)形成的回波,需對(duì)每個(gè)發(fā)射波形進(jìn)行匹配濾波,再根據(jù)發(fā)射陣列的陣元布置,進(jìn)行接收端等效發(fā)射波束形成,最后進(jìn)行動(dòng)目標(biāo)檢測(cè)、點(diǎn)跡提取[8]。根據(jù)參考文獻(xiàn)[8]的分析,先DBF再匹配濾波處理的方式較先匹配濾波再DBF的方式更節(jié)約計(jì)算資源,因此本文采用了先進(jìn)行DBF再匹配濾波的處理方式,如圖1所示。

001.jpg

2 MIMO雷達(dá)信號(hào)處理的硬件架構(gòu)

  2.1 核心平臺(tái)介紹

  C6678是基于KeyStone構(gòu)架的高性能多核DSP,片內(nèi)集成了8個(gè)C66x處理器核,每個(gè)核都支持定點(diǎn)和浮點(diǎn)處理功能。其主要性能指標(biāo)是單核最高工作頻率1.25 GHz,基于C66x 定點(diǎn)/浮點(diǎn)處理器核,累計(jì)處理速率高達(dá)10 GHz,單核最高可達(dá)40 GMAC的定點(diǎn)計(jì)算能力和20 GFLOPS的浮點(diǎn)運(yùn)算能力;存儲(chǔ)器空間為每個(gè)核32 KB L1P、32 KB L1D、512 KB L2、4 096 KB多核共享存儲(chǔ)區(qū)MCSM、8 GB可尋址的DDR3存儲(chǔ)地址空間;在處理器內(nèi)部支持高效EDMA3傳輸方式,可在處理器內(nèi)部存儲(chǔ)空間L2、共享MCSM、外部DDR3之間進(jìn)行高效的數(shù)據(jù)傳輸;集成了x4 Serial RapidIO、x2 PCIe、x4 Hyperlink、x2 ethernet等眾多高速通信接口,允許與其他處理器節(jié)點(diǎn)進(jìn)行高效的數(shù)據(jù)交換;支持多種基于信號(hào)量的通信機(jī)制進(jìn)行核間通信[9]。C6678的多核結(jié)構(gòu)不僅縮小了硬件規(guī)模,而且還降低了整體功耗,其核間任務(wù)調(diào)度及高性能程序優(yōu)化器、8級(jí)并行流水指令集[10]等條件為實(shí)現(xiàn)并行信號(hào)處理算法提供了有效支撐。

  2.2 硬件架構(gòu)設(shè)計(jì)

  本文設(shè)計(jì)了基于VPX總線的數(shù)據(jù)采集板和信號(hào)處理板組成的信號(hào)處理系統(tǒng)平臺(tái),核心芯片均為C6678芯片。數(shù)據(jù)采集板集成了Xilinx Virtex-7系列的高性能FPGA和1片C6678,接口設(shè)計(jì)為光纖、網(wǎng)絡(luò)等多種方式,用于數(shù)據(jù)的接收和預(yù)處理。信號(hào)處理板采用8片C6678構(gòu)成計(jì)算密集型結(jié)構(gòu),用于完成MIMO多通道并行的信號(hào)處理算法。系統(tǒng)結(jié)構(gòu)示意圖如圖2所示。

002.jpg

3 算法的并行實(shí)現(xiàn)

  3.1 算法映射模型

  3.1.1 基本模型介紹

  應(yīng)用多核處理器的第一個(gè)步驟就是確定任務(wù)并行性,并選擇一種最合適的處理模型。兩個(gè)最主要的模型分別是主/從模型和數(shù)據(jù)流模型。主/從模型是集中控制,分布式執(zhí)行,主核負(fù)責(zé)把任務(wù)分配到其他核,從核之間沒有通信;數(shù)據(jù)流模型就是分布式控制和執(zhí)行,任務(wù)分級(jí)流水執(zhí)行,核之間有相互通信[10]。本系統(tǒng)采用了兩種方式結(jié)合的方式,其中各個(gè)板卡內(nèi)部采用了主/從處理模型,板卡之間采用了數(shù)據(jù)流模型。

  3.1.2 算法分割及映射

  本實(shí)驗(yàn)系統(tǒng)采用8個(gè)發(fā)射天線和8個(gè)接收天線分置的結(jié)構(gòu),接收波束為7個(gè)方位,發(fā)射波束為7個(gè)方位。數(shù)據(jù)量為4K點(diǎn),相干處理周期為8,動(dòng)目標(biāo)處理時(shí)的FFT點(diǎn)數(shù)為16,脈沖重復(fù)周期為2 ms。功能模塊實(shí)現(xiàn)接收波束形成、匹配濾波、等效發(fā)射波束形成、動(dòng)目標(biāo)處理、目標(biāo)搜索和目標(biāo)跟蹤的處理功能,進(jìn)而獲得目標(biāo)的距離、角度和速度信息。圖3為處理流程框圖。

003.jpg

  任務(wù)的分解是:Task A為公共數(shù)據(jù)收發(fā)和準(zhǔn)備及同步控制觸發(fā);Task B為數(shù)據(jù)格式的預(yù)處理及接收DBF;Task C為公共數(shù)據(jù)收發(fā)和準(zhǔn)備及同步控制觸發(fā);Task D為匹配濾波、發(fā)射DBF雜波抑制、相參積累、目標(biāo)搜索或者目標(biāo)跟蹤。

004.jpg

  具體的算法映射如圖4所示,數(shù)據(jù)采集板上DSP的所有核加載同樣的一個(gè)工程 ,完成Task A和Task B;信號(hào)處理板所有的核加載同樣的一個(gè)工程,完成Task C和Task D。數(shù)據(jù)流向是數(shù)據(jù)采集板的DSP0-Core0完成Task A,Core1~Core7 分別完成Task B,然后通過板間IPC把數(shù)據(jù)傳送到信號(hào)處理板的DSP0~DSP6,通過Task C之后進(jìn)行Task D,然后再把數(shù)據(jù)送回?cái)?shù)據(jù)采集板的Core0。

  3.2 關(guān)鍵技術(shù)及方法

  3.2.1 通信與同步

  在進(jìn)行接收DBF和發(fā)射DBF之前需要進(jìn)行多核同步。TI提供了多種成熟的IPC接口,本設(shè)計(jì)中采用了效率比較高的Notify Module 進(jìn)行同步。Core0循環(huán)接收外部傳輸過來的原始數(shù)據(jù)存儲(chǔ)到DDR3之中,每次接收到的數(shù)據(jù)分別向Core1~Core7發(fā)送一個(gè)Notify消息,Notify消息并不在多核之間進(jìn)行數(shù)據(jù)的拷貝,僅進(jìn)行共享內(nèi)存數(shù)據(jù)的所有權(quán)轉(zhuǎn)移,極大地節(jié)省了多核間通信的時(shí)間。每個(gè)Core的TaskB任務(wù)收到Notify消息后,直接從對(duì)應(yīng)的DDR3共享內(nèi)存地址中讀取數(shù)據(jù)即可。

  在板間傳輸數(shù)據(jù)需要進(jìn)行板間的通信和同步,TI沒有提供DSP節(jié)點(diǎn)之間的IPC,因此在本系統(tǒng)中自行開發(fā)了DSP間IPC。首先開發(fā)了RapidIO底層驅(qū)動(dòng),然后通過RapidIO接口進(jìn)行系統(tǒng)路由配置,之后完成IPC驅(qū)動(dòng)的搭建,它完成的功能是進(jìn)行DSP的DDR3之間的數(shù)據(jù)拷貝。

  3.2.2 核內(nèi)數(shù)據(jù)傳輸

  每個(gè)核內(nèi)部采用了DMA方式實(shí)現(xiàn)MCSM存儲(chǔ)區(qū)和DDR3之間的通信,這種方式傳輸速率比較穩(wěn)定。C6678處理器內(nèi)部集成了3個(gè)高速的EDMA控制器,允許在處理器內(nèi)部的存儲(chǔ)區(qū)之間進(jìn)行不需要處理器參與的高速數(shù)據(jù)傳遞。本信號(hào)處理算法中,每個(gè)核啟動(dòng)獨(dú)立的EDMA3傳輸通道分次將DDR3中的數(shù)據(jù)傳輸?shù)組CSM/L2中進(jìn)行計(jì)算,之后再將計(jì)算結(jié)果通過EDMA3傳輸通道從MCSM/L2傳輸給DDR3。

005.jpg

  L2、MCSM和DDR3之間的EDMA3通信性能在采用查詢方式下的測(cè)試結(jié)果如表1所示,測(cè)試結(jié)果為100個(gè)周期的平均值。

006.jpg

  3.2.3 高速緩存一致性考慮

  C6678處理器核設(shè)計(jì)了二級(jí)Cache。當(dāng)處理器核訪問內(nèi)存中的一段地址時(shí),存在兩種可能,即Cache命中或Cache缺失。Cache命中時(shí)處理器核可以快速直接從Cache中獲取內(nèi)存數(shù)據(jù)進(jìn)行處理。Cache缺失時(shí),處理器核就需要花費(fèi)較長(zhǎng)的時(shí)間先將數(shù)據(jù)從內(nèi)存調(diào)入到Cache中,再從Cache中獲取數(shù)據(jù)進(jìn)行處理。處理器的這種內(nèi)存訪問機(jī)制就帶來了Cache和內(nèi)存的數(shù)據(jù)一致性問題。在本信號(hào)處理算法中,Cache一致性問題發(fā)生在以下情況:(1)多處理器核對(duì)MCSM或DDR3中一段數(shù)據(jù)進(jìn)行共享訪問;(2)有EDMA3參與的對(duì)MCSM或DDR3中一段數(shù)據(jù)的訪問。當(dāng)發(fā)生此兩種情況時(shí),需要執(zhí)行Cache一致性操作,以確保數(shù)據(jù)訪問的正確性。

  3.2.4 基于平臺(tái)的算法優(yōu)化

  設(shè)計(jì)中除了采用了通常的代碼優(yōu)化準(zhǔn)則外,基于平臺(tái)的優(yōu)化主要包括以下幾個(gè)方面:數(shù)據(jù)存儲(chǔ)區(qū)采用兵乓結(jié)構(gòu),使得數(shù)據(jù)傳輸和算法計(jì)算可以同時(shí)進(jìn)行;算法模塊采用細(xì)粒度設(shè)計(jì),通過CCSV5提供的高性能編譯優(yōu)化參數(shù),并告訴編譯器更多關(guān)于數(shù)據(jù)的信息;使用內(nèi)聯(lián)指令做SIMD的處理;存儲(chǔ)區(qū)和Cache 優(yōu)化設(shè)計(jì)。這些優(yōu)化方法的綜合利用比不進(jìn)行優(yōu)化的效率提高達(dá)約50倍。

4 實(shí)驗(yàn)評(píng)估及分析

  ADSP-TS201S幾乎是ADI公司的最高性能信號(hào)處理器,也是當(dāng)前雷達(dá)信號(hào)處理領(lǐng)域主流的硬件平臺(tái)的核心,采用其搭建的平臺(tái)(1塊帶有4個(gè)DSP的預(yù)處理板,8塊帶有8個(gè)DSP的信號(hào)處理板)與TMS320C6678的搜索處理關(guān)鍵算法的測(cè)試性能對(duì)比如表2所示,測(cè)試結(jié)果為100個(gè)周期的平均值。首先是TMS320C6678降低了硬件規(guī)模從而降低了成本,其次提高了效率,還有就是共享存儲(chǔ)區(qū)的運(yùn)用減少了傳輸延遲。整體時(shí)間比為4.5:1。

  由實(shí)測(cè)結(jié)果可見,TMS320C6678平臺(tái)由于其高性能的多核處理方式,適合MIMO雷達(dá)信號(hào)處理這類需要同步進(jìn)行并且實(shí)時(shí)處理的場(chǎng)合應(yīng)用,但也應(yīng)注意到C6678的存儲(chǔ)區(qū)較小,對(duì)于大數(shù)量的使用(大于4K點(diǎn))可能達(dá)不到預(yù)期的加速比,還有待于進(jìn)一步驗(yàn)證。該MIMO雷達(dá)信號(hào)處理系統(tǒng)在工程樣機(jī)中運(yùn)行良好,通過小規(guī)模硬件系統(tǒng)和較低的功耗達(dá)到了信號(hào)實(shí)時(shí)處理和運(yùn)算快速準(zhǔn)確的要求。

  參考文獻(xiàn)

  [1] Li Jian.STOICA P.MIMO radar signal processing[M].John Wiley & Sons,Inc.,2009.

  [2] 陳浩文,黎湘,莊釗文.一種新興的雷達(dá)體制—MIMO雷達(dá)[J].電子學(xué)報(bào),2012,40(6):1190-1198.

  [3] 高廣坦.基于TS201平臺(tái)的雷達(dá)信號(hào)處理機(jī)設(shè)計(jì)[J].信息化研究,2010,36(11):17-19.

  [4] 周濱,謝曉霞,傅其祥,等.基于多DSP的高速通用并行處理系統(tǒng)研究與設(shè)計(jì)[J].電子設(shè)計(jì)工程,2012(17):175-178.

  [5] 史鴻聲.基于PowerPC的雷達(dá)通用處理機(jī)設(shè)計(jì)[J].雷達(dá)科學(xué)與技術(shù),2011,9(2):140-149.

  [6] 彭益智,霍家道,徐偉.一種基于TMS320C6678的JPEG編碼算法并行實(shí)現(xiàn)方法[J].指揮控制與仿真,2012,34(1):119-122.

  [7] 吉立新,劉偉偉,李邵梅.基于TMS320C6678的語種識(shí)別并行算法設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用,2012,38(10):37-40.

  [8] 葉勝輝.正交波形MIMO雷達(dá)技術(shù)及其在雙基地雷達(dá)中的應(yīng)用[D].成都:電子科技大學(xué),2006.

  [9] Texas Instrument.TMS320C6678 multicore fixed and floating-point digital signal processor[Z].2011.[10] Texas Instrument.Multicore programming guide[Z].2009.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。