123,123,123

基于多核DSP的MIMO雷达信号处理的实现

2014年电子技术应用第9期

庞娜1，2，徐平江3

1.北京理工大学信息与电子学院，北京100081；2.北京无线电测量研究所，北京100854；3.南瑞集团通信与用电技术分公司，北京100192

摘要： 针对MIMO雷达多通道回波信号处理的同步性和实时性需求，在分析MIMO雷达信号处理的特点及多核DSP硬件结构的基础上，提出了一种基于多核处理器TMS320C6678的并行实现方法，并解决了使用过程中的诸多关键技术。该方法实现了多任务并行处理和高效通信。实验结果表明，该方法在较小规模的硬件平台上实现了较低功耗且高实时性的应用。

關(guān)鍵詞： 多核DSP MIMO雷达并行处理

中圖分類號(hào)： TN492
文獻(xiàn)標(biāo)識(shí)碼： A
文章編號(hào)： 0258-7998(2014)09-0004-03

Implementation of MIMO radar signal processing based on multi-core DSP

Pang Na1，2，Xu Pingjiang3

1.School of Information and Electronic, Beijing Institute of Technology，Beijing 100081，China；2.Beijing Institute of Radio Measurement，Beijing 100854，China；3．Communications & Power Utilization Technology Subcompany，NARI Group Corporation，Beijing 100192，China

Abstract： In the view of the synchronization and real-time requirements of multi-channel echo in MIMO radar system, this paper proposes a method of parallel implementation based on multi-core DSP TMS320C6678 after analyzing characters of the MIMO radar signal processing and hardware structure of multi-core DSP. Many key techniques are solved in the process of design. This method implements task-level parallel processing and efficient communication. The experimental results show that the method realizes the application of low power consumption and high real-time in the use of smaller hardware platform.

Key words : multi-core DSP；MIMO radar；parallel processing

　　MIMO雷達(dá)是近十年來發(fā)展起來的新體制雷達(dá)，與普通相控陣?yán)走_(dá)相比，MIMO雷達(dá)具有低截獲概率、高速度分辨能力、高角分辨力、可同時(shí)識(shí)別多個(gè)目標(biāo)等優(yōu)點(diǎn)[1]。國(guó)內(nèi)外學(xué)者們?cè)贛IMO雷達(dá)技術(shù)的諸多方面進(jìn)行了深入而全面的理論研究，其中以美國(guó)麻省理工學(xué)院林肯實(shí)驗(yàn)室和貝爾實(shí)驗(yàn)室的研究尤為深入[1]，但涉及工程實(shí)現(xiàn)方面的文獻(xiàn)很少。

　　由于軟硬件發(fā)展水平的限制，MIMO雷達(dá)理論的研究領(lǐng)先于雷達(dá)系統(tǒng)的應(yīng)用[2]，而普通的雷達(dá)信號(hào)處理機(jī)的設(shè)計(jì)相對(duì)比較成熟，這方面的文獻(xiàn)中實(shí)現(xiàn)的具體途徑主要有兩種方式，一種是基于FPGA+DSP的架構(gòu)[3-4]，另一種是基于FPGA+PowerPC的架構(gòu)[5]，以第一種的應(yīng)用為主流。MIMO雷達(dá)信號(hào)處理需要接收多個(gè)通道的數(shù)據(jù)，在多波束采集后的雷達(dá)回波數(shù)據(jù)量非常大，實(shí)現(xiàn)多波束雷達(dá)回波數(shù)據(jù)信號(hào)處理的關(guān)鍵是并行同步和實(shí)時(shí)處理。近幾年來，DSP生產(chǎn)商紛紛采用多核架構(gòu)來滿足日益增長(zhǎng)的系統(tǒng)實(shí)時(shí)處理性能要求，實(shí)現(xiàn)更快速的數(shù)據(jù)信號(hào)處理。TI公司于2010年推出了基于KeyStone架構(gòu)的、集成了RISC和8核DSP的高性能信號(hào)處理器TMS-

　　320C6678（簡(jiǎn)稱C6678），初始設(shè)計(jì)背景為圖像領(lǐng)域的應(yīng)用，現(xiàn)在已經(jīng)推廣到視頻處理、語音識(shí)別等領(lǐng)域[6-7]。

　　本文以C6678為平臺(tái)，研究了MIMO雷達(dá)信號(hào)處理的實(shí)現(xiàn)方法。首先，介紹了MIMO雷達(dá)信號(hào)處理的基本原理以及基于C6678多核芯片的系統(tǒng)架構(gòu)和編程開發(fā)特點(diǎn)，并基于算法給出了并行實(shí)現(xiàn)中的關(guān)鍵技術(shù)及解決方法，然后給出實(shí)驗(yàn)評(píng)估并進(jìn)行了測(cè)試性能等方面的對(duì)比分析，最后得出基于多核DSP的MIMO雷達(dá)信號(hào)處理方法，實(shí)現(xiàn)了在降低成本和提高性能等方面的有效性。

1 MIMO雷達(dá)信號(hào)處理的原理

　　本設(shè)計(jì)的MIMO雷達(dá)是基于正交波形雙基地集中式MIMO而構(gòu)建，發(fā)射端各子通道發(fā)射相互正交的信號(hào)，形成低增益寬波束；對(duì)于接收端，為恢復(fù)出各個(gè)發(fā)射端子通道內(nèi)由單個(gè)發(fā)射信號(hào)形成的回波，需對(duì)每個(gè)發(fā)射波形進(jìn)行匹配濾波，再根據(jù)發(fā)射陣列的陣元布置，進(jìn)行接收端等效發(fā)射波束形成，最后進(jìn)行動(dòng)目標(biāo)檢測(cè)、點(diǎn)跡提取[8]。根據(jù)參考文獻(xiàn)[8]的分析，先DBF再匹配濾波處理的方式較先匹配濾波再DBF的方式更節(jié)約計(jì)算資源，因此本文采用了先進(jìn)行DBF再匹配濾波的處理方式，如圖1所示。

2 MIMO雷達(dá)信號(hào)處理的硬件架構(gòu)

　　2.1 核心平臺(tái)介紹

　　C6678是基于KeyStone構(gòu)架的高性能多核DSP，片內(nèi)集成了8個(gè)C66x處理器核，每個(gè)核都支持定點(diǎn)和浮點(diǎn)處理功能。其主要性能指標(biāo)是單核最高工作頻率1.25 GHz，基于C66x 定點(diǎn)/浮點(diǎn)處理器核，累計(jì)處理速率高達(dá)10 GHz，單核最高可達(dá)40 GMAC的定點(diǎn)計(jì)算能力和20 GFLOPS的浮點(diǎn)運(yùn)算能力；存儲(chǔ)器空間為每個(gè)核32 KB L1P、32 KB L1D、512 KB L2、4 096 KB多核共享存儲(chǔ)區(qū)MCSM、8 GB可尋址的DDR3存儲(chǔ)地址空間；在處理器內(nèi)部支持高效EDMA3傳輸方式，可在處理器內(nèi)部存儲(chǔ)空間L2、共享MCSM、外部DDR3之間進(jìn)行高效的數(shù)據(jù)傳輸；集成了x4 Serial RapidIO、x2 PCIe、x4 Hyperlink、x2 ethernet等眾多高速通信接口，允許與其他處理器節(jié)點(diǎn)進(jìn)行高效的數(shù)據(jù)交換；支持多種基于信號(hào)量的通信機(jī)制進(jìn)行核間通信[9]。C6678的多核結(jié)構(gòu)不僅縮小了硬件規(guī)模，而且還降低了整體功耗，其核間任務(wù)調(diào)度及高性能程序優(yōu)化器、8級(jí)并行流水指令集[10]等條件為實(shí)現(xiàn)并行信號(hào)處理算法提供了有效支撐。

　　2.2 硬件架構(gòu)設(shè)計(jì)

　　本文設(shè)計(jì)了基于VPX總線的數(shù)據(jù)采集板和信號(hào)處理板組成的信號(hào)處理系統(tǒng)平臺(tái)，核心芯片均為C6678芯片。數(shù)據(jù)采集板集成了Xilinx Virtex-7系列的高性能FPGA和1片C6678，接口設(shè)計(jì)為光纖、網(wǎng)絡(luò)等多種方式，用于數(shù)據(jù)的接收和預(yù)處理。信號(hào)處理板采用8片C6678構(gòu)成計(jì)算密集型結(jié)構(gòu)，用于完成MIMO多通道并行的信號(hào)處理算法。系統(tǒng)結(jié)構(gòu)示意圖如圖2所示。

3 算法的并行實(shí)現(xiàn)

　　3.1 算法映射模型

　　3.1.1 基本模型介紹

　　應(yīng)用多核處理器的第一個(gè)步驟就是確定任務(wù)并行性，并選擇一種最合適的處理模型。兩個(gè)最主要的模型分別是主/從模型和數(shù)據(jù)流模型。主/從模型是集中控制，分布式執(zhí)行，主核負(fù)責(zé)把任務(wù)分配到其他核，從核之間沒有通信；數(shù)據(jù)流模型就是分布式控制和執(zhí)行，任務(wù)分級(jí)流水執(zhí)行，核之間有相互通信[10]。本系統(tǒng)采用了兩種方式結(jié)合的方式，其中各個(gè)板卡內(nèi)部采用了主/從處理模型，板卡之間采用了數(shù)據(jù)流模型。

　　3.1.2 算法分割及映射

　　本實(shí)驗(yàn)系統(tǒng)采用8個(gè)發(fā)射天線和8個(gè)接收天線分置的結(jié)構(gòu)，接收波束為7個(gè)方位，發(fā)射波束為7個(gè)方位。數(shù)據(jù)量為4K點(diǎn)，相干處理周期為8，動(dòng)目標(biāo)處理時(shí)的FFT點(diǎn)數(shù)為16，脈沖重復(fù)周期為2 ms。功能模塊實(shí)現(xiàn)接收波束形成、匹配濾波、等效發(fā)射波束形成、動(dòng)目標(biāo)處理、目標(biāo)搜索和目標(biāo)跟蹤的處理功能，進(jìn)而獲得目標(biāo)的距離、角度和速度信息。圖3為處理流程框圖。

　　任務(wù)的分解是：Task A為公共數(shù)據(jù)收發(fā)和準(zhǔn)備及同步控制觸發(fā)；Task B為數(shù)據(jù)格式的預(yù)處理及接收DBF；Task C為公共數(shù)據(jù)收發(fā)和準(zhǔn)備及同步控制觸發(fā)；Task D為匹配濾波、發(fā)射DBF雜波抑制、相參積累、目標(biāo)搜索或者目標(biāo)跟蹤。

　　具體的算法映射如圖4所示，數(shù)據(jù)采集板上DSP的所有核加載同樣的一個(gè)工程，完成Task A和Task B；信號(hào)處理板所有的核加載同樣的一個(gè)工程，完成Task C和Task D。數(shù)據(jù)流向是數(shù)據(jù)采集板的DSP0-Core0完成Task A，Core1～Core7 分別完成Task B，然后通過板間IPC把數(shù)據(jù)傳送到信號(hào)處理板的DSP0～DSP6,通過Task C之后進(jìn)行Task D，然后再把數(shù)據(jù)送回?cái)?shù)據(jù)采集板的Core0。

　　3.2 關(guān)鍵技術(shù)及方法

　　3.2.1 通信與同步

　　在進(jìn)行接收DBF和發(fā)射DBF之前需要進(jìn)行多核同步。TI提供了多種成熟的IPC接口，本設(shè)計(jì)中采用了效率比較高的Notify Module 進(jìn)行同步。Core0循環(huán)接收外部傳輸過來的原始數(shù)據(jù)存儲(chǔ)到DDR3之中，每次接收到的數(shù)據(jù)分別向Core1~Core7發(fā)送一個(gè)Notify消息，Notify消息并不在多核之間進(jìn)行數(shù)據(jù)的拷貝，僅進(jìn)行共享內(nèi)存數(shù)據(jù)的所有權(quán)轉(zhuǎn)移，極大地節(jié)省了多核間通信的時(shí)間。每個(gè)Core的TaskB任務(wù)收到Notify消息后，直接從對(duì)應(yīng)的DDR3共享內(nèi)存地址中讀取數(shù)據(jù)即可。

　　在板間傳輸數(shù)據(jù)需要進(jìn)行板間的通信和同步，TI沒有提供DSP節(jié)點(diǎn)之間的IPC，因此在本系統(tǒng)中自行開發(fā)了DSP間IPC。首先開發(fā)了RapidIO底層驅(qū)動(dòng)，然后通過RapidIO接口進(jìn)行系統(tǒng)路由配置，之后完成IPC驅(qū)動(dòng)的搭建，它完成的功能是進(jìn)行DSP的DDR3之間的數(shù)據(jù)拷貝。

　　3.2.2 核內(nèi)數(shù)據(jù)傳輸

　　每個(gè)核內(nèi)部采用了DMA方式實(shí)現(xiàn)MCSM存儲(chǔ)區(qū)和DDR3之間的通信，這種方式傳輸速率比較穩(wěn)定。C6678處理器內(nèi)部集成了3個(gè)高速的EDMA控制器，允許在處理器內(nèi)部的存儲(chǔ)區(qū)之間進(jìn)行不需要處理器參與的高速數(shù)據(jù)傳遞。本信號(hào)處理算法中，每個(gè)核啟動(dòng)獨(dú)立的EDMA3傳輸通道分次將DDR3中的數(shù)據(jù)傳輸?shù)組CSM/L2中進(jìn)行計(jì)算，之后再將計(jì)算結(jié)果通過EDMA3傳輸通道從MCSM/L2傳輸給DDR3。

　　L2、MCSM和DDR3之間的EDMA3通信性能在采用查詢方式下的測(cè)試結(jié)果如表1所示，測(cè)試結(jié)果為100個(gè)周期的平均值。

　　3.2.3 高速緩存一致性考慮

　　C6678處理器核設(shè)計(jì)了二級(jí)Cache。當(dāng)處理器核訪問內(nèi)存中的一段地址時(shí)，存在兩種可能，即Cache命中或Cache缺失。Cache命中時(shí)處理器核可以快速直接從Cache中獲取內(nèi)存數(shù)據(jù)進(jìn)行處理。Cache缺失時(shí)，處理器核就需要花費(fèi)較長(zhǎng)的時(shí)間先將數(shù)據(jù)從內(nèi)存調(diào)入到Cache中，再從Cache中獲取數(shù)據(jù)進(jìn)行處理。處理器的這種內(nèi)存訪問機(jī)制就帶來了Cache和內(nèi)存的數(shù)據(jù)一致性問題。在本信號(hào)處理算法中，Cache一致性問題發(fā)生在以下情況：(1)多處理器核對(duì)MCSM或DDR3中一段數(shù)據(jù)進(jìn)行共享訪問；(2)有EDMA3參與的對(duì)MCSM或DDR3中一段數(shù)據(jù)的訪問。當(dāng)發(fā)生此兩種情況時(shí)，需要執(zhí)行Cache一致性操作，以確保數(shù)據(jù)訪問的正確性。

　　3.2.4 基于平臺(tái)的算法優(yōu)化

　　設(shè)計(jì)中除了采用了通常的代碼優(yōu)化準(zhǔn)則外，基于平臺(tái)的優(yōu)化主要包括以下幾個(gè)方面：數(shù)據(jù)存儲(chǔ)區(qū)采用兵乓結(jié)構(gòu)，使得數(shù)據(jù)傳輸和算法計(jì)算可以同時(shí)進(jìn)行；算法模塊采用細(xì)粒度設(shè)計(jì)，通過CCSV5提供的高性能編譯優(yōu)化參數(shù)，并告訴編譯器更多關(guān)于數(shù)據(jù)的信息；使用內(nèi)聯(lián)指令做SIMD的處理；存儲(chǔ)區(qū)和Cache 優(yōu)化設(shè)計(jì)。這些優(yōu)化方法的綜合利用比不進(jìn)行優(yōu)化的效率提高達(dá)約50倍。

4 實(shí)驗(yàn)評(píng)估及分析

　　ADSP-TS201S幾乎是ADI公司的最高性能信號(hào)處理器，也是當(dāng)前雷達(dá)信號(hào)處理領(lǐng)域主流的硬件平臺(tái)的核心，采用其搭建的平臺(tái)(1塊帶有4個(gè)DSP的預(yù)處理板，8塊帶有8個(gè)DSP的信號(hào)處理板)與TMS320C6678的搜索處理關(guān)鍵算法的測(cè)試性能對(duì)比如表2所示，測(cè)試結(jié)果為100個(gè)周期的平均值。首先是TMS320C6678降低了硬件規(guī)模從而降低了成本，其次提高了效率，還有就是共享存儲(chǔ)區(qū)的運(yùn)用減少了傳輸延遲。整體時(shí)間比為4.5：1。

　　由實(shí)測(cè)結(jié)果可見，TMS320C6678平臺(tái)由于其高性能的多核處理方式，適合MIMO雷達(dá)信號(hào)處理這類需要同步進(jìn)行并且實(shí)時(shí)處理的場(chǎng)合應(yīng)用，但也應(yīng)注意到C6678的存儲(chǔ)區(qū)較小，對(duì)于大數(shù)量的使用（大于4K點(diǎn)）可能達(dá)不到預(yù)期的加速比，還有待于進(jìn)一步驗(yàn)證。該MIMO雷達(dá)信號(hào)處理系統(tǒng)在工程樣機(jī)中運(yùn)行良好，通過小規(guī)模硬件系統(tǒng)和較低的功耗達(dá)到了信號(hào)實(shí)時(shí)處理和運(yùn)算快速準(zhǔn)確的要求。

　　參考文獻(xiàn)

　　[1] Li Jian.STOICA P.MIMO radar signal processing[M].John Wiley & Sons，Inc.，2009.

　　[2] 陳浩文，黎湘，莊釗文.一種新興的雷達(dá)體制—MIMO雷達(dá)[J].電子學(xué)報(bào)，2012，40(6)：1190-1198.

　　[3] 高廣坦.基于TS201平臺(tái)的雷達(dá)信號(hào)處理機(jī)設(shè)計(jì)[J].信息化研究，2010，36(11)：17-19.

　　[4] 周濱，謝曉霞，傅其祥，等.基于多DSP的高速通用并行處理系統(tǒng)研究與設(shè)計(jì)[J].電子設(shè)計(jì)工程，2012(17)：175-178.

　　[5] 史鴻聲.基于PowerPC的雷達(dá)通用處理機(jī)設(shè)計(jì)[J].雷達(dá)科學(xué)與技術(shù)，2011，9(2)：140-149.

　　[6] 彭益智，霍家道，徐偉.一種基于TMS320C6678的JPEG編碼算法并行實(shí)現(xiàn)方法[J].指揮控制與仿真，2012，34(1)：119-122.

　　[7] 吉立新，劉偉偉，李邵梅.基于TMS320C6678的語種識(shí)別并行算法設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用，2012，38(10)：37-40.

　　[8] 葉勝輝.正交波形MIMO雷達(dá)技術(shù)及其在雙基地雷達(dá)中的應(yīng)用[D].成都：電子科技大學(xué)，2006.

　　[9] Texas Instrument.TMS320C6678 multicore fixed and floating-point digital signal processor[Z].2011.[10] Texas Instrument.Multicore programming guide[Z].2009.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容