123,123,123

TMS320C62x软件开发方法研究

马君国付强

摘要： 阐述了TMS320C62x的系统结构和软件设计方法，介绍了在TMS320C6201 EVM板上实现宽带毫米波雷达目标时延神经网络识别算法。通过程序验证，取得了比较好的处理效果。

關鍵詞： DSP 目标识别 TMS320C6201 TI

Abstract：

Key words :

　　摘要: 闡述了TMS320C62x的系統(tǒng)結構和軟件設計方法，介紹了在title="TMS320C6201">TMS320C6201 EVM板上實現(xiàn)寬帶毫米波雷達目標時延神經(jīng)網(wǎng)絡識別算法。通過程序驗證，取得了比較好的處理效果。

　　關鍵詞: TMS320C6201 DSP 軟件設計實時處理目標識別

　　數(shù)字信號處理(DSP)技術近年來取得了高速發(fā)展，目前DSP芯片已經(jīng)廣泛地應用于通信、圖像處理、語音處理、雷達等領域。TI公司是當今世界DSP芯片的主要供應商之一，其TMS320C6000是TMS320系列產(chǎn)品中的新一代高性能DSP芯片，其中定點系列為TMS320C62x，浮點系列為TMS320C67x。TMS320C6201芯片是定點系列的代表產(chǎn)品，其處理能力高達1600MIP。本文著重介紹TMS320C62x的軟件設計方法，并對TMS320C62x的系統(tǒng)結構以及基于TMS320C62x的軟件設計方法，在TMS320C6201上實現(xiàn)寬帶毫米波雷達目標時延神經(jīng)網(wǎng)絡識別算法進行闡述。

1 TMS320C62x的系統(tǒng)結構

　　TMS320C62x的系統(tǒng)結構如圖1所示，TMS320C62x處理器由三個主要部分組成:CPU內(nèi)核、外設和存儲器。CPU內(nèi)核中的8個功能單元可以完全并行運行，功能單元執(zhí)行邏輯、位移、乘法、加法和數(shù)據(jù)尋址等操作。TMS320C6000系列芯片的體系結構采用甚長指令字(VLIW)方式，單指令字長為32位，每條32位指令占用一個功能單元。取指令、指令分配和指令譯碼單元每周期可以從程序存儲器到功能單元傳遞8條指令，這8條指令組成一個指令包，總字長為8×32=256位。芯片內(nèi)部設置了專門的指令分配模塊，可以將每個256位的指令包分配到8個功能單元中，并由8個功能單元并行運行。TMS320C62x芯片的最高時鐘頻率可以達到200MHz，8個功能單元同時運行時，該芯片的處理能力高達1600MIP。

　　TMS320C62x芯片的片內(nèi)存儲器總?cè)萘繛?M位，其中2K×256位用于程序內(nèi)存和程序cache，寬度為256位;64K字節(jié)用于數(shù)據(jù)內(nèi)存和數(shù)據(jù)cache，用戶可以訪問8位、16位和32位的數(shù)據(jù)。TMS320C62x芯片的外設模塊包括多通道緩沖串口、時鐘、外部存儲器接口EMIF、DMA控制器、主機口和Power-down邏輯等，DMA控制器可以在存儲器空間的不同區(qū)域間控制轉(zhuǎn)移數(shù)據(jù);外部存儲器接口EMIF可以訪問的片外存儲器最大容量為64MB，數(shù)據(jù)總線寬度為32位，同時也提供對8位和16位存儲器的讀寫支持;16位寬的主機口HPI可以訪問TMS320C62x的所有存儲空間和設備;多種外設模塊使得TMS320C62x芯片的功能十分強大。

2 TMS320C62x的軟件設計方法

　　用戶在開發(fā)應用軟件時，首先應當明確應用軟件的功能和性能要求，然后按照代碼開發(fā)流程的三個階段進行軟件設計:第一階段是開發(fā)C代碼;第二階段是優(yōu)化C代碼;第三階段是編寫線性匯編代碼。以上的三個階段不是必須經(jīng)過的，如果在某一階段已經(jīng)實現(xiàn)了應用軟件的功能和性能要求，那么就不必進入下一個階段。代碼開發(fā)流程圖如圖2所示。

2.1 開發(fā)C代碼

　　開發(fā)C語言代碼需要考慮的要點包括:①數(shù)據(jù)結構;②分析C代碼性能;③使用查找表;④用整形數(shù)(int)表示浮點數(shù)。

2.1.1 數(shù)據(jù)結構

　　TMS320C62x編譯器對每種數(shù)據(jù)結構定義一個尺寸，字符型(char)為8位，短整型(short)為16位，整型(int)為32位，長整型(long)為40位，浮點型(float)為32位，雙精度浮點型(double)為64位。在編寫C代碼時應當遵循的規(guī)則是:避免在代碼中將int型和long型作為同樣尺寸處理，因為編譯器對long型數(shù)據(jù)使用40位操作;對于定點乘法，應當盡可能使用short型數(shù)據(jù)，這種數(shù)據(jù)類型可以更有效地使用TMS320C62x的乘法器;對循環(huán)計數(shù)器應當使用int或者無符號int類型，而不使用short或者無符號short類型，以避免不必要的符號擴展。

2.1.2 分析C代碼性能

　　應用調(diào)試器的Profile工具可以得到一個關于C代碼中各特定代碼段執(zhí)行情況的統(tǒng)計表，也可以得到特定代碼段執(zhí)行所用的CPU時鐘周期數(shù)，因此可以找出影響軟件程序總體性能的C語言代碼段來加以改進(通常是循環(huán)代碼段影響軟件程序總體性能)。

2.1.3 使用查找表

　　在C語言代碼中通過直接計算得到結果的語句或函數(shù)可以用查找表或常數(shù)數(shù)值代替，所以可以提高指令執(zhí)行速度。

2.1.4 用整型數(shù)(int)表示浮點數(shù)

　　由于TMS320C62x是定點芯片，不支持浮點操作。對于浮點加、減、乘和除運算，應通過TMS320C62x的編譯器，把浮點運算轉(zhuǎn)化為一系列的定點運算，并由TMS320C62x芯片的功能單元處理這一系列的定點運算。浮點運算是比較費時的，在程序的編寫過程中，應當盡量采用定點的數(shù)據(jù)結構。對于C語言，應當盡量采用整型(int)的數(shù)據(jù)結構。在基于TMS320C62x的C語言中，整型數(shù)據(jù)占用4個字節(jié)，其所能表示的最大數(shù)據(jù)范圍是:-2147483648～+2147483647。因為實際處理的數(shù)據(jù)通常都是浮點的，所以需要把浮點數(shù)據(jù)通過定標轉(zhuǎn)化為整型數(shù)據(jù)進行處理，以提高應用程序的處理速度。小數(shù)位數(shù)的選取十分關鍵，既要使轉(zhuǎn)化后的數(shù)據(jù)處理精度滿足要求，又要防止在數(shù)據(jù)處理的過程中出現(xiàn)數(shù)據(jù)溢出。

2.2 優(yōu)化C代碼

　　優(yōu)化C代碼包括使用編譯器選項、使用內(nèi)聯(lián)函數(shù)、使用字訪問短整型數(shù)據(jù)和使用軟件流水等。編譯器選項控制著編譯器的操作，其中有些選項可使C代碼優(yōu)化。

2.2.1 向編譯器指明不相關的指令

　　為使指令并行操作，編譯器必須確定指令間的關系或者相關性，即一條指令必須發(fā)生在另一條指令之后，只有不相關的指令才可以并行執(zhí)行。如果編譯器不能確定兩條指令是不相關的，則編譯器認為它們是相關的，將安排它們串行執(zhí)行。用戶可以通過如下方法指明相關的指令:

　　·關鍵字const可以指定一個目標，const表示一個變量或者一個變量的存儲單元保持不變，使用const可以提高代碼的性能和適應性。

　　·一起使用-pm選項和-03選項可以確定程序優(yōu)先級。在程序優(yōu)先級中，所有源文件都被編譯成一個模塊，該模塊通過編譯器進行優(yōu)化和產(chǎn)生代碼，從而使編譯器更有效地消除相關性。

　　·使用-mt選項向編譯器說明在代碼中不存在存儲器相關性，即允許編譯器在無存儲器相關性的假設下進行優(yōu)化。

2.2.2 使用內(nèi)聯(lián)函數(shù)(intrinsics)

　　TMS320C62x編譯器提供的內(nèi)聯(lián)函數(shù)是直接映射為內(nèi)聯(lián)的C6000指令的特殊函數(shù)，用戶可以用內(nèi)聯(lián)函數(shù)來快速優(yōu)化C代碼。

2.2.3 使用字訪問短整型數(shù)據(jù)

　　內(nèi)聯(lián)函數(shù)中有些指令是對存儲在32位寄存器的高16位和低16位字段進行操作。當有大量短整型數(shù)據(jù)進行操作時，可以使用字(整型數(shù))一次訪問兩個短整型數(shù)據(jù)，然后使用內(nèi)聯(lián)函數(shù)對這些數(shù)據(jù)進行操作，從而減少對內(nèi)存的訪問。

2.2.4 使用軟件流水

　　軟件流水是采用安排循環(huán)指令的方法使循環(huán)多次迭代并行執(zhí)行的一種技術。在編譯時，使用-o2選項和-o3選項，編譯器可對循環(huán)代碼實現(xiàn)軟件流水。為填滿軟件流水線，軟件流水結構需要執(zhí)行的最小循環(huán)迭代次數(shù)稱為最小循環(huán)次數(shù)。當編譯器不能確定循環(huán)總數(shù)與最小循環(huán)次數(shù)的大小時，就產(chǎn)生了兩種形式的循環(huán):循環(huán)總數(shù)小于最小循環(huán)次數(shù)時，執(zhí)行不流水形式循環(huán);循環(huán)總數(shù)大于最小循環(huán)次數(shù)時，執(zhí)行軟件流水形式循環(huán)。可以使用-ms選項使編譯器根據(jù)循環(huán)次數(shù)僅產(chǎn)生一種循環(huán)形式。用戶可以通過系列方法向編譯器傳遞循環(huán)次數(shù)信息:使用-o3和-pm選項，使優(yōu)化器訪問整個程序，了解循環(huán)次數(shù)信息;使用_nassert內(nèi)聯(lián)函數(shù)，訪止冗余循環(huán)產(chǎn)生。用戶可以使用投機執(zhí)行(_mh選項)消除軟件流水循環(huán)的排空，從而減少代碼尺寸。

　　由于在嵌套循環(huán)中編譯器僅對最里面的循環(huán)執(zhí)行軟件流水，因此對于執(zhí)行周期很少的內(nèi)循環(huán)進行循環(huán)展開，對外循環(huán)進行軟件流水，這樣可以改進C代碼的性能。

　　使用軟件流水應當注意的問題有:盡管軟件流水循環(huán)可以包含內(nèi)聯(lián)函數(shù)，但是不能包含函數(shù)調(diào)用;在循環(huán)中不可以有條件終止指令;在循環(huán)體中不可以修改循環(huán)控制變量;如果循環(huán)體內(nèi)復雜的條件代碼需要超過5個條件寄存器或者代碼尺寸需要32個寄存器以上，則這個循環(huán)不可以進行軟件流水。

2.3 編寫線性匯編代碼

　　編寫線性匯編代碼是代碼開發(fā)流程的第三個階段。為了提高代碼性能，對影響應用程序速度的關鍵C代碼可以用線性匯編重新編寫，線性匯編文件是匯編優(yōu)化器的輸入文件。線性匯編代碼類似于通常的C6000匯編代碼，不同的是編寫線性匯編代碼不需要指明使用的寄存器、指令的并行與否、指令的延遲周期和指令使用的功能單元，匯編優(yōu)化器會根據(jù)情況確定這些信息。線性匯編文件使用一些匯編優(yōu)化器偽指令來區(qū)分線性匯編和通常的匯編代碼，.cproc命令和.endpro命令限定了匯編優(yōu)化器優(yōu)化的代碼段，.cproc命令放在代碼段的開始，.endproc命令放在代碼段的結尾;.reg命令使匯編優(yōu)化器為數(shù)值，選擇一個寄存器，這個寄存器與對該值進行操作的指令所選擇的功能單元一致;.trip命令指出循環(huán)的迭代次數(shù)。優(yōu)化線性匯編代碼的方法包括:為線性匯編指令指定功能單元，使得最后的匯編指令并行執(zhí)行;使用字訪問短整型數(shù)據(jù);使用軟件流水對循環(huán)進行優(yōu)化。

編寫線性匯編代碼的工作量非常大，需要很長的開發(fā)周期。而且開發(fā)后的匯編代碼不能象C代碼那樣移植在其它的DSP平臺上，因此建議盡量采用第一階段來進行軟件設計。如果仍然不能滿足性能要求，那么再對關鍵的C代碼段編寫線性匯編代碼。

3 在TMS320C6201上實現(xiàn)寬帶毫米波雷達目標時延神經(jīng)網(wǎng)絡識別算法

　　寬帶毫米波雷達目標識別算法對于實時處理的需求是比較苛刻的，例如某種寬帶雷達導引頭目標識別處理時間要求小于1.5ms，即要求目標識別算法在1.5ms內(nèi)對一組數(shù)據(jù)完成處理，正確地把目標識別出來。人工神經(jīng)網(wǎng)絡(ANN)具有并行處理運算能力和網(wǎng)絡信息存儲能力，能滿足寬帶毫米波雷達目標識別系統(tǒng)并行計算和需較小數(shù)據(jù)存儲空間的要求。ANN技術應用于雷達目標識別極具潛力。在多層前饋感知器神經(jīng)網(wǎng)絡模型中引入時延單元可以使神經(jīng)網(wǎng)絡增加記憶功能，由此導出的神經(jīng)網(wǎng)絡模型適合應用于處理序列數(shù)據(jù)。寬帶毫米波雷達目標時延神經(jīng)網(wǎng)絡識別算法的基本原理為:對一維距離像進行非相干平均和自適應門限、等距離間隔峰值下采樣預處理，獲得較穩(wěn)定的低維樣本后，作為特征矢量提供給時延神經(jīng)網(wǎng)絡分類器進行自動分類識別。時延神經(jīng)網(wǎng)絡為三層網(wǎng)絡，網(wǎng)絡輸入層節(jié)點數(shù)為17，網(wǎng)絡隱層節(jié)點數(shù)為10，網(wǎng)絡輸出層節(jié)點數(shù)為3。采用大量的訓練樣本集對時延神經(jīng)網(wǎng)絡進行訓練，得到時延神經(jīng)網(wǎng)絡的權值，然后應用TMS320C62x的軟件設計方法，在TMS320C6201 EVM板上實現(xiàn)寬帶毫米波雷達目標時延神經(jīng)網(wǎng)絡識別算法。

　　在程序?qū)崿F(xiàn)過程中，對于經(jīng)常用到的兩個函數(shù)值1.0/(1.0+exp(-x))和tanh(x)采用查找表的方法來提高程序執(zhí)行速度。根據(jù)對程序的測試，使用整型數(shù)(int)表示浮點數(shù)，選取整型數(shù)的低13位來表示小數(shù)。支持TMS320C6201 EVM 板的開發(fā)軟件Code Composer Studio(CCS)是一個集編譯、連接、實時調(diào)試、跟蹤和分析應用程序于一體的開發(fā)軟件包。CCS能夠加快用戶的開發(fā)進度，增強用戶的應用程序性能，使用戶可以實時地創(chuàng)建和調(diào)試數(shù)字信號處理應用程序。在開發(fā)軟件CCS的集成開發(fā)環(huán)境中，綜合應用TMS320C62x的軟件設計方法可以編寫和優(yōu)化時延神經(jīng)網(wǎng)絡識別算法的C代碼。

　　經(jīng)過實際測試，在TMS320C6201上實現(xiàn)寬帶毫米波雷達目標時延神經(jīng)網(wǎng)絡識別算法的程序執(zhí)行時間為0.850ms，滿足了目標識別算法的實時性需求，取得了比較好的處理效果。

參考文獻

1 肖懷鐵.寬帶極化毫米波雷達目標特征信號測量與識別算法研究:[博士論文].國防科技大學，2000

2 TMS320C6x用戶手冊.TI公司

3 任麗香，馬淑芬，李方慧.TMS320C6000系列DSPs的原理與應用.北京:電子工業(yè)出版社

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權禁止轉(zhuǎn)載。

相關內(nèi)容