123,123,123

实序列并行IFFT在Blackfin DSP上的实现

日期： 2009-06-03

作者：李刚, 高峰, 林凌

關(guān)鍵詞： 运算速度频域指令周期实时处理图像处理系统

　　摘要： 針對(duì)DSP上常用的實(shí)序列IFFT算法運(yùn)算速度慢的缺陷，采用兩行實(shí)序列合并為一行復(fù)序列進(jìn)行IFFT運(yùn)算的方法編制了在Blackfin系列DSP上進(jìn)行實(shí)序列基-2 IFFT運(yùn)算的程序。實(shí)驗(yàn)表明，結(jié)合DSP指令的并行性及硬件并行結(jié)構(gòu)的軟件設(shè)計(jì)提高了運(yùn)算速度，完成兩行512點(diǎn)實(shí)序列的IFFT運(yùn)算只需要11864個(gè)時(shí)鐘周期，為原來方法所需時(shí)間的一半。該方法應(yīng)用于基于BF561的并行頻域OCT圖像處理系統(tǒng)中，滿足系統(tǒng)實(shí)時(shí)處理的要求。
　　關(guān)鍵詞： 實(shí)序列IFFT； Blackfin DSP；并行

　　離散傅里葉逆變換（IDFT）是一種將離散信號(hào)從頻域轉(zhuǎn)變?yōu)闀r(shí)域表示的變換手段，其快速算法——快速傅里葉逆變換（IFFT）在數(shù)字信號(hào)處理過程中得到廣泛使用。
　　實(shí)際應(yīng)用中經(jīng)常遇到實(shí)序列的IFFT運(yùn)算^[1-2]。如在如圖1所示的并行頻域OCT(Parallel Spectral-Domain Optical Coherence Tomography,PSDOCT）圖像處理系統(tǒng)中,需要對(duì)攝像機(jī)輸入的像素為180×512的頻域圖像在DSP內(nèi)進(jìn)行逐行IFFT運(yùn)算及幅度譜運(yùn)算后得到反映樣品深度信息的空域?qū)游鰣D像^[3]并輸出顯示。由于系統(tǒng)需要進(jìn)行25幀/s視頻速度的實(shí)時(shí)處理，而常用的把實(shí)數(shù)數(shù)據(jù)當(dāng)作虛部為0的復(fù)數(shù)數(shù)據(jù)進(jìn)行IFFT運(yùn)算的方式浪費(fèi)了其中一半的運(yùn)算量和存儲(chǔ)量，不能滿足實(shí)時(shí)處理的要求。鑒于此，本文介紹了一種將兩行實(shí)序列合并為一行復(fù)序列進(jìn)行IFFT運(yùn)算的方法^[4]，并且結(jié)合ADI公司Blackfin系列DSP指令的并行性及硬件的并行結(jié)構(gòu)^[5-6]，編制了512點(diǎn)實(shí)序列IFFT并行運(yùn)算程序。實(shí)驗(yàn)表明，該方法對(duì)兩行實(shí)序列運(yùn)算所需的周期數(shù)約為直接進(jìn)行復(fù)數(shù)計(jì)算周期數(shù)的一半,可以滿足并行頻域OCT圖像處理系統(tǒng)實(shí)時(shí)處理的要求。

1 實(shí)序列IFFT并行運(yùn)算原理
　　進(jìn)行N點(diǎn)實(shí)數(shù)X(k)的IFFT 運(yùn)算時(shí),一般的方法是把實(shí)數(shù)數(shù)據(jù)當(dāng)作虛部為0的復(fù)數(shù)數(shù)據(jù)來處理。由于這種函數(shù)的時(shí)域呈現(xiàn)如式1所示的復(fù)數(shù)共軛對(duì)稱的性質(zhì)，所以運(yùn)算所需的2N個(gè)存儲(chǔ)單元中有一半是多余的，并且所耗的運(yùn)算量與復(fù)數(shù)IFFT相同，沒有達(dá)到優(yōu)化設(shè)計(jì)的目的。為了節(jié)約DSP 片內(nèi)資源并且加快運(yùn)算速度，可以將兩行實(shí)序列組合為復(fù)序列進(jìn)行處理。設(shè)有兩個(gè)N點(diǎn)的實(shí)序列X(k)與Y(k)，整合為復(fù)序列Z(k)=X(k)+Y(k)j 。根據(jù)IDFT的線性和對(duì)稱性可得X(k)與Y(k)處理結(jié)果x(n)、y(n)與Z(k)的結(jié)果z(n)的關(guān)系式，如式(2)、(3)所示。
　
　　這樣就將x(n)、y(n)從z(n)中分離出來。該方法將運(yùn)算速度提高了近一倍，并且運(yùn)算需要的存儲(chǔ)量減少了一半。
2 算法在Blackfin DSP上的實(shí)現(xiàn)
　　Blackfin系列DSP是ADI公司和Intel 公司合作推出的基于微信號(hào)體系結(jié)構(gòu)(Micro Signal Architecture)技術(shù)的定點(diǎn)DSP，整合了傳統(tǒng)體系結(jié)構(gòu)DSP和RISC控制器的優(yōu)點(diǎn)。該系列器件具有多級(jí)流水線結(jié)構(gòu)，含有2個(gè)乘加運(yùn)算(MAC)單元，并集成了大量的外圍設(shè)備和存儲(chǔ)器接口，每秒最高可執(zhí)行1.2億次乘加運(yùn)算，適用于實(shí)時(shí)圖像處理。由于在圖像處理過程中經(jīng)常會(huì)遇到對(duì)實(shí)序列進(jìn)行離散傅里葉逆變換的問題，所以需要設(shè)計(jì)一種優(yōu)化的實(shí)序列IFFT程序。下面選用Blackfin系列中的BF561進(jìn)行實(shí)序列并行基-2 IFFT程序設(shè)計(jì)，該程序適用于Blackfin系列所有的DSP。算法程序采用匯編語言編寫，可以通過C語言調(diào)用，具有良好的接口性能和可擴(kuò)展性能。
2.1 實(shí)序列IFFT并行算法流程
　　在BF561上進(jìn)行N點(diǎn)實(shí)序列基-2 IFFT運(yùn)算流程如圖2所示（N=2^m,m≥3），具體功能塊描述如下：
　　(1)程序初始化。由于BF561為定點(diǎn)DSP，如果進(jìn)行浮點(diǎn)運(yùn)算（如“塊浮點(diǎn)”運(yùn)算^[7]）將會(huì)影響計(jì)算的實(shí)時(shí)性。所以對(duì)輸入輸出數(shù)據(jù)及旋轉(zhuǎn)因子都做了定點(diǎn)處理，規(guī)定數(shù)據(jù)都為如圖3所示的16位有符號(hào)小數(shù)格式(即Q15格式)。IFFT運(yùn)算的旋轉(zhuǎn)因子可由Matlab產(chǎn)生并以cos(2πk/N)、sin(2πk/N)（k=0,1,2……,2^m-1)的格式進(jìn)行實(shí)部、虛部交替排列成表，通過“#include”語句填充到BF561上的L1數(shù)據(jù)SRAM中，需要N字節(jié)容量存儲(chǔ)空間。L1數(shù)據(jù)SRAM以內(nèi)核速度訪問，使得查表的速度達(dá)到最快。在L1數(shù)據(jù)SRAM中開辟了4N字節(jié)容量的存儲(chǔ)區(qū)進(jìn)行中間結(jié)果的存放。

　　(2)將兩行N點(diǎn)實(shí)數(shù)數(shù)據(jù)X(k)、Y(k)合并成為N點(diǎn)復(fù)數(shù)數(shù)據(jù)Z(k)，并完成復(fù)數(shù)數(shù)據(jù)的位反轉(zhuǎn)操作。Blackfin DSP有專為IFFT算法設(shè)計(jì)的反序間接尋址，可實(shí)現(xiàn)增/減1或增/減一個(gè)變量的間接尋址方式，可以直接實(shí)現(xiàn)各種方式的位反轉(zhuǎn)操作。
　　(3)計(jì)算N點(diǎn)復(fù)數(shù)數(shù)據(jù)基-2 IFFT運(yùn)算的蝶形運(yùn)算結(jié)構(gòu)如圖4所示。IFFT運(yùn)算過程中需要大量的循環(huán)運(yùn)算，而BF561支持“零開銷的硬件循環(huán)控制”及“硬件循環(huán)緩存”功能，即利用硬件尋址功能實(shí)現(xiàn)循環(huán)構(gòu)造，并且循環(huán)體的指令在每次執(zhí)行后暫時(shí)存放在循環(huán)緩存中以備下次使用，極大地加快了循環(huán)運(yùn)算速度。

　　(4)分離還原。根據(jù)式(2)、(3)將兩行N點(diǎn)實(shí)數(shù)數(shù)據(jù)IFFT運(yùn)算結(jié)果x(n)、y(n)從z(n)中分離出來。
2.2 利用并行指令進(jìn)行程序設(shè)計(jì)
　　Blackfin系列DSP的多級(jí)流水線結(jié)構(gòu)可以實(shí)現(xiàn)多個(gè)乘加及算術(shù)邏輯運(yùn)算，并且可以實(shí)現(xiàn)運(yùn)算與存儲(chǔ)器讀寫的并行執(zhí)行。充分利用指令的并行性可以加快IFFT的運(yùn)算速度。
2.2.1 32位數(shù)據(jù)寄存器的并行操作
　　Blacfin DSP的數(shù)據(jù)寄存器可以作為一個(gè)32位字(Rn)或是2個(gè)16位半字(Rn.H與Rn.L)。并且由于Blackfin DSP具有2個(gè)MAC，所以在一個(gè)指令周期內(nèi)可以進(jìn)行4個(gè)16位半字的操作。利用該并行指令進(jìn)行如圖4的碟形運(yùn)算的程序如式(4)、式(5)、式(6)所示，其中寄存器R1與R2的低位、高位分別存放Z₁(k)與Z₂(k)的實(shí)部、虛部，R3的低位、高位分別存放w_N^-k的實(shí)部、虛部。完成一次碟形運(yùn)算只需要3個(gè)指令周期。

　　R1=R1+|+R2, R2=R1-|-R2(ASR);
??　??? /*16位加減并行運(yùn)算，結(jié)果右移一位*/???????? (4)
?　 A1=R2.L*R3.H, A0=R2.L*R3.L;
??????? /*16位乘法并行運(yùn)算*/?????????????????????? (5)
??? R3.H=(A1+=R2.H*R3.L),R3.L=(A0-=R2.H*R3.H);
??????? /*16位乘法并行運(yùn)算*/?????????????????????? (6)
2.2.2 運(yùn)算與存儲(chǔ)器讀寫的并行指令
??? Blackfin DSP支持下列3種并行指令語句：
　　(1) A 32-bit ALU/MAC instruction || A 16-bit instruction ||A 16-bit instruction;//
　　(2) A 32-bit ALU/MAC instruction || A 16-bit instruction; //
　　(3) MNOP || A 16-bit instruction || A 16-bit instruction; //

　　其中：(1)表示1個(gè)指令周期內(nèi)可以同時(shí)執(zhí)行一條32位邏輯/乘加運(yùn)算及2條16位指令；(2)表示1個(gè)指令周期內(nèi)可以同時(shí)執(zhí)行1條32位邏輯/乘加運(yùn)算及1條16位指令；(3)表示1個(gè)指令周期內(nèi)可以同時(shí)執(zhí)行2條16位指令。其中16位指令包括對(duì)數(shù)據(jù)的讀取和存儲(chǔ)指令。
　　結(jié)合上述兩種并行指令的蝶形運(yùn)算程序如式(7)、(8)、(9)所示。由程序可以看出：3個(gè)指令周期內(nèi)不僅可以完成一次碟形運(yùn)算，還可以實(shí)現(xiàn)旋轉(zhuǎn)因子的查表讀入、數(shù)據(jù)的讀入和運(yùn)算結(jié)果的儲(chǔ)存等操作，大大減少了運(yùn)算周期數(shù)。

2.3 硬件的并行處理
　　Blackfin DSP的L1數(shù)據(jù)SRAM采用分塊設(shè)計(jì)，如BF561的64 KB容量的L1數(shù)據(jù)SRAM分為16個(gè)獨(dú)立的存儲(chǔ)塊（每塊容量為4KB），并且內(nèi)核與DMA可以同時(shí)訪問不同的存儲(chǔ)塊，所以可以通過“乒乓操作”的方式進(jìn)行數(shù)據(jù)傳輸和處理的并行執(zhí)行。這種流水線式算法完成了數(shù)據(jù)的無縫緩沖與處理，大大加快了IFFT運(yùn)算速度。
3 實(shí)驗(yàn)結(jié)果
　　在Blackfin集成開發(fā)環(huán)境Visual DSP++4.5上編制512點(diǎn)實(shí)序列基-2 IFFT程序。并用該程序在BF561上對(duì)兩行512點(diǎn)正弦數(shù)據(jù)進(jìn)行計(jì)算，通過集成開發(fā)環(huán)境中的CYCLES計(jì)數(shù)器進(jìn)行周期計(jì)數(shù)表明兩行數(shù)據(jù)IFFT運(yùn)算需要11 864個(gè)周期。而直接計(jì)算兩行數(shù)據(jù)需要的周期數(shù)為21 098。前者所用的運(yùn)算時(shí)間約為后者的一半。以MATLAB計(jì)算的32位精度結(jié)果作為基準(zhǔn)進(jìn)行比較，該程序計(jì)算結(jié)果誤差為0.009%。在如圖1的系統(tǒng)中對(duì)一幀頻域圖像(180×512)進(jìn)行IFFT運(yùn)算，其中BF561的內(nèi)核時(shí)鐘為600MHz，運(yùn)算需要的時(shí)間僅為1.7ms。
　　結(jié)合實(shí)序列IFFT運(yùn)算、Blackfin系列DSP指令的并行性及硬件的并行結(jié)構(gòu)設(shè)計(jì)了在BF561定點(diǎn)DSP上對(duì)實(shí)序列進(jìn)行基-2 IFFT運(yùn)算的程序。實(shí)驗(yàn)證明，該程序比以往的方法運(yùn)算周期減少了約一半，并且誤差小于萬分之一，滿足快速精確計(jì)算的要求。運(yùn)用于并行頻域OCT圖像處理系統(tǒng)中，滿足系統(tǒng)實(shí)時(shí)處理的要求。該程序同樣適用于Blackfin系列中其他的DSP。

參考文獻(xiàn)
[1] 馬振鶴,王瑞康,張帆,等.快速高分辨率的頻譜光學(xué)相干層析成像系統(tǒng)研究[J].納米技術(shù)與精密工程,2005,3(3):232-235.
[2] 陳燕東,劉景琳,孟志強(qiáng).新型實(shí)時(shí)光電混合圖像識(shí)別系統(tǒng)設(shè)計(jì)[J].電子測(cè)量與儀器學(xué)報(bào),2007, 21(3):103-107.
[3] 李剛,任釗,吳開杰,等.Parallel spectral-domain optical?coherence tomography for non-scattering object imaging[J].天津大學(xué)學(xué)報(bào)(英), 2007,13(2):107-112.
[4] 胡廣書.數(shù)字信號(hào)處理理論－算法與實(shí)現(xiàn)[M].北京:清華大學(xué)出版社,2003.
[5] ADSP-BF53x/BF56x Blackfin　processor programming?reference[Z]. USA：AD Inc., 2006.
[6]?陳峰. Blackfin系列DSP原理與系統(tǒng)設(shè)計(jì)[M].北京：電子工業(yè)出版社，2004.
[7] 楊向萍.提高FFT運(yùn)算速度的幾項(xiàng)措施[J].中國(guó)紡織大學(xué)學(xué)報(bào),1999,25(1):42-62.

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

实序列并行IFFT在Blackfin DSP上的实现

日期： 2009-06-03

作者：李 刚, 高 峰, 林 凌

相關(guān)內(nèi)容

作者：李刚, 高峰, 林凌