《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 基于分布式運(yùn)算(DA)結(jié)構(gòu)的查表法
基于分布式運(yùn)算(DA)結(jié)構(gòu)的查表法
摘要: 為了滿足3G的高技術(shù)復(fù)雜度以及高信號處理要求,基于FPGA/ASIC的專用硬件必須要符合不同用戶產(chǎn)品的規(guī)格。也就是說,在3G無線終端發(fā)展中,產(chǎn)品的尺寸、重量以及功率消耗這些參數(shù)將是十分關(guān)鍵和重要的決定因素。由此,系統(tǒng)芯片(SoC)作為一門新的設(shè)計(jì)方略被引入了3G的發(fā)展。SoC要求能夠?qū)^(qū)域有效信號處理算法與結(jié)構(gòu)的設(shè)計(jì)、發(fā)展都集成在一塊小的芯片上。
Abstract:
Key words :

一、引言

當(dāng)今許多電信公司正密切關(guān)注著他們所致力的3G產(chǎn)品的研制和開發(fā),例如移動終端、基站以及其它大量的網(wǎng)絡(luò)設(shè)備。無可置疑地,3G產(chǎn)品和業(yè)務(wù)已經(jīng)成為無線通信市場的主流,而其中CDMA,尤其是寬帶CDMA(W-CDMA)憑借著其高性能、在系統(tǒng)容量運(yùn)用中的高效性以及物理資源使用中的便捷性,日益成為3G技術(shù)中的主導(dǎo)。

為了滿足3G的高技術(shù)復(fù)雜度以及高信號處理要求,基于FPGA/ASIC的專用硬件必須要符合不同用戶產(chǎn)品的規(guī)格。也就是說,在3G無線終端發(fā)展中,產(chǎn)品的尺寸、重量以及功率消耗這些參數(shù)將是十分關(guān)鍵和重要的決定因素。由此,系統(tǒng)芯片(SoC)作為一門新的設(shè)計(jì)方略被引入了3G的發(fā)展。SoC要求能夠?qū)^(qū)域有效信號處理算法與結(jié)構(gòu)的設(shè)計(jì)、發(fā)展都集成在一塊小的芯片上。

數(shù)字濾波器作為信號處理中最為常見的元件,被廣泛地應(yīng)用于無線通信的各個部分中。本文針對3G標(biāo)準(zhǔn)CDMA 2000中的脈沖成形FIR濾波器的ASIC實(shí)現(xiàn)進(jìn)行討論,并在此提出一種實(shí)效的實(shí)現(xiàn)結(jié)構(gòu):基于分布式運(yùn)算(DA)結(jié)構(gòu)的查表法。

二、脈沖成形濾波器

脈沖成形濾波器常用于旨在提高信號頻譜傳輸效率的基帶通信傳輸中。經(jīng)過D/A轉(zhuǎn)換后的成形濾波器通常是被設(shè)計(jì)為FIR濾波器,其作用是[1]:將信號的同相(I)和正交(Q)符號轉(zhuǎn)換為模擬的I、Q信號。

一般來說,F(xiàn)IR濾波器是需要有一個升余弦或者是平方根升余弦成形脈沖響應(yīng)的。這里需要注意的是,成形濾波器的采樣速率一般要求比輸入的I、Q符號速率要高(通常是其4~8倍)。因此,在此要有一個先于脈沖成形的過采樣。圖1描述了典型的成形過程,其中過采樣通過在連續(xù)的輸入采樣值中插入M-1個零值來實(shí)現(xiàn)的。CDMA2000標(biāo)準(zhǔn)中,對1個擴(kuò)頻速率的系統(tǒng)(碼片速率=1.2288 MCPS),用48階對稱系數(shù)FIR濾波器;對3個擴(kuò)頻速率的系統(tǒng)(碼片速率=3×1.2288 MCPS),用108階的濾波器。由于濾波器運(yùn)行在4倍碼片速率下,因此輸入的I、Q符號應(yīng)該是過采樣的4倍,即圖1中M=4。




假設(shè)FIR濾波器傳遞函數(shù)為H(z),根據(jù)十進(jìn)制/插補(bǔ)理論[2],通過如圖2所示對H(z)的多相分解(在圖中設(shè)M=4),能更有效地完成過采樣及濾波器功能。在圖2中,Hk(z)表示子濾波器的傳遞函數(shù),其脈沖響應(yīng)hk(n)=h(4n+k), n=0,1,…11是由對h(n)抽值得出的。多相結(jié)構(gòu)的優(yōu)點(diǎn)在于:單個子濾波器是工作在較低的抽樣速率上的,而將4個子濾波器相結(jié)合后,其系數(shù)總值與原來濾波器的H(z)系數(shù)相當(dāng)。也就是說,采用這個方法,整體的計(jì)算總量能減少3/4。同時(shí)從圖2可以看出,這種方法需要用到4個濾波器,因此就硬件的有效性來說,這并不是最理想的。
   
下面將介紹一種結(jié)構(gòu),對于ASIC來說它更加得實(shí)際、實(shí)效,同時(shí)也保留了多相分解的優(yōu)點(diǎn)。

三、分布式運(yùn)算體系

在分布式運(yùn)算(DA)運(yùn)算法則中,濾波器的輸出可以表示為

其中ak是固定的濾波器系數(shù);
xk是輸入數(shù)據(jù)字。
如果將xk表示成B比特的二進(jìn)制補(bǔ)碼,|xk|<1,則有

其中bki取值為0或是1,bk0是符號位,bk0為1表示數(shù)據(jù)為負(fù),bk0為0表示數(shù)據(jù)為正;bk,B-1是最低有效位(LSB)。將(2)式和(1)式合并后,我們可以得到y(tǒng)具體的比特位表達(dá)式[3]:

由于bki取值只有0或1, 則(4)式的值有2N種可能性。因此,可以預(yù)先算出這2N個局部結(jié)果并存放在一個固定的表中(表的寬度為對系數(shù)ak定義的寬度,深度為2N),N是能夠?qū)?shù)據(jù)源抽樣數(shù)據(jù)進(jìn)行處理的數(shù)據(jù)長度[3]。然后按照輸入的數(shù)據(jù),直接對該表尋址并將結(jié)果導(dǎo)入累加器中。在B-1次查表之后,累加器的寄存器存儲有(3)式第一項(xiàng)所示的結(jié)果。最后一個查表給出局部結(jié)果,也就是(3)式中的第二項(xiàng),用于表示符號位,并且在寄存器的右移位操作中不包括該項(xiàng),即將它從寄存器的右移過程中減去。因此,在整個程序中只有在符號位時(shí)鐘上會使用減法控制。

DA運(yùn)算法則如圖3所示。所需的基礎(chǔ)操作有:查表排序、加法、減法以及輸入數(shù)據(jù)序列的移位。運(yùn)用DA結(jié)構(gòu)的前提是:輸入抽樣值必須要表示為2個補(bǔ)碼并將其轉(zhuǎn)換成一個比特串行形式??偣残枰蠳個B比特的移位寄存器,每個寄存器在一個時(shí)鐘周期下產(chǎn)生1比特來生成一個用于查找表(LUT)地址(N比特寬)。LUT存儲了所有濾波器系數(shù)狀態(tài)可能的局部結(jié)果,這些局部結(jié)果在寄存器中進(jìn)行加權(quán)(每個周期除以2)和累加,直到每個移位寄存器的最后一位為止。



由于脈沖成形濾波器有著對稱的沖擊響應(yīng),因此先把使用同一個脈沖響應(yīng)系數(shù)的2個輸入取樣值進(jìn)行相加,然后相繼地把N/2個加法器的輸出結(jié)果送入DA進(jìn)行處理,如圖4[4]所示。所以,LUT的個數(shù)也就從2N個減少到了2N/2個。

圖5所示為通用的FIR成形濾波器結(jié)構(gòu)框圖。比較圖4與圖5后可以看出,運(yùn)用DA結(jié)構(gòu)可以在程序的編寫過程中大量減少乘法運(yùn)算,而乘法運(yùn)算在硬件程序中往往是占用資源最大的部分之一。運(yùn)用DA處理結(jié)構(gòu)能大大減少硬件資源,并在很大程度上提高程序運(yùn)算速度。



為了進(jìn)一步減小LUT的個數(shù),現(xiàn)在在過采樣中引入零抽樣值。設(shè)u(n)為過采樣程序塊的輸出序列:



類推,應(yīng)用u(n)后,48個抽頭中的36個采樣值將給定為零,這樣就有一半的加法器輸入為零采樣值,并在每個時(shí)鐘將零采樣值傳遞到對應(yīng)的乘法器。而另一半加法器的輸入值中也只有一個是非零采樣值。這樣一來,在第一級就能減少24個加法器和一半的乘法器,也就意味著運(yùn)算出一個輸出采樣值只需調(diào)用一半的濾波器系數(shù)。對一個碼片速率輸入采樣值x(n)來說,經(jīng)過運(yùn)算得出4個輸出采樣:y(n)、y(n+1)、y(n+2)以及y(n+3),其中y(n)和y(n+3)需要調(diào)用的系數(shù)(組一)如下:h(0)、h(3)、h(4)、h(7)、h(8)、h(11)、h(12)、h(15)、h(16)、h(19)、h(20)、h(23);而y(n+1)和y(n+2)需要調(diào)用的系數(shù)(組二):h(1)、h(2)、h(5)、h(6)、h(9)、h(10)、h(13)、h(14)、h(17)、h(21)、h(22)。這樣就可以完成如圖6所示的實(shí)效DA。輸入序列即為碼片速率采樣值,并且輸出的數(shù)據(jù)是碼片速率的4倍,每輸入一個采樣值可以得出4個輸出采樣值,內(nèi)部時(shí)鐘速率為4×B×碼片速率。DA運(yùn)行中,常用電路移位寄存器(CSR)來代替一個移位寄存器保存數(shù)據(jù),直到每個芯片間隔運(yùn)算出最后的輸出采樣值為止。一旦輸入一個新的采樣值,這些CSR就要更新一次。在芯片的持續(xù)時(shí)間中一共有4個循環(huán),每個循環(huán)經(jīng)歷B個時(shí)鐘并產(chǎn)生一個輸出采樣值。一個循環(huán)過后,CSR移位回歸到初始數(shù)據(jù),為下一個循環(huán)處理做準(zhǔn)備,以生成另一個輸出采樣值。圖6中的2個LUT分別存儲了兩組濾波器系數(shù)各自生成的局部結(jié)果。選擇器是用來決定在每個循環(huán)中選擇這兩組輸入分支的哪一組的,其中當(dāng)高位LUT的結(jié)果在循環(huán)1和2輸出,低位LUT結(jié)果在循環(huán)3和4輸出的時(shí)候選擇組一;當(dāng)高位LUT的結(jié)果在循環(huán)1和4輸出,低位LUT的結(jié)果在循環(huán)2和3輸出的時(shí)候選擇組二。累加器的寄存器在每個循環(huán)的起始都要進(jìn)行清零。



四、設(shè)計(jì)

現(xiàn)設(shè)計(jì)一個1比特輸入、14比特輸出的平方根升余弦滾降線性相位FIR數(shù)字濾波器,滾降系數(shù)為0.22,帶外衰減要求大于45 dB,即通帶內(nèi)(f<8.192MHz)的起伏小于0.5dB,阻帶外(f>10 MHz)的衰減大于45dB。在設(shè)計(jì)中選用了Alter公司的FPGA芯片-EP1K50QC208-3,該芯片有2 880個邏輯單元(LE),40960個片內(nèi)存儲器。本設(shè)計(jì)占用了387個LE和1088個片內(nèi)存儲器,分別占總資源的1.3%和2%。

經(jīng)過試驗(yàn),本結(jié)果已經(jīng)在FPGA中得到了實(shí)現(xiàn)。

五、結(jié) 論

從試驗(yàn)結(jié)果中可以看出,DA實(shí)現(xiàn)控制起來比較簡單并且時(shí)鐘速率較低,但是因?yàn)長UT的大小會隨著濾波器階數(shù)的增加呈指數(shù)增長,因此其門的數(shù)量也較多。在階數(shù)很大的濾波器中采用并行的FIR結(jié)構(gòu),每個并行的子濾波器以DA結(jié)構(gòu)實(shí)現(xiàn),這樣,控制起來就稍微有點(diǎn)復(fù)雜了。因此,如何去克服這方面的缺點(diǎn)還有待于繼續(xù)研究。

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。