123,123,123

基于FPGA的流水线单精度浮点数乘法器设计

2017年微型机与应用第4期

彭章国1，张征宇1,2，王学渊1，赖瀚轩1，茆骥1

1. 西南科技大学信息工程学院，四川绵阳 621010；2. 中国空气动力研究与发展中心，四川绵阳 621000

摘要： 针对现有的采用Booth算法与华莱士（Wallace）树结构设计的浮点乘法器运算速度慢、布局布线复杂等问题，设计了基于FPGA的流水线精度浮点数乘法器。该乘法器采用规则的Vedic算法结构，解决了布局布线复杂的问题；使用超前进位加法器（Carry Lookahead Adder，CLA）将部分积并行相加，以减少路径延迟；并通过优化的4级流水线结构处理，在Xilinx ISE 14.7软件开发平台上通过了编译、综合及仿真验证。结果证明，在相同的硬件条件下，本文所设计的浮点乘法器与基4-Booth算法浮点乘法器消耗时钟数的比值约为两者消耗硬件资源比值的1.56倍。

關(guān)鍵詞： 浮点乘法器超前进位加法器华莱士树流水线结构

Abstract：

Key words :

　　彭章國1，張征宇1,2，王學(xué)淵1，賴瀚軒1，茆驥1

　?。?. 西南科技大學(xué) 信息工程學(xué)院，四川綿陽 621010；2. 中國空氣動力研究與發(fā)展中心，四川綿陽 621000）

摘要：針對現(xiàn)有的采用Booth算法與華萊士（Wallace）樹結(jié)構(gòu)設(shè)計(jì)的浮點(diǎn)乘法器運(yùn)算速度慢、布局布線復(fù)雜等問題，設(shè)計(jì)了基于FPGA的流水線精度浮點(diǎn)數(shù)乘法器。該乘法器采用規(guī)則的Vedic算法結(jié)構(gòu)，解決了布局布線復(fù)雜的問題；使用超前進(jìn)位加法器（Carry Lookahead Adder，CLA）將部分積并行相加，以減少路徑延遲；并通過優(yōu)化的4級流水線結(jié)構(gòu)處理，在Xilinx ISE 14.7軟件開發(fā)平臺上通過了編譯、綜合及仿真驗(yàn)證。結(jié)果證明，在相同的硬件條件下，本文所設(shè)計(jì)的浮點(diǎn)乘法器與基4-Booth算法浮點(diǎn)乘法器消耗時鐘數(shù)的比值約為兩者消耗硬件資源比值的1.56倍。

　　關(guān)鍵詞：浮點(diǎn)乘法器;超前進(jìn)位加法器;華萊士樹;流水線結(jié)構(gòu);Vedic算法;Booth算法

　　中圖分類號：TP331.2文獻(xiàn)標(biāo)識碼：ADOI： 10.19358/j.issn.1674-7720.2017.04.022

　　引用格式：彭章國，張征宇，王學(xué)淵，等.基于FPGA的流水線單精度浮點(diǎn)數(shù)乘法器設(shè)計(jì)［J］.微型機(jī)與應(yīng)用，2017,36（4）：74-77,83.

0引言

　　*基金項(xiàng)目：國家自然科學(xué)基金（51475453）；國家自然科學(xué)基金（11472297）浮點(diǎn)乘法器（eFloating Point Multiplier，F(xiàn)PM）是數(shù)字信號處理（eDigital Signal Processing，DSP）、視頻圖像處理以及信號識別等應(yīng)用鄰域重要的運(yùn)算單元。尤其是在視頻圖像處理領(lǐng)域，隨著對高速海量圖像數(shù)據(jù)處理的實(shí)時性要求逐漸提高，設(shè)計(jì)一種具有更高速率、低功耗、布局規(guī)律、占用面積小和集成度高的浮點(diǎn)乘法器極其重要。

　　陣列乘法器是采用移位與求和的算法而設(shè)計(jì)的一種乘法器［1］。陣列乘法器具有規(guī)則的結(jié)構(gòu)，易于布局布線等特點(diǎn)。隨著乘數(shù)位寬的增加，部分乘積的個數(shù)也成倍地增加，部分乘積項(xiàng)數(shù)目決定了求和運(yùn)算的次數(shù)，直接影響乘法器的速度。修正的Booth算法對乘數(shù)重新編碼，可以減少相加的部分乘積的數(shù)量，因?yàn)椴糠址e的存在，部分積相加過程與陣列乘法器沒有太大差異。為了實(shí)現(xiàn)速度的提高，Wallace樹結(jié)構(gòu)可以改變部分積求和方式，將求和級數(shù)從O（N）減少到O（logN）。因此現(xiàn)有很多乘法器設(shè)計(jì)都采用修正的Booth算法與Wallace樹結(jié)構(gòu)相結(jié)合的方法。但是Wallace樹結(jié)構(gòu)缺乏規(guī)整性，布局布線困難；引線的延長導(dǎo)致寄生電容增加，妨礙了電路速度的進(jìn)一步提高。同時不規(guī)則的結(jié)構(gòu)會增加硅板的面積，并且由于路由復(fù)雜而導(dǎo)致中間連接過程的增多，繼而導(dǎo)致功耗的增大［23］。

　　吠陀乘法器具有其獨(dú)特規(guī)則的結(jié)構(gòu)，隨著乘數(shù)位寬的增加，門延遲和面積的增加很緩慢，因此乘法器能夠在時間延遲、面積、功耗上達(dá)到最優(yōu)。文獻(xiàn)［4］設(shè)計(jì)了一種高速的4×4位吠陀乘法器，通過實(shí)驗(yàn)證明了4×4位吠陀乘法器比同位寬的陣列乘法器、Booth算法乘法器的運(yùn)算速度快；文獻(xiàn)［5］設(shè)計(jì)了單精度的浮點(diǎn)乘法器，其中尾數(shù)計(jì)算部分分別采用了吠陀乘法器和Booth算法乘法器兩種方法，結(jié)果證明吠陀乘法器在時間延遲和面積上都優(yōu)于Booth算法乘法器；文獻(xiàn)［6］在吠陀乘法器中分別采用行波進(jìn)位加法器（eRipple Carry Adders，RCA）和超前進(jìn)位加法器（eCarry Lookahead Adder，CLA）計(jì)算部分乘積的和，通過實(shí)驗(yàn)數(shù)據(jù)對比，采用超前進(jìn)位加法器可以獲得更高的速度和占更少的面積。然而對于海量的圖像數(shù)據(jù)進(jìn)行浮點(diǎn)數(shù)乘法運(yùn)算時，每一組數(shù)據(jù)從運(yùn)算開始到結(jié)束期間會產(chǎn)生時間延遲，可以在乘法器中加入流水線結(jié)構(gòu)來減少延遲時間，為此本文設(shè)計(jì)了一種基于吠陀數(shù)學(xué)的流水線浮點(diǎn)乘法器。

1總體設(shè)計(jì)

　　本文所設(shè)計(jì)的單精度浮點(diǎn)數(shù)乘法器主要包含以下幾個部分：24位吠陀乘法器、一個8位無符號加法器、一個9位無符號減法器、一個符號位計(jì)算單元和一個標(biāo)準(zhǔn)化單元。其結(jié)構(gòu)框圖如圖1所示。

　　1.1符號位與階碼計(jì)算

　　IEEE 754標(biāo)準(zhǔn)［7］為二進(jìn)制浮點(diǎn)運(yùn)算提供了一個精確的浮點(diǎn)數(shù)格式計(jì)算規(guī)范操作及異常處理。這一標(biāo)準(zhǔn)定義了32位單精度浮點(diǎn)數(shù)和64位雙精度浮點(diǎn)數(shù)兩種類型。它們都分別由符號位、尾數(shù)、階碼組成，表1給出了單精度浮點(diǎn)數(shù)格式，由式（1）表示為：

　　 {I{C{P3N`X%SRKGJA4%{3I6.png

　　式中S 代表符號位；Exp表示階碼；Bias為固定值，其值為127；M為尾數(shù)。

　?。?）符號位計(jì)算：兩個數(shù)相乘的結(jié)果的符號位由這兩個乘數(shù)的符號位相異或（）得到，如式（2）所示。

　　S=S1 I~41LN7R]%ED8WON%J7WZ1I.png S2（2）

　　式中S1、S2為兩個單精度度浮點(diǎn)數(shù)的符號位，S 為兩者之間的異或結(jié)果。

　　（2）階碼計(jì)算：該加法器模塊主要將兩個乘數(shù)的階碼相加，其結(jié)果再減去偏差值而得到相乘后結(jié)果的階碼，如式（3）所示。

　　PExp=AExp+BExp-Bias（3）

　　式中AExp、BExp為兩個單精度浮點(diǎn)數(shù)的階碼；Bias為固定值，其值為127。

　　1.224位吠陀乘法器的邏輯電路設(shè)計(jì)

　　吠陀乘法器是基于吠陀數(shù)學(xué)而設(shè)計(jì)的。吠陀數(shù)學(xué)是Sri Bharati Krishna Tirthaji（巴拉蒂·克里希納·第勒塔季）在研究印度古代吠陀經(jīng)文的基礎(chǔ)上重構(gòu)的數(shù)學(xué)計(jì)算體系，其中包括了算術(shù)、代數(shù)、幾何、三角函數(shù)和微積分等學(xué)科的處理方法。本文設(shè)計(jì)的24位吠陀乘法器是基于Urdhva Tiryakbhyam 圖22×2吠陀乘法器Sutra（字面意思是垂直和橫向）而設(shè)計(jì)的，2位吠陀乘法器的結(jié)構(gòu)框圖如圖2所示，它由4個與門和2個半加器組成，它是24位吠陀乘法器的基本組成單元。

　　根據(jù)2位吠陀乘法器的結(jié)構(gòu)，一個4位吠陀乘法器可以分解為4個2位吠陀乘法器和3個4位加法器，如圖3所示。

　　同理，一個8位吠陀乘法器可以由4個4位吠陀乘法器和3個8位加法器組成，因此，n位的吠陀乘法器能夠使用4個n/2位吠陀乘法器和3個n位的加法器實(shí)現(xiàn)。綜上，n位的吠陀乘法器被分解成n/2個n/2位的乘法器，然后這些較小位寬的乘法器（n/2位）再次分為更小位寬的乘法器（n/4位），直到被乘數(shù)位寬為2位，從而簡化整個增殖過程。

　　由吠陀乘法器的結(jié)構(gòu)可知，乘法器中會用到進(jìn)位加法器將各部分積并行相加，隨著加法器的引入，必然會產(chǎn)生路徑時間延遲，從而降低乘法器的運(yùn)算速度。本文使用CLA先行求得多位加法各位間的進(jìn)位值，它由進(jìn)位位產(chǎn)生進(jìn)位，各進(jìn)位彼此獨(dú)立，不依賴于進(jìn)位傳播，從而減少等待進(jìn)位所需要的時間延遲。其推導(dǎo)過程如下：

　　設(shè)二進(jìn)制加法器的第i位為 Ai 和 Bi ，輸出為Si，進(jìn)位輸入為 Ci，進(jìn)位輸出為 Ci+1，則有：

　　Si=Ai+Bi+Ci（4）

　　Ci+1=Ai&Bi+Ci&(Ai+Bi)（5）

　　令：Gi=Ai&Bi，Pi=Ai+Bi ，則有：

　　Ci+1=Gi+Ci&Pi（6）

　　只要 Gi=1 ，就會產(chǎn)生向 Ci+1 位的進(jìn)位，稱 Gi 為進(jìn)位產(chǎn)生函數(shù)。同樣，只要Pi=1，就會把 Ci 傳遞到 Ci+1 位；其中 Pi 為進(jìn)位傳遞函數(shù)。隨著位數(shù)的增加式（5）會加長，但總保持三個邏輯級的深度，因此形成進(jìn)位的延遲是與位數(shù)無關(guān)的常數(shù)。

　　24位吠陀乘法器結(jié)構(gòu)圖如圖4所示，其中包括1個16位吠陀乘法器、2個16×8位吠陀乘法器、1個8位吠陀乘法器、3個CLA。

　　1.3流水線結(jié)構(gòu)設(shè)計(jì)

　　為了提高FPM對批量數(shù)據(jù)的運(yùn)算速度，根據(jù)乘法器內(nèi)部獨(dú)特的結(jié)構(gòu)，乘法器中采用了4級流水線進(jìn)行處理，如圖5所示。通過對24位吠陀乘法器的結(jié)構(gòu)進(jìn)行分析可知，該乘法器主要由4個不同位寬的吠陀乘法器級聯(lián)而成，因此從最基本的2位吠陀乘法器單元出發(fā)，在每一個乘法器單元中加入了移位寄存器，形成流水線結(jié)構(gòu)。

2實(shí)驗(yàn)結(jié)果與分析

　　整個FPM設(shè)計(jì)使用Verilog HDL語言描述，然后在Xilinx ISE14.7集成軟件環(huán)境下進(jìn)行了編譯、綜合及功能仿真，最后在XiLinx公司的Virtex6（xc6vlx240t-1ff1156 ）硬件實(shí)驗(yàn)平臺上進(jìn)行了驗(yàn)證。FPM中尾數(shù)乘積部分是其最重要的部分，因此設(shè)計(jì)了采用Vedic、基2-Booth、基4-Booth三種算法的24位無符號整數(shù)乘法器，并對三種算法的乘法器消耗的硬件資源進(jìn)行了對比，如表2所示。

　　由表2可知，由于乘法器中每一級都包含了3個CLA，Vedic算法乘法器消耗的LUTs數(shù)目是三種算法乘法器中最多的，而在其他方面的資源消耗是最少的?；?-Booth算法乘法器相對于基2Booth算法乘法器消耗了更多的資源。

　　形如圖6~圖8所示。其中基2-Booth算法完成一次計(jì)算需要52個時鐘周期，基4-Booth算法需要15個時鐘周期，而Vedic算法乘法器由組合邏輯電路設(shè)計(jì)而成，不需要消耗時鐘周期。　　

　　表3列出了基2Booth、基4-Booth兩種算法設(shè)計(jì)的FPM與本文設(shè)計(jì)的基于吠陀數(shù)學(xué)的流水線FPM在消耗FPGA資源數(shù)目上的對比。

　　由表3所知，三種方法的FPM在資源、時鐘周期消耗上與無符號整數(shù)乘法器所得結(jié)論基本一致。其中基2Booth算法FPM完成一次計(jì)算需要52個時鐘周期，基4-Booth算法需要24個時鐘周期，Vedic算法的浮點(diǎn)乘法器需要9個時鐘周期。綜上，Vedic算法FPM在運(yùn)算速度上更快，這是因?yàn)榉屯映朔ㄆ鞯牟糠址e并行相加的結(jié)果，采用高速的超前進(jìn)位加法器，使得運(yùn)算速度進(jìn)一步提升。三種算法的浮點(diǎn)數(shù)乘法器的仿真波形如圖9~圖11所示。

　　通過計(jì)算基4-Booth FPM與本文設(shè)計(jì)的FPM消耗資源、時鐘周期數(shù)目的比值發(fā)現(xiàn)，本文設(shè)計(jì)的FPM與基4-Booth算法FPM消耗時鐘數(shù)的比值約為兩者消耗FPGA資源比值的1.56倍。

3結(jié)論

　　本文設(shè)計(jì)了一種基于吠陀數(shù)學(xué)的流水線FPM。乘法器采用Vedic算法，并在其結(jié)構(gòu)中采用超前進(jìn)位保留加法器將產(chǎn)生的部分積結(jié)果并行相加，從而減少了電路延遲，4級流水線結(jié)構(gòu)也使得乘法器運(yùn)算速度進(jìn)一步得到了提高。相比于華萊士樹算法相結(jié)合設(shè)計(jì)的乘法器，吠陀乘法器具有較規(guī)則的結(jié)構(gòu)，容易布局布線。雖然本文設(shè)計(jì)的浮點(diǎn)乘法器消耗了更多的資源，但是在速度上獲得了提高。

　　參考文獻(xiàn)

　　［1］胡正偉，仲順安．一種多功能陣列乘法器的設(shè)計(jì)方法［J］. 計(jì)算機(jī)工程， 2007, 33(22): 2325.

　　［2］夏煒，肖鵬．一種高效雙精度浮點(diǎn)乘法器［J］. 計(jì)算機(jī)測量與控制，2013, 21(4): 10171020.

　?。?］李飛雄, 蔣林．一種結(jié)構(gòu)新穎的流水線 Booth 乘法器設(shè)計(jì)［J］. 電子科技， 2013, 26(8):4648.

　　［4］ KARTHIK S, UDAYABHAUN P. FPGA implementation of high speed vedic multipliers［C］.International Journal of Engineering Research and Technology. ESRSA Publications, 2012, 1(10).

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容