123,123

利用Virtex-5 SXT 的高性能DSP解决方案

摘要： 　在未加工频率性能方面的损失，通过并行计算得到了弥补，而且得远大于失，可谓“失之东隅，收之桑榆”；由此获得的 DSP 带宽完全可与替代方案媲美。随着时间的推移，乘法器和加法器的实施越来越高效。1998 年，Xilinx 顺理成章推出了第一个集成于 Virtex-II FPGA 系列产品中的嵌入式乘法器。Xilinx Virtex-II 和 Virtex-II Pro 系列产品深得人心，推动基于 FPGA 的 DSP 更上层楼，打破了每秒十亿次 MAC 运算的壁障。

關(guān)鍵詞： FPGA Virtex-5 Virtex-II DSP

Abstract：

Key words :

　二十多年來(lái)，FPGA 為世人提供了最靈活、適應(yīng)性極強(qiáng)、快速的設(shè)計(jì)環(huán)境。早期的 DSP 設(shè)計(jì)人員發(fā)現(xiàn)，可將一種可再編程的門海用于數(shù)字信號(hào)處理。如果把內(nèi)置到 FPGA 架構(gòu)中的乘法器、加法器和累加單元結(jié)合起來(lái)，就可以利用大規(guī)模并行計(jì)算實(shí)現(xiàn)有效的濾波器算法。

　　在未加工頻率性能方面的損失，通過(guò)并行計(jì)算得到了彌補(bǔ)，而且得遠(yuǎn)大于失，可謂“失之東隅，收之桑榆”；由此獲得的 DSP 帶寬完全可與替代方案媲美。隨著時(shí)間的推移，乘法器和加法器的實(shí)施越來(lái)越高效。1998 年，Xilinx 順理成章推出了第一個(gè)集成于 Virtex-II FPGA 系列產(chǎn)品中的嵌入式乘法器。Xilinx Virtex-II 和 Virtex-II Pro 系列產(chǎn)品深得人心，推動(dòng)基于 FPGA 的 DSP 更上層樓，打破了每秒十億次 MAC 運(yùn)算的壁障。

　　在數(shù)字通訊、軍事、國(guó)防、視頻和圖像市場(chǎng)需求的助推下，Xilinx 進(jìn)一步做出調(diào)整，成功應(yīng)對(duì)了一系列獨(dú)特挑戰(zhàn)，使極大規(guī)模并行實(shí)施方式跨上又一個(gè)新臺(tái)階。隨著乘法器和加法器性能和數(shù)量的增長(zhǎng)，對(duì)功耗進(jìn)行管理也變得越來(lái)越困難。

　　Xilinx 的工程師們?cè)O(shè)計(jì)出了 DSP48 Slice，使這一難題迎刃而解。DSP48 Slice是一種超低功耗、高性能、全方位的數(shù)字信號(hào)處理元件，可方便地實(shí)現(xiàn)級(jí)聯(lián)，而不占用任何 FPGA 架構(gòu)資源。此元件在 Virtex-5 器件中得到進(jìn)一步加強(qiáng)，并重新命名為 DSP48E Slice，能支持更高的精度、SIMD（單指令多數(shù)據(jù)）操作、集成模式檢測(cè)電路和邏輯單元。

　　對(duì)快速數(shù)據(jù)輸入和系數(shù)存儲(chǔ)器的需求促使 Xilinx 構(gòu)建起一個(gè)數(shù)字信息處理平臺(tái)，其中的 DSP48E Slice 含有率之大前所未見(jiàn)，并且擁有極其充裕的 Block RAM 和分布式 RAM。作為畫龍點(diǎn)睛之筆，Xilinx 在此平臺(tái)中使用了運(yùn)行速度高達(dá) 3.125 Gbps 的集成高速串行通道，在芯片上移入和移出數(shù)據(jù)變得更為快捷。風(fēng)云際會(huì)，這些元件組合在一起，Virtex-5 SXT 平臺(tái)由此應(yīng)運(yùn)而生。
　　Virtex-5 SXT 引擎 – DSP48E Slice
　　想要理解 FPGA 中數(shù)字信號(hào)處理的演變過(guò)程，必須回顧一下 DSP48E Slice（見(jiàn)圖 1），及其設(shè)計(jì)的三個(gè)主要方面。

　　集成乘法器和第二階段。利用集成的二級(jí)加法器/減法器/累加器擴(kuò)展乘法器的運(yùn)算?，F(xiàn)在，在單獨(dú)一個(gè) DSP48E Slice 中，就可以執(zhí)行最常見(jiàn)的 DSP 運(yùn)算組合了。
　　緊縮實(shí)施。為了提高性能、降低功耗，各個(gè) DSP48E Slice 被設(shè)計(jì)成獨(dú)立元件，然后通過(guò)接口像積木塊一樣連接到一起，而每一個(gè) DSP48E Slice 都包含獨(dú)立于 FPGA 架構(gòu)的專用路徑和緩沖。
　　全方位定制設(shè)計(jì)。Xilinx 很早就確定，要實(shí)現(xiàn)高性能和低功耗，一個(gè)按照最新工藝尺寸度身打造的全方位定制設(shè)計(jì)是必不可少的。Xilinx 設(shè)計(jì)團(tuán)隊(duì)與 Arithmetica 通力協(xié)作，將乘法器和加法器電路 MathIP 庫(kù)加以集成，進(jìn)一步提高了效率。
　　以這種設(shè)計(jì)為依托，DSP48E Slice 的實(shí)施在性能和低功耗效率方面達(dá)到了前所未有的水平。Virtex-5 器件中的 DSP48E Slice 分別以高速 550 MHz、中速 500 MHz 和低速 450 MHz 運(yùn)行。無(wú)論您單獨(dú)使用一個(gè) DSP48E Slice 還是將所有 640 個(gè) DSP48E Slice 匯集到最大的 Virtex-5 SXT 器件中，都可以達(dá)到這一性能（使用專用的級(jí)聯(lián)邏輯實(shí)現(xiàn)每秒 3520 億次乘法累積運(yùn)算）。而且，實(shí)現(xiàn)這一令人嘆為觀止的性能，僅僅使用了 DSP48E Slice，完全沒(méi)有消耗邏輯或 FPGA 路徑資源。

　　這種專用的級(jí)聯(lián)邏輯意味著能耗的計(jì)算是基于每一個(gè) DSP48E Slice 的，也即其運(yùn)行速度和輸入的翻轉(zhuǎn)率。單個(gè) DSP48E Slice 的實(shí)測(cè)典型功耗為 1.38 mW/100 MHz。不難算出，假定 Virtex-5 SX95T 器件中所有 640 個(gè) Slice 均以 550 MHz 運(yùn)行，而翻轉(zhuǎn)率為通常的 38%，則所有 DSP48E Slice 的總體動(dòng)態(tài)功耗為 4.92W。
　　低功耗、高性能設(shè)計(jì)技術(shù)
　　為了充分利用獨(dú)特的 Virtex-5 SXT 架構(gòu)進(jìn)行數(shù)字信號(hào)處理，建議遵循如下的簡(jiǎn)易指南：

　　實(shí)施能最大化使用 DSP48E Slice 的濾波器算法。每一個(gè) 25 x 18 位的 DSP48E Slice 都等同于 500 個(gè)以上可編程邏輯 Slice，功耗為同等邏輯實(shí)施的 1/10，單獨(dú)或鏈接運(yùn)行速度高達(dá) 550 MHz。

　　利用 DSP48E Slice 的所有功能。每一個(gè) DSP48E Slice 都可配置成獨(dú)立的 25 x 18 乘法器，一個(gè) 25 x 18 位乘法器兼加法器/減法器/累加器，或者一個(gè) 48 x 48 位加法器或減法器。每一個(gè) DSP48E Slice 都支持 SIMD 運(yùn)行以及對(duì)稱或收斂圓整。

　　實(shí)施定點(diǎn)或浮點(diǎn)運(yùn)算。DSP48E Slice 不僅對(duì)于定點(diǎn) FIR、FFT 或復(fù)雜的過(guò)濾器運(yùn)算而言是理想的產(chǎn)品，25 x 18 的輸入大小和級(jí)聯(lián)路徑還使我們可以使用兩個(gè) DSP48E Slice 來(lái)實(shí)現(xiàn)高效的 24 x 24 無(wú)符號(hào)浮點(diǎn)運(yùn)算。
　　在數(shù)字信號(hào)應(yīng)用中使用 DSP48E Slice
　　Virtex-5 SXT 平臺(tái)中 DSP48E Slice、Block RAM、邏輯和數(shù)千兆位級(jí)收發(fā)器的獨(dú)特結(jié)合，為 DSP 過(guò)濾器的應(yīng)用提供了高成本效益、高性能、低功耗的解決方案。為了說(shuō)明這一點(diǎn)，讓我們看看 Virtex-4 SX 和 Virtex-5 SXT 器件平臺(tái)中無(wú)線卡的應(yīng)用，對(duì)比一下兩種情況下的功耗差別。

　　WiMAX 數(shù)字前端 (DFE) 集成了以下內(nèi)容：數(shù)字上變頻 (DUC) /數(shù)字下變頻 (DDC)、振幅因數(shù)縮小 (CFR) 和自動(dòng)增益控制 (AGC)。本設(shè)計(jì)中要求的過(guò)濾功能正好與一個(gè) Virtex-4 SX25 FPGA 或一個(gè) Virtex-5 SX35T FPGA 所能提供的 DSP48E Slice 相匹配。本設(shè)計(jì)運(yùn)行頻率為 276 MHz，消耗 Virtex-4 SX25 FPGA 中 73% 的 DSP48 資源（128 個(gè)中的 95 個(gè)），或者 Virtex-5 SX35T FPGA 中 48% 的 DSP48E 資源（196 個(gè)中的 95 個(gè)）。

　　盡管單看 WiMAX DFE 方案的表現(xiàn)和用于其實(shí)施的資源已令人驚嘆，真正堪稱一絕的還是其功耗效率。本設(shè)計(jì)主要使用 DSP48 或者 DSP48E Slice，但也消耗 Block RAM 和邏輯。表 1 對(duì)這些方案進(jìn)行了對(duì)比，并展示由 Virtex-4 到 Virtex-5 器件的實(shí)測(cè)功耗和降低水平。
　　結(jié)論
　　對(duì)數(shù)字信號(hào)處理的要求在不斷提高，提供可擴(kuò)展高性能 DSP 的呼聲日益響亮，因此，在每秒幾百 GMAC 甚至更高的水平上管理功耗的難題也愈見(jiàn)急迫。Xilinx Virtex-5 SXT FPGA 平臺(tái)提供了獨(dú)特的單芯片解決方案，充分利用大規(guī)模并行計(jì)算達(dá)到超高性能，同時(shí)將功耗降到最低。

圖 1 – Virtex-5 FPGA 中 DSP48E Slice 的結(jié)構(gòu)圖

表 1 – 真實(shí)應(yīng)用情況下的實(shí)測(cè)功耗

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容