??? 摘 ?要:簡要介紹了車流量檢測系統(tǒng),提出使用4顆TI公司高端數(shù)字信號處理器TMS320C6416構(gòu)建一種新型的并行圖像處理系統(tǒng)。該系統(tǒng)通過一個(gè)同步4口SRAM和PCI總線構(gòu)成互連結(jié)構(gòu),兼有緊耦合并行系統(tǒng)和松耦合并行系統(tǒng)的優(yōu)點(diǎn)。系統(tǒng)具有性能高、功耗和成本低、穩(wěn)定性和實(shí)時(shí)性好、可擴(kuò)展性強(qiáng)等優(yōu)點(diǎn)。
??? 關(guān)鍵詞:視頻檢測;數(shù)字信號處理器;并行系統(tǒng)
?
??? 交通信息視頻檢測系統(tǒng)是通過圖像分析的方式獲取交通信息數(shù)據(jù)的設(shè)備,是智能交通系統(tǒng)ITS(Intelligent Transportation Systems) 的重要組成部分[1-2]。此系統(tǒng)以道路上方架設(shè)的攝像機(jī)作為傳感器,將路面交通圖像傳到交通信息視頻檢測系統(tǒng),對圖像進(jìn)行實(shí)時(shí)分析,提取出車輛運(yùn)行交通信息數(shù)據(jù)(包括車流量、車速度、車輛密度等),通過一定的通信鏈路發(fā)給交通信息控制中心。此類系統(tǒng)具有準(zhǔn)確度高、壽命長、易維護(hù)等優(yōu)點(diǎn)。另外,大量的交通圖像數(shù)據(jù)和不斷發(fā)展的處理算法以及各種現(xiàn)實(shí)需求對硬件系統(tǒng)性能的要求越來越高,單一處理器必將不能滿足需要,并行、通用且處理能力強(qiáng)大的多處理器系統(tǒng)逐漸受到重視和應(yīng)用。本文提出一種新型的基于四核DSP并行體系結(jié)構(gòu)的交通信息視頻檢測系統(tǒng)的設(shè)計(jì)方案,采用4個(gè)DSP處理器并行處理圖像數(shù)據(jù),極大提高了系統(tǒng)數(shù)據(jù)處理能力和傳輸性能。
1視頻檢測系統(tǒng)整體方案
??? 目前交通信息視頻檢測系統(tǒng)較為復(fù)雜,而且穩(wěn)定性不高、價(jià)格昂貴、實(shí)時(shí)性不強(qiáng),需要專人管理,操作較為繁瑣。本設(shè)計(jì)系統(tǒng)框圖如圖1所示采用4核DSP結(jié)構(gòu),通過4個(gè)系統(tǒng)單元間通信接口的連接,將4個(gè)數(shù)字信號處理器DSP相結(jié)合,體現(xiàn)了4微處理器系統(tǒng)的優(yōu)勢。系統(tǒng)單元實(shí)現(xiàn)檢測算法并與外部設(shè)備交換數(shù)據(jù)。系統(tǒng)工作時(shí),CCD攝像頭采集車流圖像信號經(jīng)模數(shù)轉(zhuǎn)換得到數(shù)字視頻數(shù)據(jù),數(shù)字視頻數(shù)據(jù)存入視頻緩沖器FIFO中,存滿一行后向4×DSP系統(tǒng)發(fā)出中斷請求信號;DSP中斷CPU,將數(shù)字視頻數(shù)據(jù)傳輸?shù)絻?nèi)部存儲(chǔ)器SDRAM中,完成數(shù)字視頻圖像的采集和YUV變量分離,合成一幀完整的數(shù)字圖像數(shù)據(jù);然后產(chǎn)生中斷通知算法處理程序?qū)D像進(jìn)行處理,結(jié)果存儲(chǔ)在DSP地址空間約定好的緩沖區(qū)里,等待外部設(shè)備取走檢測結(jié)果,以作后續(xù)處理。
?
2 DSP簡介
??? DSP(數(shù)字信號處理器)自從1982年誕生以來,獲得了飛速的發(fā)展。本文采用4顆TI(Texas Instrument)公司高端DSP-TMS320C6416所設(shè)計(jì),具有主頻高、雙套外部地址和數(shù)據(jù)總線等特點(diǎn),非常適用于圖像處理等領(lǐng)域。有關(guān)該芯片的特點(diǎn)如下,詳細(xì)資料可見參考文獻(xiàn)[3]。
??? (1) DSP內(nèi)核采用超長指令字(VLIW)體系結(jié)構(gòu),有8個(gè)功能單元、64個(gè)32?? bit通用寄存器。一個(gè)時(shí)鐘周期同時(shí)執(zhí)行8條指令,運(yùn)算能力可達(dá)到 4800MIPS(每秒百萬條指令),支持8/16/32/64 bit的數(shù)據(jù)類型。兩個(gè)乘法累加單元一個(gè)時(shí)鐘周期可同時(shí)執(zhí)行4組16×16 bit乘法或8 組8×8bit乘法,每個(gè)功能單元在硬件上都增加了附加功能,增強(qiáng)了指令集的正交性。除此之外還增加了一些指令用以削減代碼長度和增加寄存器的靈活性;
??? (2)為使數(shù)據(jù)能保持對超快速DSP內(nèi)核的供給,TMS320C6416采用了兩級超高速緩存器,即16 KB的一級數(shù)據(jù)Cache、16 KB的一級程序Cache和1 024 KB的數(shù)據(jù)和程序統(tǒng)一內(nèi)存。為了達(dá)到更大的擴(kuò)展,1 024 KB內(nèi)存中的256 KB存儲(chǔ)空間可設(shè)置用作二級Cache;
??? (3)TMS320C6416的存儲(chǔ)器接口提供了到SDRAM、SBSRAM、異步器件如SRAM/ROM等存儲(chǔ)器的無終端接口,也可連接到外部I/O器件;
??? (4)在TMS320C6416 中,增加了一個(gè)PCI接口,支持32bit寬的地址和數(shù)據(jù)復(fù)用總線,工作頻率最高為33MHz;
??? (5)DSP器件比通用CPU家族的動(dòng)輒幾十瓦而言,其功耗一般在數(shù)瓦甚至毫瓦量級,這在各種功耗敏感場合顯示出獨(dú)特的優(yōu)勢,同時(shí)省去了繁雜的散熱系統(tǒng)。本文采用C6416,I/O電壓為3.3 V,內(nèi)核電壓為1.2 V。當(dāng)時(shí)鐘頻率為600 MHz時(shí),DSP的最大功耗小于1.6 W。
2.1 4×DSP的并行圖像處理系統(tǒng)
??? 使用4個(gè)TI公司高端數(shù)字信號處理器TMS320C6416構(gòu)建一種新型的并行圖像處理系統(tǒng)。該系統(tǒng)通過一個(gè)同步4口SRAM和系統(tǒng)總線構(gòu)成互連結(jié)構(gòu),兼有緊耦合并行系統(tǒng)和松耦合并行系統(tǒng)的優(yōu)點(diǎn)[4]。
2.2 4×DSP并行系統(tǒng)結(jié)構(gòu)
??? 圖像處理算法靈活多樣,而且還在不斷地迅速發(fā)展,為滿足日益復(fù)雜的圖像處理算法和逐漸變大的圖像規(guī)模,出于通用性考慮,系統(tǒng)中處理器之間需要靈活的、高帶寬的通信和握手機(jī)制。圖2給出了所設(shè)計(jì)的并行系統(tǒng)框圖,采用4顆TMS320C6416芯片,能較快完成以前一臺計(jì)算機(jī)需要長時(shí)間才能完成的任務(wù)。
?
????從圖2可以看出,該系統(tǒng)以緊耦合系統(tǒng)和松耦合系統(tǒng)為基礎(chǔ)構(gòu)架而設(shè)計(jì)的,結(jié)合了兩者的優(yōu)點(diǎn)。緊耦合系統(tǒng)通過共享的存儲(chǔ)器來實(shí)現(xiàn)處理器之間的通信,處理器之間的聯(lián)系比較緊密。松耦合系統(tǒng)中每個(gè)處理器節(jié)點(diǎn)帶有存儲(chǔ)器[5],處理器之間通過消息傳遞的方式來相互通信。該系統(tǒng)每個(gè)節(jié)點(diǎn)即是一臺完整的DSP處理器并且?guī)в蠸DRAM存儲(chǔ)器,屬于松耦合系統(tǒng);而所有節(jié)點(diǎn)共享一個(gè)同步4口SRAM存儲(chǔ)器,構(gòu)成的整體是一個(gè)單一計(jì)算資源,屬于緊耦合系統(tǒng)。因此,該系統(tǒng)具有緊耦合系統(tǒng)和松耦合系統(tǒng)的優(yōu)點(diǎn),相比于前面兩者具有增強(qiáng)的可用性和更好的性能。
2.3同步4口SRAM通道劃分
??? 將容量為128 KB的同步4口SRAM劃分為7個(gè)區(qū)域(見圖3),除一個(gè)公共區(qū)域外,其余6個(gè)區(qū)域用于DSP之間的互相通信。根據(jù)同步4口SRAM的特點(diǎn),這6個(gè)區(qū)域可以同時(shí)使用,即這6個(gè)區(qū)域?yàn)镈SP之間的通信構(gòu)建了獨(dú)立“通道”,通道之間相互獨(dú)立、互不干擾并可以同時(shí)使用。同步4口SRAM的總線頻率工作為133 MHz,數(shù)據(jù)寬度為16bit,其帶寬為266 MB。由于設(shè)計(jì)的對稱性,無論采用乒乓法還是熱土豆法來測量點(diǎn)到點(diǎn)的通信開銷,其結(jié)果都是一樣的。
?
2.4系統(tǒng)工作原理和性能分析
??? 數(shù)字視頻數(shù)據(jù)存入視頻緩沖器FIFO,這一速度可達(dá)266Mb/s。在DSP-1的DMA控制器作用下,前端數(shù)據(jù)緩沖FIFO中的數(shù)據(jù)被不斷地轉(zhuǎn)移到同步四口SRAM中,然后各個(gè)DSP分別或者同時(shí)讀取要處理的數(shù)據(jù)。因?yàn)榍岸薋IFO和同步四口SRAM都掛接在DSP-1的獨(dú)立接口上,因此數(shù)據(jù)分配過程不會(huì)打擾到DSP-1本身算法的執(zhí)行,甚至不會(huì)干擾到DSP-1對其外接的SDRAM存儲(chǔ)器的讀寫操作。各個(gè)DSP協(xié)同完成整個(gè)圖像處理算法,過程中可能會(huì)存在相互之間的通信或者數(shù)據(jù)交換,這同樣通過同步四口SRAM完成。初始化時(shí),各個(gè)DSP將程序分別下載到各自的代碼空間和數(shù)據(jù)空間;對數(shù)據(jù)處理完成后,再不斷地通過PCI總線將處理的結(jié)果分別送出。此外,系統(tǒng)上留有足夠的擴(kuò)展接口,方便對系統(tǒng)的進(jìn)一步擴(kuò)展。
??? 采用4個(gè)TI公司高端數(shù)字信號處理器TMS320C6416的并行圖像處理系統(tǒng)。單個(gè)的數(shù)字信號處理器TMS320C6416的頻率為600MHz,處理器的運(yùn)算能力4800MIPS,處理器的本地SDRAM為32 MB?,F(xiàn)在的4×DSP系統(tǒng),具有處理器的最高性能19 200 MIPS,系統(tǒng)具有總SDRAM為128 MB+128 KB。另外,考慮加速比和效率[6-7]。加速比指對某個(gè)特定的應(yīng)用,使用并行算法的執(zhí)行速度相對于串行算法的執(zhí)行速度所快的倍數(shù);并行系統(tǒng)的效率則指加速比與處理器個(gè)數(shù)之比。根據(jù)Amdahal定律[4],加速比會(huì)隨著處理器數(shù)目的增加而提高,但是存在極限,而且這一極限是由問題本身所決定的,因?yàn)殡S著處理器數(shù)目的增加,額外開銷會(huì)越來越大。對一幅1024×2048像素,每個(gè)像素1B的圖像進(jìn)行FFT運(yùn)算,單一處理器運(yùn)算時(shí)間為82 715.020 ms,4個(gè)處理器運(yùn)算時(shí)間為20 703.770 ms,可得加速比為3.995,并行系統(tǒng)的效率為99.88%??梢?,系統(tǒng)性能得到大幅提升。
??? 隨著數(shù)字信號處理器的飛速發(fā)展,圖像處理算法更加復(fù)雜,多個(gè)DSP并行協(xié)同工作的構(gòu)架將越來越多地被采用,應(yīng)用會(huì)更加廣泛。為滿足日益復(fù)雜的圖像處理算法和不斷增加圖像規(guī)模,采用4顆TMS320C6416芯片,設(shè)計(jì)了一套通用的高性能并行圖像處理系統(tǒng),能較快完成以前1臺計(jì)算機(jī)需要長時(shí)間才能完成的任務(wù)。該系統(tǒng)可以作為一個(gè)通用的視頻檢測的硬件平臺,實(shí)現(xiàn)多種檢測算法,具有很好的可擴(kuò)展性,容易在此基礎(chǔ)上進(jìn)行二次開發(fā)。實(shí)驗(yàn)和應(yīng)用結(jié)果表明,該系統(tǒng)能夠?qū)崟r(shí)地計(jì)算交通信息參數(shù),并實(shí)現(xiàn)圖像和數(shù)據(jù)的網(wǎng)絡(luò)傳輸,具有強(qiáng)大的視頻處理能力和網(wǎng)絡(luò)功能。總之,該方案靈活、簡單,能夠滿足實(shí)時(shí)性的要求,實(shí)踐證明可應(yīng)用于車流量檢測系統(tǒng)中以提高了系統(tǒng)的整體性能。
參考文獻(xiàn)
[1]? 王夏黎,周明全,耿國華,等.交通流視頻檢測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2004,21(9):68-71.
[2]? 周生兵,倪國強(qiáng),劉瓊.基于DSP的并行圖像處理系統(tǒng)[J].光電工程,2006,33(8):98-102.
[3]? 白軍元,賀占莊.高速通用DSP的并行技術(shù)[J].微電子學(xué)與計(jì)算機(jī),2003,20(4):32-34.
[4]? 陳國良.并行計(jì)算[M].北京:高等教育出版社,2003.
[5]? TI.TMS320C6414/15/16 fixed-point digital signal processors data book[Z].USA:Texas Instrument,2001.
[6]? YANG Zhao Xuan,LIN Tao,LI Xiang Ping,et al.Digital signal processing based real time vehicular detection system[J].Transactions of Tianjin University,2005,11(2):119-124.
[7]??MICHAEL J.F,KEVIN W. Parallel architectures[J].ACM Computing Surveys,1996,28(1):67-70.