摘 要: 提出了一種基于高頻幀攝像頭的高頻幀實時圖像壓縮技術,以此技術為基礎,使用TMS320Ctitle="DM642">DM642和EP2C35 FPGA相結合,設計了一種高頻幀實時圖像處理器硬件系統(tǒng)。該系統(tǒng)采用2片SRAM乒乓結構,以及基于TI公司DSP/BIOS和支持XDAIS的JPEG2000壓縮算法,實現(xiàn)了100幀/s的壓縮速度,系統(tǒng)同時解決了圖像壓縮中容量和速度的問題,實驗了采集和壓縮過程的同步進行,大大提高了圖像壓縮速度。
關鍵詞: DM642;乒乓緩存;XDAIS
目前使用的圖像采集系統(tǒng)輸入信號通常為PAL或者NTSL制式的CVBS復合信號,壓縮速度25幀/s(PAL)或者30幀/s(NTSC)。但在工業(yè)控制、航天以及安防領域,有時需要監(jiān)測快速移動的目標,或者瞬間發(fā)生的物理現(xiàn)象,事后還要對數(shù)據進行分析、處理。為了提高測量精度,通常需要采用高頻幀圖像采集系統(tǒng)。本文針對某Camera Link接口的圖像傳感器,設計了一個高頻幀圖像采集系統(tǒng),該系統(tǒng)能夠每秒采集100幀,并對其進行JPEG壓縮,壓縮完的數(shù)據通過RS422傳輸至遠處的監(jiān)測系統(tǒng)。
1 系統(tǒng)工作原理及硬件設計
系統(tǒng)由Camera Link接口模塊、以FPGA為核心的圖像采集預處理與傳輸單元、以DSP為核心的圖像壓縮單元以及RS422遠距離數(shù)據傳輸單元組成。由于采集、處理均需要訪問存儲器,為了降低成本,采用普通的異步SRAM,按功能區(qū)分可分為采集SRAM和壓縮處理SRAM。讀寫邏輯由FPGA控制,采用乒乓機制進行切換。整個系統(tǒng)結構如圖1所示。
系統(tǒng)工作過程:圖像信號經由LVDS轉換芯片后轉換成LVTTL信號,直接傳送至FPGA解碼為8位數(shù)據,以字節(jié)方式一行一行寫入SRAM靜態(tài)存儲器(存儲器由兩部分組成),用于乒乓緩存輸入數(shù)據,每部分滿1幀后由FPGA控制送出幀中斷給DSP,DSP啟動EDMA讀入1幀數(shù)據,采用JPEG2000方式編碼后連續(xù)寫入到FIFO_OUT,F(xiàn)PGA負責從FIFO_OUT讀出數(shù)據,非空即讀,緩存積累不會超過1幀數(shù)據。讀出的數(shù)據另行打包后以9 Mb/s的碼率通過DS26LV31 422接口芯片從out1接口輸出,或者分流后從out1和out2以各4.5 Mb/s的碼率輸出。
2 FPGA功能模塊設計
2.1 Camera Link接口模塊
Camera Link接口模塊負責對高頻幀數(shù)字攝像頭輸出的LVDS信號轉換為TTL標準信號。
關于Camera Link的采集數(shù)據的邏輯代碼,關鍵之處在于產生存儲器的地址信號、存儲器寫信號以及在對應的地址處將數(shù)據穩(wěn)定地寫進存儲器。本系統(tǒng)用像素時鐘產生列地址計數(shù)器、行同步信號產生行地址計數(shù)器,兩者拼接產生存儲器的地址信號。這樣產生的有效地址雖然不連續(xù),但意義明確,而且有利于顯示部分的隔行隔列顯示。對于8 bit的數(shù)據,可將2個有效數(shù)據拼接成16 bit后再存儲,這樣可以提高FPGA讀寫存儲器的速度。
Camera Link接口時序如圖2所示。
圖2中:VD為幀同步信號,電平模式,高電平有效;HD為行同步信號,脈沖模式,上升沿有效;PCLK為像素同步時鐘,脈沖模式;DATA為10 bit圖像數(shù)據,在PCLK的下降沿推出,接收端在PCLK上升沿采集,PCLK為常運行模式。每個VD有效期內有480個HD有效信號,在第0~478個HD有效時,每個HD有效期間有600個有效圖像數(shù)據,第479個HD(即每幀的最后1行)有效時,前600個DATA為有效圖像數(shù)據,600個DATA后預留6個字節(jié)輸出圖像相關信息,即第D600~D605為預留字節(jié)。
2.2 SRAM乒乓緩存
在圖像采集處理系統(tǒng)中,DSP的壓縮算法在實現(xiàn)時間上往往并不是固定不變的,然而前端的采集模塊卻使用均勻速度對圖像進行采集,這樣存在時間上的不同步,有可能會導致圖像數(shù)據的丟失和影響幀數(shù)據的完整性[2]。為此,本系統(tǒng)在采集和壓縮模塊之間增加1個緩沖電路來解決這一問題。
常用的緩沖電路主要有3種[3]:雙口RAM結構、FIFO結構和乒乓結構。由于乒乓結構可以使用相對比較便宜的高速大容量SRAM,而且可以實現(xiàn)數(shù)據的連續(xù)性,因此本系統(tǒng)采用了乒乓結構雙SRAM作為視頻數(shù)據的緩沖。在將1幀圖像的數(shù)據全部存儲完以后,DSP再利用很短的時間直接將1幀圖像數(shù)據讀入片內,這樣既可以保證不丟失像素數(shù)據、DSP可以連續(xù)采集每1幀像素數(shù)據,又能為DSP留出更多空余時間,為后面進行圖像處理提供可能。為了實現(xiàn)數(shù)據幀的完整性,必須保證讀取數(shù)據幀的優(yōu)先級要高于寫數(shù)據幀的優(yōu)先級,所以本系統(tǒng)的數(shù)據輸入輸出單元是根據數(shù)據處理流程來進行切換的。
乒乓控制模塊按照功能還分為:S0、S1、S2、S3 4個轉換狀態(tài)。其中,狀態(tài)S0為初始化狀態(tài)(所有信號都處于初始化狀態(tài)),系統(tǒng)加電或者復位后進入此狀態(tài);在S1狀態(tài),主要負責對SRAM0的寫入,不可以對SRAM1進行讀操作;在S2狀態(tài),主要負責對SRAM1進行寫操作,對SRAM0進行讀操作,當SRAM1寫完后,如果SRAM0未讀完,則繼續(xù)處于狀態(tài)S2,如果SRAM0讀完,則進入狀態(tài)S3;在S3狀態(tài),主要負責對SRAM0進行寫操作,對SRAM1進行讀操作,當SRAM0寫完后,如果SRAM1未讀完,則繼續(xù)處于狀態(tài)S3,如果SRAM1讀完,則進入狀態(tài)S2。乒乓控制模塊狀態(tài)轉換圖如圖3所示。
SRAM乒乓電路如圖4所示。圖中,wr_data為Camera Link接口接收到的只包含灰度信號的圖像數(shù)據。為了方便圖像數(shù)據的管理,每個像素、每行的像素都對應到了SRAM的固定地址,所以wr_addr為該像素在SRAM中的地址,同時也可以表示該像素在一幅圖像中的位置。CHANNEL_SEL為讀SRAM的標志位,0代表SRAM0,1代表SRAM1。
2.3 FIFO緩存模塊和RS422傳輸模塊
由于DSP向RS422模塊傳輸數(shù)據并不是勻速傳輸,而且傳輸速度比RS422的傳輸速度快很多倍,所以必須采用FIFO模塊。
3 DSP程序設計
TI公司的TMS320DM642芯片是一款高性能視頻處理器,其主頻可以高達600 MHz,數(shù)字處理能力可以達到4 800 MI/ps[3]。
DSP工作流程圖如圖5所示,DSP在相關外設與EDMA相關寄存器初始化完成后,才開始響應中斷事件觸發(fā)EDMA傳輸,在本系統(tǒng)中由EXITUINT4中斷上升沿觸發(fā)EDMA進行傳輸。在接收到FPGA發(fā)送的中斷信號后,開始進行EDMA傳輸,整個EDMA傳輸?shù)倪^程需要10 ms左右,傳輸完成后觸發(fā)EDMA中斷,在中斷服務函數(shù)中觸發(fā)1個軟中斷,在軟中斷服務函數(shù)中進行圖像數(shù)據的壓縮。
3.1 EDMA乒乓程序設計
在整個DSP的工作流程中,要實現(xiàn)圖像數(shù)據采集、壓縮、傳輸同時進行,則在DSP程序中需要1個雙緩沖buffer,在向buf1中采集圖像信號的時候,DSP可以對buf2中的數(shù)據進行壓縮,而在對buf2中進行采集的時候,DSP可以對buf1中的數(shù)據進行壓縮。
實現(xiàn)這個功能的方法是采用EDMA ping_pong方式。在DSP中使用hEdmaPing和hEdmaPong雙通道EDMA并建立PingBuffer和PongBuffer兩個數(shù)據存儲區(qū)。 當寫完1幀圖像后,F(xiàn)PGA發(fā)送EXTINT4中斷信號啟動hEdmaPing將數(shù)據搬移到PingBuffer,同時將通道鏈接至hEdmaPong。在下一個中斷事件發(fā)生時將數(shù)據搬移到PongBuffer中,CPU在hEdmaPong通道完成中斷服務程序中鏈接hEdmaPing通道。如此往復,使系統(tǒng)數(shù)據搬移和處理連續(xù)進行。
3.2 DSP/BIOS調度程序設計
僅僅采用EDMA乒乓方式進行EDMA數(shù)據傳輸還是不夠的,不能實現(xiàn)數(shù)據的采集和壓縮同時進行,還需要DSP/BIOS調度程序。在任務、硬件中斷、軟件中斷中進行調度,在軟中斷服務函數(shù)中進行圖像壓縮任務。
DSP/BIOS是TI公司所設計開發(fā)的、尺寸可裁剪的實時多任務操作系統(tǒng)內核,通過使用DSP/BIOS提供的豐富的內核服務,開發(fā)者能快速地創(chuàng)建滿足實時性能要求的精細復雜的多任務應用程序。
DSP/BIOS程序編寫過程如下:
(1)在DSP/BIOS配置面板中添加1個軟中斷jpeg_swi,并將該軟中斷的服務函數(shù)設置為jpeg。
(2)添加軟中斷服務函數(shù)jpeg();代碼如下:
void jpeg(void)
{
Uint32 i;
if(pingpong)
bitstream_length=my_jpegenc->fxns->encode(my_jpegenc,(XDAS_Int8**)buf0,output_bitstream_buffer);
else
bitstream_length=my_jpegenc->fxns->encode(my_jpegenc,(XDAS_Int8 **)buf1,output_bitstream_buffer);
submit_qdma();
while(!(EDMA_getPriQStatus()&EDMA_OPT_PRI_HIGH));
}
(3)在EDMA中斷服務函數(shù)中添加如下代碼:
SWI_post(&jpeg_swi);
該函數(shù)的作用是觸發(fā)jpeg_swi軟中斷。
4 系統(tǒng)關鍵技術
4.1 時鐘
在使用內部生成的時鐘過程中,可能引起設計上的功能和時限問題。組合邏輯產生的時鐘會引入毛刺,造成功能問題,而引入的延遲則可能會導致時限問題。
本設計中用到很多全局時鐘的整數(shù)倍分頻,且由于分頻的整數(shù)倍較大,如果利用FPGA中自帶的DCM模塊很難實現(xiàn)這樣的功能。因此,采用同步計數(shù)器的分頻方法,并且在各個時鐘信號輸出之前,再加一級寄存器輸出,這樣的操作就避免了組合邏輯生成的毛刺被阻擋在寄存器的數(shù)據輸入端口上。
4.2 DSP與FPGA數(shù)據交換
由于壓縮算法采用MECOSO公司的JPEG壓縮算法,經過優(yōu)化和處理后,壓縮1幅圖像僅需要4 ms。所以影響整個系統(tǒng)能否實現(xiàn)高頻幀的關鍵技術是EDMA向SDRAM中搬移數(shù)據的速度,在本設計中設幀圖像的大小為600×480=288 KB,傳輸1幅圖像所需的時間需要10 ms。影響其速度主要有2個因素:EMIF所使用的ECLOCK和EMIF相關設置的寄存器。
在本系統(tǒng)中,ECLOCK采用了DSP的CPU4分頻,使EMIF的CLOCK工作在150 MHz,大大提高了搬移速度。由于SRAM映射在DSP的CE2空間,考慮到讀取數(shù)據需要建立(setup)、選通(Strobe)和保持(Hold)3個步驟,故將CE2相關寄存器的建立時間和選通時間選擇為1個clk,經Hold時間設置為0。這樣設置后EMIF總線的數(shù)據吞吐量為:
本文設計的圖像壓縮系統(tǒng)實現(xiàn)了分辨率為600×480、幀頻率為100幀/s的視頻信號輸入的圖像采集,并能夠進行實時的JPEG壓縮。系統(tǒng)采用DSP+FPGA的方案,雖然是一種較常用的組織方式,但在該系統(tǒng)中解決了一些關鍵的問題,大大提高了圖像壓縮速度及系統(tǒng)的靈活性。本系統(tǒng)已經應用于航天領域某監(jiān)測系統(tǒng),效果良好,運行穩(wěn)定。
參考文獻
[1] 李武森,遲澤英,陳文建.高速DSP圖像處理系統(tǒng)中的乒乓緩存結構研究[J].光電子技術與信息,2005(3):76-79.
[2] 周如輝.實時視頻處理系統(tǒng)中乒乓緩存控制器的設計[J].電子元器件應用,2006,33(4):66-68.
[3] 江思敏,劉暢.TMS320C6000 DSP應用開發(fā)教程[M].北京:機械工業(yè)出版社,2005.