《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于DM642的X.264編碼器優(yōu)化
基于DM642的X.264編碼器優(yōu)化
現(xiàn)代電子技術(shù)
魏 江,劉 迪 西北工業(yè)大學(xué)
摘要: 基于DM642的X.264編碼器優(yōu)化,摘要:X.264編碼器注重實(shí)效性,在不明顯降低編碼性能的前提下,降低編碼的計(jì)算復(fù)雜度,摒棄了JM中一些耗時(shí)相對(duì)較大但對(duì)性能的提升影響很小的模塊,因此嵌入式系統(tǒng)中常選用X.264編碼器。移植到DSP平臺(tái)的X.264編碼器
關(guān)鍵詞: DSP DM642 X.264編碼器
Abstract:
Key words :

摘要:X.264編碼器" title="X.264編碼器">X.264編碼器注重實(shí)效性,在不明顯降低編碼性能的前提下,降低編碼的計(jì)算復(fù)雜度,摒棄了JM中一些耗時(shí)相對(duì)較大但對(duì)性能的提升影響很小的模塊,因此嵌入式系統(tǒng)中常選用X.264編碼器。移植到DSP平臺(tái)的X.264編碼器,編碼效率不佳,平均只有0.7 f/s。為了能夠在DSP平臺(tái)上進(jìn)行高效率的鳊碼,采用了代碼優(yōu)化以及DM642" title="DM642">DM642優(yōu)化2種優(yōu)化方式來(lái)優(yōu)化移植到DM642平臺(tái)的X.264編碼器。對(duì)優(yōu)化過(guò)后的X.264編碼器在DM642平臺(tái)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,優(yōu)化過(guò)后的X.264編碼器對(duì)CIF格式視頻序列的編碼時(shí)間大幅度的降低。
關(guān)鍵詞:X.264;DM642;軟件流水;函數(shù)合并;EDMA

0 引言
    H.264標(biāo)準(zhǔn)的全稱為“H.264/MPEG-4 part 10”,是由ITU-T和ISO/IEC共同成立的聯(lián)合視頻組(Joint Video Team,JVT)制定的新標(biāo)準(zhǔn)。H.264依然采用預(yù)測(cè)結(jié)合變換的混合編碼方案,為了在相同的編碼框架下得到更高的視頻壓縮編碼性能和更廣泛的適用性,H.264標(biāo)準(zhǔn)引入了許多新技術(shù),如1/4,1/8像素精度的運(yùn)動(dòng)估計(jì)、多參考幀的幀間預(yù)測(cè)、幀內(nèi)預(yù)測(cè)、環(huán)路濾波和自適應(yīng)算術(shù)編碼等。H.264視頻編碼標(biāo)準(zhǔn)在編碼質(zhì)量和壓縮比上比原有的視頻編碼標(biāo)準(zhǔn)都有了明顯的提高。
在相同的視覺(jué)感知質(zhì)量上,編碼效率比之前的編碼方式提高了50%。H.264標(biāo)準(zhǔn)的編碼性能超越了以往所有的視頻編碼標(biāo)準(zhǔn),具有很好的應(yīng)用前景,大量的應(yīng)用于視頻壓縮和視頻監(jiān)控。
    目前,H.264編解碼標(biāo)準(zhǔn)的研究主要分為算法研究和硬件實(shí)現(xiàn)兩大類,硬件實(shí)現(xiàn)的方案主要分為3種:
    (1)基于PC平臺(tái)的方案。此方案為純軟件實(shí)現(xiàn)編解碼,利用MMX和SSE/SSE2等多媒體指令集來(lái)優(yōu)化程序,具有開(kāi)發(fā)成本低和周期短等優(yōu)點(diǎn)。PC機(jī)的CPU體系結(jié)構(gòu)并不適合處理數(shù)字信號(hào),故CPU的有效利用率比較低。
    (2)基于ASIC芯片的純硬件方案。此方案將視頻編解碼算法固化成硬件,具有集成度高和開(kāi)發(fā)周期短等優(yōu)點(diǎn),但是專用型比較強(qiáng),產(chǎn)品不易升級(jí)。目前市場(chǎng)上已經(jīng)出現(xiàn)了H.264的編解碼芯片,如Fujitsu的MB86H51、Hisilcon的GOALTMHi3510和JVC公司的JCY0237 LSI等。
    (3)基于DSP的軟硬件結(jié)合方案。此方案利用DSP芯片和其它外圍芯片來(lái)構(gòu)成處理系統(tǒng),具有開(kāi)發(fā)靈活性高、處理能力強(qiáng)、開(kāi)發(fā)周期低、功耗低和易升級(jí)等優(yōu)點(diǎn)。隨著DSP性價(jià)比的不斷提高,該方案已經(jīng)成為目前H.264編碼器硬件實(shí)現(xiàn)的理想方案。
    H.264編解碼標(biāo)準(zhǔn)具有壓縮比高、適應(yīng)性廣、容錯(cuò)能力強(qiáng)和圖像恢復(fù)質(zhì)量高等特點(diǎn),在實(shí)時(shí)系統(tǒng)中具有很好的應(yīng)用前景。TMS320DM642是TI公司推出的一款針對(duì)視頻和圖像處理領(lǐng)域應(yīng)用的數(shù)字多媒體處理芯片,具有處理能力強(qiáng)和集成度高等特點(diǎn),是目前實(shí)現(xiàn)H.264視頻編碼器的理想芯片之一。很多國(guó)內(nèi)外公司都在開(kāi)發(fā)或已經(jīng)開(kāi)發(fā)出了基于DM642開(kāi)發(fā)視頻監(jiān)控系統(tǒng)。

1 X.264編碼器移植
    X.264是由法國(guó)巴黎中心學(xué)校的中心研究所于2004年6月發(fā)起,由許多視頻愛(ài)好者共同完成的項(xiàng)目,它注重實(shí)效性,在不明顯降低編碼性能的前提下,努力降低編碼的計(jì)算復(fù)雜度,摒棄了JM中一些耗時(shí)相對(duì)較大但對(duì)性能的提升影響很小的模塊,如多參考幀、幀間預(yù)測(cè)中不必要的塊模式、CABAC等。X.264編碼器在程序結(jié)構(gòu)上,利用了MMX/SSE/SSE2等基于X86構(gòu)架的多媒體硬件加速指令。需要將相關(guān)的X86指令屏蔽,對(duì)部分函數(shù)進(jìn)行精簡(jiǎn),使其結(jié)構(gòu)簡(jiǎn)單易于在DSP上執(zhí)行。簡(jiǎn)單移植過(guò)后的X.264編碼器,在DM642平臺(tái)上的編碼效率極低,表1為移植過(guò)后的X.264編碼器在DM642平臺(tái)上編碼結(jié)果。

a.jpg


    由結(jié)果可以看出,移植完成后的X.264在DM642平臺(tái)上的編碼效率非常低,只能達(dá)到平均0.6 f/s的編碼速率,需要進(jìn)一步針對(duì)X.264編碼器和DM642的特性來(lái)優(yōu)化以提高編碼效率。

2 X.264編碼器的優(yōu)化
2.1 編碼器參數(shù)設(shè)置
    X.264編碼器在VC下的優(yōu)化使用了一些平臺(tái)相關(guān)的硬件加速指令,所以在VC調(diào)試下的X.264編碼器參數(shù)在DSP平臺(tái)上執(zhí)行將對(duì)編碼速度產(chǎn)生很大的影響。在CCS中優(yōu)化X.264編碼器時(shí),在不影響編碼質(zhì)量的情況下修改部分參數(shù)以提高編碼的速度。
    (1)關(guān)閉環(huán)路濾波:環(huán)路濾波器能使解碼圖像的主觀質(zhì)量有所提高,但環(huán)路濾波器只對(duì)提高壓縮效率做出很小的貢獻(xiàn)。如果采用環(huán)路濾波將降低1 ms的編碼時(shí)間。不使用環(huán)路濾波對(duì)圖像的解壓本身沒(méi)有太大影響,而DSP注重速率的情況下關(guān)閉環(huán)路濾波可以獲得更高的編碼速度。表2對(duì)有無(wú)環(huán)路濾波的編碼圖像的峰值信噪比進(jìn)行了對(duì)比,從表中可以看出環(huán)路濾波對(duì)編碼的質(zhì)量影響有限。

b.jpg


    (2)對(duì)P幀使用半像素搜索,不采用1/4像素搜索。表3列出了半像素搜索與1/4像素搜索的時(shí)鐘周期對(duì)比圖。從表中可以看到,采用P幀半像素搜索方式對(duì)編碼速度提升30%以上,并且視覺(jué)上解壓出來(lái)的圖像沒(méi)有明顯失真。
    (3)對(duì)全像素塊運(yùn)動(dòng)預(yù)測(cè)搜索的方式,X.264默認(rèn)為HEX(正六邊形搜索半徑為2),在對(duì)比測(cè)試了DIA(菱形搜索,半徑為1)和UMH(可變半徑六邊形搜索)后,對(duì)比了速率和峰值信噪比后,發(fā)現(xiàn)在峰值信噪比相差很小的情況下DIA搜索速率最快,本文選擇DIA作為運(yùn)動(dòng)預(yù)測(cè)搜索方式。表4給出3種方式的對(duì)比結(jié)果:

c.jpg


2.2 X.264代碼優(yōu)化
    X.264編碼器需要有效的利用DM642的特性,如軟件流水,芯片特性和指令集等,才能有效的提高X.264編碼器在DM642平臺(tái)的編碼效率。為了X.264能夠充分的利用起DM642的特性,需要結(jié)合DM642本身的特點(diǎn)對(duì)移植過(guò)后的X.264代碼進(jìn)行優(yōu)化,才能夠提高X.264在DM642上執(zhí)行的效率。
    TI公司的DSP開(kāi)發(fā)軟件CCS提供了功能非常強(qiáng)大的編譯器,編譯工具可以對(duì)代碼進(jìn)行各種優(yōu)化,以提高代碼的執(zhí)行速度,減小代碼尺寸。這些優(yōu)化包括了簡(jiǎn)化循環(huán)、軟件流水、語(yǔ)句和表達(dá)式的順序重排和分配變量到寄存器。利用CCS編譯器進(jìn)行優(yōu)化后,仍然不能滿足視頻壓縮的需求,需要繼續(xù)對(duì)DM642上的X.264編碼器進(jìn)行優(yōu)化。
    (1)內(nèi)聯(lián)函數(shù)。內(nèi)聯(lián)函數(shù)是指用函數(shù)本身來(lái)代替函數(shù)調(diào)用這一過(guò)程。當(dāng)調(diào)用內(nèi)聯(lián)函數(shù)時(shí),C/C++源代碼把此函數(shù)插入到調(diào)用點(diǎn),而不采用傳統(tǒng)的跳轉(zhuǎn)。將函數(shù)設(shè)定為內(nèi)聯(lián)函數(shù)后,可以去掉復(fù)雜的函數(shù)調(diào)用過(guò)程來(lái)提高函數(shù)的執(zhí)行效率,而付出的代價(jià)是增加了代碼所占用的空間。使用關(guān)鍵字inline定義內(nèi)聯(lián)函數(shù),在X.264編碼器中的預(yù)測(cè)部分對(duì)其中一個(gè)頻繁調(diào)用的函數(shù)設(shè)置為內(nèi)聯(lián)。代碼如下:
    static inline inI clip_uint8(int a)
    (2)restrict關(guān)鍵字。為了幫助編譯器確定存儲(chǔ)器相關(guān)性,可以使用關(guān)鍵字restrict來(lái)限定指針、引用或數(shù)組。使用restrict關(guān)鍵字是為了確保其限定的指針在聲明的范圍內(nèi),是指向特定對(duì)象的惟一指針。編譯器在讀取函數(shù)的指針,數(shù)據(jù)時(shí),采取保守的辦法,認(rèn)為它們是相關(guān)的。這時(shí)編譯出的代碼必須執(zhí)行完前次寫(xiě)操作,才能開(kāi)始下次讀取操作。加入restrict關(guān)鍵字后,編譯器將認(rèn)為指針和數(shù)組沒(méi)有相關(guān)性,能夠并行提取數(shù)據(jù)。
    (3)軟件流水。軟件流水式編排循環(huán)指令是能夠使循環(huán)的多次迭代并行執(zhí)行的技術(shù)。編譯器總是力爭(zhēng)使用軟件流水技術(shù)。軟件流水是DSP的關(guān)鍵技術(shù),它利用的是算法中存在的指令并行性的特點(diǎn),使一個(gè)循環(huán)的多次迭代同時(shí)進(jìn)行??偟貋?lái)說(shuō),當(dāng)使用編譯器優(yōu)化的情況下,代碼尺寸小,程序性能更優(yōu)。x.264代碼含有很多循環(huán)操作,故提高循環(huán)體指令的并行度使循環(huán)能夠軟件流水是提高編碼效率的有效途徑之一。
    (4)函數(shù)合并。函數(shù)調(diào)用的過(guò)程中,要執(zhí)行一些額外的寄存器。在編碼過(guò)程中DCT、量化、zigzag、IDCT和反量化函數(shù)調(diào)用都非常頻繁,但代碼段都很短,部分代碼只包含一個(gè)循環(huán)操作或者賦值操作。反復(fù)的調(diào)用會(huì)花費(fèi)大量運(yùn)行周期在函數(shù)調(diào)用上。為減少不必要的操作,提高速度,將DCT變換、量化、反量化和反DCT變化的整個(gè)過(guò)程進(jìn)行優(yōu)化,將幾個(gè)函數(shù)合并到一個(gè)函數(shù)中。圖1所示為合并結(jié)構(gòu)。

d.jpg


2.3 DM642的優(yōu)化
    (1)CACHE優(yōu)化。DM642采用了兩級(jí)CACHE的存儲(chǔ)器結(jié)構(gòu),兩級(jí)CACHE主要用于對(duì)程序和數(shù)據(jù)的緩存。CPU直接和一級(jí)CACHE連接,一級(jí)CACHE包括L1P(程序)和L1D(數(shù)據(jù)),大小分別為16 KB,分別占用獨(dú)立的存儲(chǔ);一級(jí)CACHE的存儲(chǔ)速度與CPU處理速度相同。一級(jí)CACHE與二級(jí)CACHE相連,稱為L(zhǎng)2,大小為256 kB,可以對(duì)程序和數(shù)據(jù)進(jìn)行統(tǒng)一存取,L2 CACHE作為L(zhǎng)1CACHE和片外存儲(chǔ)器之間的一個(gè)橋梁,可以由設(shè)計(jì)人員自行配置大小,分為SRAM和CACHE。L2CACHE的速度為CPU的一半。經(jīng)過(guò)試驗(yàn)對(duì)比,將L2分為128 kBCACHE和128 kB SRAM。將部分調(diào)用比較頻繁的函數(shù)和數(shù)據(jù)常量放在L2SRAM中,以提高讀寫(xiě)速度。
    (2)EDMA。EDMA是增強(qiáng)的直接存儲(chǔ)器訪問(wèn),增加了高達(dá)64個(gè)傳輸通道,每個(gè)通道相互獨(dú)立,且通道間的優(yōu)先級(jí)可以設(shè)置。CIF格式的圖像格式為352×288,一幀數(shù)據(jù)需要101 376 b,L2的CACHE容量有限,不能將所需要的參考幀和當(dāng)前編碼幀都放到片內(nèi)CACHE中。X.264處理的最小模塊為宏塊16×16,將當(dāng)前編碼宏塊保存到片內(nèi)CACHE中來(lái)提速,DSP運(yùn)行的同時(shí)將片外的下一編碼宏塊傳輸?shù)狡瑑?nèi)。采用EDMA的ping-pong緩沖技術(shù)可以對(duì)X.264編碼器的數(shù)據(jù)傳輸部分進(jìn)行優(yōu)化。這樣既利用了DM642片內(nèi)數(shù)據(jù)存儲(chǔ)速度快的優(yōu)點(diǎn),又避免了使用較多的片內(nèi)存儲(chǔ)空間。ping-pong緩沖結(jié)構(gòu)中EDMA與CPU的工作原理如圖2所示。

e.jpg



3 優(yōu)化結(jié)果
    完成對(duì)代碼的優(yōu)化過(guò)后,通過(guò)CCS的編譯將x264.out文件加載到DM642目標(biāo)板上,使用了5個(gè)CIF實(shí)驗(yàn)序列來(lái)測(cè)試優(yōu)化過(guò)后的編碼速率。  CIF序列編碼的幀數(shù)為100幀,量化系數(shù)為28。通過(guò)CCS所提供的clock工具記錄測(cè)試序列中編碼一幀圖像所需要的CPU時(shí)鐘數(shù)。實(shí)驗(yàn)測(cè)得的編碼速率數(shù)據(jù)如表5所示。

f.jpg


    將X.264簡(jiǎn)單DSP代碼化移植到DM642上,編碼速率很低,只有平均0.6 f/s。對(duì)比表中所示的數(shù)據(jù)可知,對(duì)于紋理簡(jiǎn)單,運(yùn)動(dòng)不激烈的視頻序列,編碼幀數(shù)可達(dá)15 f/s左右,對(duì)于運(yùn)動(dòng)激烈,背景紋理較復(fù)雜的視頻序列,則只有10 f/s左右。通過(guò)解壓圖片可以看出,解碼后的圖像沒(méi)有發(fā)生明顯的失真。

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。