摘 要: 針對(duì)3D視頻質(zhì)量評(píng)價(jià),基于人眼視覺系統(tǒng)HVS提出了一種新的加權(quán)SSIM評(píng)測(cè)方法。利用MVD深度視圖空間和時(shí)間上的特性,提取主觀權(quán)值映射,基于SSIM利用權(quán)值映射便得到了基于深度的SSIM加權(quán)算法DSSIM。實(shí)驗(yàn)結(jié)果表明,DSSIM比PSNR更趨近于HVS,比SSIM更充分地考慮了3D結(jié)構(gòu)信息,得到更準(zhǔn)確的3D視頻質(zhì)量評(píng)價(jià)。
關(guān)鍵詞: 3D視頻質(zhì)量評(píng)價(jià);深度視圖;權(quán)值映射;SSIM;3D視頻合成
近幾年,多媒體技術(shù)的進(jìn)步使得3D技術(shù)作為下一代傳媒系統(tǒng)而受到了廣泛的關(guān)注。全球重要的傳媒廣播公司均對(duì)3D視頻越來越重視。根據(jù)視頻輸入數(shù)據(jù)的不同類型,3D視頻可分為Multi-View Video(MVV)[1]、Multi-View Video Plus Depth(MVD)[2-3]以及Stereoscopic View。其中,MVV包含兩個(gè)或多個(gè)視圖,每個(gè)視圖包含一個(gè)視頻序列,它不包含幾何信息和深度信息。Stereoscopic View是MVV的一種,包括兩個(gè)視圖。MV由Single-View Video Plus Depth(VPD)合成得到[4]。視頻的紋理信息(Texture Information)和深度信息(Depth Information)在接收端被渲染成虛擬的立體視圖。深度視圖是一張灰度圖,包含每個(gè)像素點(diǎn)的深度信息,灰度的深淺代表物體距相機(jī)的遠(yuǎn)近。在利用深度視圖得到新的虛擬視圖的過程中,視頻中物體的圖像被轉(zhuǎn)換到它們應(yīng)當(dāng)?shù)奈恢?。所形成的虛擬立體視圖就像被一個(gè)水平位置平行于真實(shí)攝像機(jī)的虛擬攝像機(jī)拍攝的一樣。MVD格式一直是3D視頻的主要格式。
隨著3D研究的日益深入,如何評(píng)估3D視頻合成以及編碼傳輸?shù)雀鱾€(gè)方面的評(píng)估問題也得到廣泛的關(guān)注?,F(xiàn)在,一些針對(duì)3D圖像和視頻質(zhì)量的評(píng)估方法已經(jīng)在一些參考文獻(xiàn)中被提出。YASAKETHU S等人[5]使用平面的視頻質(zhì)量評(píng)價(jià)模型來評(píng)價(jià)3D視頻。BENOIT A等人[6]提出了一種融合平面質(zhì)量指標(biāo)和深度失真信息的3D視頻評(píng)價(jià)模型。YANG J等人[7]基于圖像的絕對(duì)差值,采用一組參數(shù)來衡量圖像的質(zhì)量和視頻的立體感。這些算法都是基于傳統(tǒng)的平面視頻質(zhì)量評(píng)價(jià)算法(如分析圖像邊緣特征和差異性),都集中分析3D靜態(tài)整體圖像,用來評(píng)價(jià)3D圖像或者視頻。但是,它們要達(dá)到很好的效果有一個(gè)重要的前提假設(shè),某個(gè)特定局部的質(zhì)量非常差,以至于影響到整體的主觀感知效果[8-9]。比如,用于視頻質(zhì)量評(píng)價(jià)的峰值信噪比PSNR(Peak Signal-to-Noise Ratio)和均方誤差MSE(Mean-Square Error)都不能正確評(píng)價(jià)3D視頻質(zhì)量。這兩種評(píng)測(cè)方法在一定條件下與HVS有較大的差異性[10]。為了趨近于HVS,設(shè)計(jì)更好的3D視頻質(zhì)量評(píng)價(jià)方法成為研究的一個(gè)重要目標(biāo)。
對(duì)于3D視頻,在產(chǎn)生真實(shí)3D視覺感受和不同物體的遠(yuǎn)近層次感過程中,深度信息是一個(gè)重要因素。參考文獻(xiàn)[11]研究了在VPD合成MVD的過程中,深度視圖的壓縮對(duì)合成后的MVD造成的影響。由未壓縮深度視圖和紋理視圖合成參考MVD,由壓縮深度視圖和紋理視圖合成測(cè)試MVD,對(duì)比參考MVD和測(cè)試MVD的PSNR,證明了深度視圖對(duì)MVD質(zhì)量的影響至關(guān)重要。但是文獻(xiàn)并沒有對(duì)深度視圖中的信息進(jìn)行提取和優(yōu)化,并且評(píng)價(jià)MVD的方法也過于粗糙,沒有利用深度視圖中的信息,如人眼通常會(huì)更加注意近景區(qū)域以及運(yùn)動(dòng)區(qū)域,而深度視圖與這兩個(gè)區(qū)域的信息息息相關(guān)。本文的研究對(duì)象正是參考文獻(xiàn)[11]中的參考MVD和測(cè)試MVD。依據(jù)深度視圖,從中提取近景信息和運(yùn)動(dòng)信息,組成該視頻的權(quán)值映射。在此基礎(chǔ)上提出了新的基于深度信息的加權(quán)的SSIM算法,該方法更加符合HVS特點(diǎn)。
1 基于深度的SSIM加權(quán)算法
MVD由多個(gè)視角的VPD合成,針對(duì)MVD視頻質(zhì)量的評(píng)價(jià),參考文獻(xiàn)[11]中采用PSNR的算法,但其主觀趨近性較差。本文首先用算法簡(jiǎn)單、高效且具備空間結(jié)構(gòu)信息等優(yōu)點(diǎn)的SSIM取代PSNR對(duì)MVD進(jìn)行質(zhì)量評(píng)價(jià),然后針對(duì)SSIM并未體現(xiàn)人眼感興趣區(qū)域的特性,結(jié)合深度信息提取權(quán)值映射,對(duì)SSIM算法進(jìn)行加權(quán)改進(jìn)。
1.1 深度視圖的壓縮對(duì)MVD質(zhì)量影響的評(píng)估
VPD合成MVD結(jié)構(gòu)示意如圖1所示。兩個(gè)單視圖視頻分別為PVDA和PVDB,它們均由相應(yīng)的深度視頻序列和紋理視頻序列組成。PVDA和PVDB是由固定于同一水平位置、間距固定的兩個(gè)攝像頭拍攝而得到的。本文使用View Synthesis Reference Software(VSRS)3.0[12]合成MVD,將未經(jīng)過壓縮的深度視圖和紋理視圖合成參考視圖MVDr,將壓縮的深度視圖和紋理視圖合成測(cè)試視圖MVDt,MVDr和MVDt使用同一來源的深度和紋理視圖,在相同系統(tǒng)中合成而得,唯一的差別在于深度視圖壓縮與否。合成視圖的質(zhì)量是通過MVDr和MVDt之間的PSNR來評(píng)價(jià)的。
1.2 結(jié)構(gòu)相似算法(SSIM)
考慮HVS的特性,Wang Zhou等人提出的基于結(jié)構(gòu)度失真的SSIM(Structural Similarity Index)評(píng)估方法被廣泛應(yīng)用在之后的各種模型中[13]。SSIM方法認(rèn)為自然圖像信號(hào)是高度結(jié)構(gòu)化的。從一個(gè)圖像形成的觀點(diǎn)來看,結(jié)構(gòu)性信息是平均亮度和對(duì)比度這些反映場(chǎng)景中物體結(jié)構(gòu)的信息。這就得到了SSIM算法的核心,即分別考量?jī)蓚€(gè)圖像中相應(yīng)塊的亮度、對(duì)比度和結(jié)構(gòu)信息,作為評(píng)價(jià)一個(gè)圖像質(zhì)量的方法。定義信號(hào)x、y之間的SSIM為:
2 實(shí)驗(yàn)結(jié)果
本文設(shè)計(jì)了一個(gè)實(shí)驗(yàn),用來驗(yàn)證DSSIM在針對(duì)含深度信息的3D合成視頻的質(zhì)量評(píng)價(jià)上,相比于傳統(tǒng)的PSNR、SSIM都有更好的效果。參考軟件使用了多視角合成VSRS 3.5, 壓縮使用的是JM15.0。
本文使用MPEG 3DV測(cè)試序列“ballet”(像素尺寸為1 024×768,幀數(shù)為100,幀率為15 Hz)。圖4是參考的ballet序列,圖5和圖6均為壓縮測(cè)試序列,所不同的是圖5在權(quán)值圖權(quán)值高的部分(近景主體的邊緣毛刺較多)產(chǎn)生了壓縮,圖6在權(quán)值圖權(quán)值低的部分(遠(yuǎn)景背景較模糊)產(chǎn)生了壓縮。
觀察圖4、圖5和圖6可以明顯看出,MVDt2的視覺效果更好,即主觀質(zhì)量評(píng)價(jià)較高,如圖5左上的圓圈處缺少了舞者頭發(fā)部分,左下的圓圈處缺少了小臂部分,右邊圓圈處出現(xiàn)了毛刺等。但是依據(jù)PSNR和SSIM值,MVDt2的質(zhì)量比MVDt1要差,這正好與主觀感知相反。只有DSSIM值才能跟隨主觀視覺效果得到MVDt2質(zhì)量較高(DSSIM值較大)的正確評(píng)判。
本文通過提取3D視頻的深度和運(yùn)動(dòng)信息,得到了3D視頻的權(quán)值映射圖。3D視頻中深度信息和運(yùn)動(dòng)信息是影響視頻質(zhì)量的重要因素,從中也可以提取人眼感興趣區(qū)域的信息。結(jié)合HVS特點(diǎn),繼而得到了基于深度的3D視頻客觀質(zhì)量評(píng)價(jià)方法DSSIM。實(shí)驗(yàn)結(jié)果表明,在傳統(tǒng)PSNR和SSIM模型都與主觀評(píng)價(jià)相悖的情況下,DSSIM依然能夠得到與主觀視覺相一致的結(jié)論。3D視頻對(duì)深度感知要求較高,基于深度的SSIM加權(quán)算法是一種較好的3D視頻質(zhì)量評(píng)價(jià)算法。
參考文獻(xiàn)
[1] TANIMOTO M. Overview of free viewpoint television[J]. Signal Processing: Image Communication, 2006,2(6):454-461.
[2] SMOLIC A, MULLER K, DIX K, et al. Intermediate view interpolation based on multiview video plus depth for advanced 3D video systems[C]. Proceedings of International Conference on Image Processing, 2008: 2448-2451.
[3] MERKLE P, SMOLIC A, MULLER K, et al. Multi-view video plus depth representation and coding[C]. Proceedings of IEEE International Conference on Image Processing, 2007(1):I-201-I-204.
[4] MERKLE P, WANG Y, MULLER K, et al. Video plus depth compression for mobile 3D services[C]. Proceedings of the 2009 IEEE EDTV Conference, 2009: 1-4.
[5] YASAKETHU S L P, HEWAGE C, FERNANDO W, et al. Quality analysis for 3D video using 2D video quality models[C]. IEEE Transactions on Consumer Electronics, 2008, 54(4): 1969-1976.
[6] BENOIT A, LECALLET P, CAMPISI P, et al. Using disparity for quality assessment of stereoscopic images[C]. ICIP 2008: the 15th IEEE International Conference on Image Processing, 2008: 389-392.
[7] YANG J, Hou Chunping, Xu Ran, et al. New metric for stereo image quality assessment based on HVS[J]. International Journal of Imaging Systems and Technology, 2010, 20(4):301-307.
[8] PINSON M H, WOLF S. A new standardized method for objectively measuring video quality[J]. IEEE Transactions on Broadcasting, 2004,50(3):312-322.
[9] MOORTHY A K, BOVIK A C. Visual importance pooling for image quality assessment[J]. IEEE Journal of Selected Topics in Signal Processing, 2009, 3(2): 193-201.
[10] WANG Z, BOVIK A C. Mean squared error: love it or leave it? A new look at signal fidelity measures[J]. Signal Processing Magazine, IEEE, 2009, 26(1):98-117.
[11] EL-YAMANY N A, UGUR K, HANNUKSELA M M, et al. Evaluation of depth compression and view synthesis distortions in multiview-video-plus-depth coding systems[C]. 3DTV-Conference: The True Vision-Capture, Transmission and Display of 3D Video(3DTV-CON), 2010: 1-4.
[12] TANIMOTO M, FUJIE T, SUZUKI K, et al. Reference softwares for depth estimation and view synthesis[DB/OL]. ISO/IEC JTC1/SC29/WG11, M15377, 2008.
[13] WANG Z, LU L, BOVIK A C. Video quality assessment based on structural distortion measurement[J]. Signal processing: Image communication, 2004, 19(2):121-132.