123,123,123

基于深度的3D视频质量评价

来源：微型机与应用2013年第3期

孙延，岑峰

（同济大学电子与信息工程学院，上海201804）

摘要： 针对3D视频质量评价，基于人眼视觉系统HVS提出了一种新的加权SSIM评测方法。利用MVD深度视图空间和时间上的特性，提取主观权值映射，基于SSIM利用权值映射便得到了基于深度的SSIM加权算法DSSIM。实验结果表明，DSSIM比PSNR更趋近于HVS，比SSIM更充分地考虑了3D结构信息，得到更准确的3D视频质量评价。

關鍵詞： 软件 3D视频质量评价深度视图权值映射 SSIM 3D视频合成

Abstract：

Key words :

摘要： 針對3D視頻質量評價，基于人眼視覺系統(tǒng)HVS提出了一種新的加權SSIM評測方法。利用MVD深度視圖空間和時間上的特性，提取主觀權值映射，基于SSIM利用權值映射便得到了基于深度的SSIM加權算法DSSIM。實驗結果表明，DSSIM比PSNR更趨近于HVS，比SSIM更充分地考慮了3D結構信息，得到更準確的3D視頻質量評價。
關鍵詞： 3D視頻質量評價；深度視圖；權值映射；SSIM；3D視頻合成

　近幾年，多媒體技術的進步使得3D技術作為下一代傳媒系統(tǒng)而受到了廣泛的關注。全球重要的傳媒廣播公司均對3D視頻越來越重視。根據(jù)視頻輸入數(shù)據(jù)的不同類型，3D視頻可分為Multi-View Video（MVV）[1]、Multi-View Video Plus Depth（MVD）[2-3]以及Stereoscopic View。其中，MVV包含兩個或多個視圖，每個視圖包含一個視頻序列，它不包含幾何信息和深度信息。Stereoscopic View是MVV的一種，包括兩個視圖。MV由Single-View Video Plus Depth（VPD）合成得到[4]。視頻的紋理信息（Texture Information）和深度信息（Depth Information）在接收端被渲染成虛擬的立體視圖。深度視圖是一張灰度圖，包含每個像素點的深度信息，灰度的深淺代表物體距相機的遠近。在利用深度視圖得到新的虛擬視圖的過程中，視頻中物體的圖像被轉換到它們應當?shù)奈恢?。所形成的虛擬立體視圖就像被一個水平位置平行于真實攝像機的虛擬攝像機拍攝的一樣。MVD格式一直是3D視頻的主要格式。
　隨著3D研究的日益深入，如何評估3D視頻合成以及編碼傳輸?shù)雀鱾€方面的評估問題也得到廣泛的關注?，F(xiàn)在，一些針對3D圖像和視頻質量的評估方法已經在一些參考文獻中被提出。YASAKETHU S等人[5]使用平面的視頻質量評價模型來評價3D視頻。BENOIT A等人[6]提出了一種融合平面質量指標和深度失真信息的3D視頻評價模型。YANG J等人[7]基于圖像的絕對差值，采用一組參數(shù)來衡量圖像的質量和視頻的立體感。這些算法都是基于傳統(tǒng)的平面視頻質量評價算法（如分析圖像邊緣特征和差異性），都集中分析3D靜態(tài)整體圖像，用來評價3D圖像或者視頻。但是，它們要達到很好的效果有一個重要的前提假設，某個特定局部的質量非常差，以至于影響到整體的主觀感知效果[8-9]。比如，用于視頻質量評價的峰值信噪比PSNR（Peak Signal-to-Noise Ratio）和均方誤差MSE（Mean-Square Error）都不能正確評價3D視頻質量。這兩種評測方法在一定條件下與HVS有較大的差異性[10]。為了趨近于HVS，設計更好的3D視頻質量評價方法成為研究的一個重要目標。
　對于3D視頻，在產生真實3D視覺感受和不同物體的遠近層次感過程中，深度信息是一個重要因素。參考文獻[11]研究了在VPD合成MVD的過程中，深度視圖的壓縮對合成后的MVD造成的影響。由未壓縮深度視圖和紋理視圖合成參考MVD，由壓縮深度視圖和紋理視圖合成測試MVD，對比參考MVD和測試MVD的PSNR，證明了深度視圖對MVD質量的影響至關重要。但是文獻并沒有對深度視圖中的信息進行提取和優(yōu)化，并且評價MVD的方法也過于粗糙，沒有利用深度視圖中的信息，如人眼通常會更加注意近景區(qū)域以及運動區(qū)域，而深度視圖與這兩個區(qū)域的信息息息相關。本文的研究對象正是參考文獻[11]中的參考MVD和測試MVD。依據(jù)深度視圖，從中提取近景信息和運動信息，組成該視頻的權值映射。在此基礎上提出了新的基于深度信息的加權的SSIM算法，該方法更加符合HVS特點。
1 基于深度的SSIM加權算法
　MVD由多個視角的VPD合成，針對MVD視頻質量的評價，參考文獻[11]中采用PSNR的算法，但其主觀趨近性較差。本文首先用算法簡單、高效且具備空間結構信息等優(yōu)點的SSIM取代PSNR對MVD進行質量評價，然后針對SSIM并未體現(xiàn)人眼感興趣區(qū)域的特性，結合深度信息提取權值映射，對SSIM算法進行加權改進。
1.1 深度視圖的壓縮對MVD質量影響的評估
　VPD合成MVD結構示意如圖1所示。兩個單視圖視頻分別為PVDA和PVDB，它們均由相應的深度視頻序列和紋理視頻序列組成。PVDA和PVDB是由固定于同一水平位置、間距固定的兩個攝像頭拍攝而得到的。本文使用View Synthesis Reference Software（VSRS）3.0[12]合成MVD，將未經過壓縮的深度視圖和紋理視圖合成參考視圖MVDr，將壓縮的深度視圖和紋理視圖合成測試視圖MVDt，MVDr和MVDt使用同一來源的深度和紋理視圖，在相同系統(tǒng)中合成而得，唯一的差別在于深度視圖壓縮與否。合成視圖的質量是通過MVDr和MVDt之間的PSNR來評價的。

1.2 結構相似算法（SSIM）
　考慮HVS的特性，Wang Zhou等人提出的基于結構度失真的SSIM（Structural Similarity Index）評估方法被廣泛應用在之后的各種模型中[13]。SSIM方法認為自然圖像信號是高度結構化的。從一個圖像形成的觀點來看，結構性信息是平均亮度和對比度這些反映場景中物體結構的信息。這就得到了SSIM算法的核心，即分別考量兩個圖像中相應塊的亮度、對比度和結構信息，作為評價一個圖像質量的方法。定義信號x、y之間的SSIM為：

2 實驗結果
　本文設計了一個實驗，用來驗證DSSIM在針對含深度信息的3D合成視頻的質量評價上，相比于傳統(tǒng)的PSNR、SSIM都有更好的效果。參考軟件使用了多視角合成VSRS 3.5，壓縮使用的是JM15.0。
本文使用MPEG 3DV測試序列“ballet”（像素尺寸為1 024×768，幀數(shù)為100，幀率為15 Hz）。圖4是參考的ballet序列，圖5和圖6均為壓縮測試序列，所不同的是圖5在權值圖權值高的部分（近景主體的邊緣毛刺較多）產生了壓縮，圖6在權值圖權值低的部分（遠景背景較模糊）產生了壓縮。

　觀察圖4、圖5和圖6可以明顯看出，MVDt2的視覺效果更好，即主觀質量評價較高，如圖5左上的圓圈處缺少了舞者頭發(fā)部分，左下的圓圈處缺少了小臂部分，右邊圓圈處出現(xiàn)了毛刺等。但是依據(jù)PSNR和SSIM值，MVDt2的質量比MVDt1要差，這正好與主觀感知相反。只有DSSIM值才能跟隨主觀視覺效果得到MVDt2質量較高（DSSIM值較大）的正確評判。
　本文通過提取3D視頻的深度和運動信息，得到了3D視頻的權值映射圖。3D視頻中深度信息和運動信息是影響視頻質量的重要因素，從中也可以提取人眼感興趣區(qū)域的信息。結合HVS特點，繼而得到了基于深度的3D視頻客觀質量評價方法DSSIM。實驗結果表明，在傳統(tǒng)PSNR和SSIM模型都與主觀評價相悖的情況下，DSSIM依然能夠得到與主觀視覺相一致的結論。3D視頻對深度感知要求較高，基于深度的SSIM加權算法是一種較好的3D視頻質量評價算法。
參考文獻
[1] TANIMOTO M. Overview of free viewpoint television[J]. Signal Processing： Image Communication， 2006，2（6）：454-461.
[2] SMOLIC A， MULLER K， DIX K， et al. Intermediate view interpolation based on multiview video plus depth for advanced 3D video systems[C]. Proceedings of International Conference on Image Processing， 2008： 2448-2451.
[3] MERKLE P， SMOLIC A， MULLER K， et al. Multi-view video plus depth representation and coding[C]. Proceedings of IEEE International Conference on Image Processing， 2007（1）：I-201-I-204.
[4] MERKLE P， WANG Y， MULLER K， et al. Video plus depth compression for mobile 3D services[C]. Proceedings of the 2009 IEEE EDTV Conference， 2009： 1-4.
[5] YASAKETHU S L P， HEWAGE C， FERNANDO W， et al. Quality analysis for 3D video using 2D video quality models[C]. IEEE Transactions on Consumer Electronics， 2008， 54（4）： 1969-1976.
[6] BENOIT A， LECALLET P， CAMPISI P， et al. Using disparity for quality assessment of stereoscopic images[C]. ICIP 2008： the 15th IEEE International Conference on Image Processing， 2008： 389-392.
[7] YANG J， Hou Chunping， Xu Ran， et al. New metric for stereo image quality assessment based on HVS[J]. International Journal of Imaging Systems and Technology， 2010， 20（4）：301-307.
[8] PINSON M H， WOLF S. A new standardized method for objectively measuring video quality[J]. IEEE Transactions on Broadcasting， 2004，50（3）：312-322.
[9] MOORTHY A K， BOVIK A C. Visual importance pooling for image quality assessment[J]. IEEE Journal of Selected Topics in Signal Processing， 2009， 3（2）： 193-201.
[10] WANG Z， BOVIK A C. Mean squared error： love it or leave it？ A new look at signal fidelity measures[J]. Signal Processing Magazine， IEEE， 2009， 26（1）：98-117.
[11] EL-YAMANY N A， UGUR K， HANNUKSELA M M， et al. Evaluation of depth compression and view synthesis distortions in multiview-video-plus-depth coding systems[C]. 3DTV-Conference： The True Vision-Capture， Transmission and Display of 3D Video（3DTV-CON）， 2010： 1-4.
[12] TANIMOTO M， FUJIE T， SUZUKI K， et al. Reference softwares for depth estimation and view synthesis[DB/OL]. ISO/IEC JTC1/SC29/WG11， M15377， 2008.
[13] WANG Z， LU L， BOVIK A C. Video quality assessment based on structural distortion measurement[J]. Signal processing： Image communication， 2004， 19（2）：121-132.

原創(chuàng)聲明：此內容為AET網站原創(chuàng)，未經授權禁止轉載。

相關內容