杜麟,田暢,吳澤民,張兆豐,胡磊,張磊
(中國人民解放軍理工大學 通信工程學院,江蘇 南京 210007)
摘要:Q-STAR模型是現(xiàn)有的客觀視頻質量評價中最接近主觀得分的模型,但是在解碼端難以從丟包解碼后的YUV視頻序列中提取與編碼端相一致的運動矢量信息,從而影響模型參數(shù)的預測。針對該問題,提出了基于視敏度信息的模型參數(shù)預測方法,從YUV視頻序列中提取時間域和空間域視敏度特征,并結合Q-STAR模型中提取的特征進行預測。通過實驗發(fā)現(xiàn),使用視敏度信息代替原有的運動矢量信息進行預測,所得模型參數(shù)值與Q-STAR基本相符,并且計算更為簡單。
關鍵詞:視頻傳輸質量保障;主觀感知;參數(shù)預測;視敏度信息
中圖分類號:TN919.85文獻標識碼:ADOI: 10.19358/j.issn.1674-7720.2017.01.013
引用格式:杜麟,田暢,吳澤民,等. 基于視敏度的QSTAR模型參數(shù)預測[J].微型機與應用,2017,36(1):40-43.
0引言
視頻傳輸質量保障的最終目的是保障接收端視頻的服務質量,首先需要建立與人的主觀感受相一致的視頻質量評價模型。近年來,越來越多的研究著力于建立符合人眼視覺感知特性的評價指標[12]。常見的方法是對主觀評價結果進行分析,并建立相應的模型使得評價的結果逼近真實主觀評價的結果。文獻[34]首先從時間域和質量域出發(fā),分別研究了幀率以及量化步長對主觀感知和碼率的影響,隨后在文獻[5]中加入分辨率對主觀感受的影響,并提出了聯(lián)合模型QSTAR。文獻[6]中提出用視敏度評估視頻質量,用相鄰的視頻幀之間像素之差表示時間信息,用源視頻與測試視頻的時間信息差異表示視頻的損傷,并通過回歸樹的方法估計主觀得分。
本文從YUV視頻序列中提取時間域和空間域視敏度信息作為新的特征值,并進行模型參數(shù)的預測。
1Q-STAR模型
文獻[5]從質量域、時間域以及空間域三個方向出發(fā),分別研究了量化步長、幀率以及分辨率對視頻主觀感知質量的影響,從而得到了聯(lián)合的視頻主觀感知模型QSTAR,模型的計算表達式以及參數(shù)預測如下所示:
其中,q、f、s分別代表視頻的量化步長、幀率以及分辨率;βq、βf、βs、v1和v2是與視頻內(nèi)容無關的常數(shù);αq、αf和s則是與視頻內(nèi)容有關的參數(shù),分別表示隨著量化步長、幀率以及分辨率的變化,視頻主觀感知質量變化的快慢;σDFD為基于運動估計的相鄰兩幀之間幀差均值的標準差;μFD為相鄰兩幀之間幀差均值的平均,σ為各幀像素值標準差的均值,η(μFD,σ)=μFD/σ;Gm為各幀Gabor濾波輸出值均值的平均;H為3×4的預測系數(shù)矩陣。
使用QSTAR模型對6個視頻序列(city、crew、harbour、soccer、garden和foreman)進行參數(shù)預測。圖1為6個視頻序列的簡圖。預測的結果如表1所示。表2表示用最小二乘擬合對主觀得分進行擬合得到的模型參數(shù)值,將該數(shù)值作為模型參數(shù)預測的真實值,用于評價參數(shù)預測的好壞。(表格中視頻序列取前兩個字母表示)?! ?/p>
對表1中的結果進行分析可以發(fā)現(xiàn),對于運動劇烈和場景復雜的視頻序列來說,QSTAR模型參數(shù)的預測存在較大的誤差,分析原因在于模型參數(shù)的預測中使用了特征σDFD,而σDFD是基于運動估計的相鄰兩幀之間幀差均值的標準差。對于運動劇烈和場景復雜的視頻序列來說,運動矢量信息以及殘差信息遠大于其他的視頻序列,難以進行準確的運動估計,運動估計的不準確性導致運動補償之后的誤差增大,使得特征σDFD計算不準確,從而造成模型參數(shù)預測的誤差。另一方面,運動矢量信息需要從264碼流中提取,無法直接從YUV視頻序列中得到,在視頻傳輸過程中如果發(fā)生丟包,解碼后的視頻能難得到有效的運動矢量信息,因此,該預測只能用于編碼端或者是無丟包條件下的視頻質量評價。為了解決以上問題,本文提出了一種基于視敏度的參數(shù)預測方法。
2視敏度
文獻[6]將視敏度[78]定義為視頻的感知質量,并給出了一種在線計算視敏度的方法。視敏度是最基本的人眼視覺系統(tǒng)(Human Visual System,HVS)視覺處理機制,它表征了HVS對不同頻率視覺信號的響應強度,主要有時域對比敏感度和空域對比敏感度。
時域對比敏感度主要反映了視頻序列受幀率的影響,表現(xiàn)在視頻序列的連貫性上,體現(xiàn)了幀與幀之間的差別。圖2分別表示同一視頻在幀率為3.75、7.5、15以及30時相同位置連續(xù)的5幀。從圖2可以看出幀率越大,幀與幀之間的差別較小,視頻序列的連貫性越好;而幀率越小,幀與幀之間差別較大,造成視頻序列的不連貫,出現(xiàn)“跳躍”的現(xiàn)象。
用時域信息Ti表示時域對比敏感度,Ti的計算表達式如下:
其中H和W分別代表視頻的高度和寬度;c代表顏色深度;Fn(i,j)代表視頻第n幀圖像中位于位置(i,j)的像素值;N代表視頻的幀數(shù)。
空域對比敏感度主要受分辨率影響,體現(xiàn)在視頻序列的尺寸上,圖3分別表示了同一視頻在兩種分辨率下相同位置的幀。從圖3中可以看出分辨率越大,人眼的主觀感受越好;分辨率越小,越容易造成主觀感受的下降。
用空域信息Si表示空域對比敏感度,Si的計算表達式如下:
為了解決模型參數(shù)預測中運動矢量信息的問題,分別計算了源視頻時域信息Tio以及空域信息Sio和測試視頻的時域信息Tit以及空域信息Sit,并把時域信息和空域信息的變化DTi和DSi作為新的特征,特征計算如下:
3模型參數(shù)預測
為了用盡可能少的特征組合進行模型參數(shù)的預測,本文采用文獻[5]所用的交叉驗證法驗證各個特征對模型參數(shù)的影響。從視頻序列提取的特征如表3所示。交叉驗證法的基本思想是每次實驗隨機選取一個視頻序列做為測試序列,其余的視頻序列用于訓練,記P⌒=[α⌒s,αf,αq]T、F=[1,f1,f2,…,fK]T,則預測方程為=HF,其中K為選擇特征的個數(shù)。從K=1開始,選擇不同的特征使得擬合誤差∑mm-Pm2最小,其中m為訓練視頻序列的個數(shù)。逐漸增大K值直到擬合誤差沒有顯著的變化為止,從而得到最佳的特征組合F和預測矩陣H。表3視頻特征描述特征符號表示FDμFDSTDσNFDη(μFD,σ)=μFD/σGaborGmTiDTiSiDSi從6個視頻序列中選取5個用于訓練,剩下一個視頻序列用于測試,求取預測結果與最小二乘擬合值之間的誤差,通過誤差大小進行特征組合的選取,表4表示了不同個數(shù)特征組合下最佳的特征組合以及其最小誤差。
通過表4可以看出,當K=4時誤差最小,而K=3時的誤差與K=4時僅相差0.013,因此,選擇DTi、η(μFD,σ)和Gm三種特征進行模型參數(shù)的預測,預測方程如式(12)所示。
4實驗結果
實驗仿真平臺為MATLAB 2010b。對city、crew、harbour、soccer、garden和foreman 6個視頻進行測試。本文采用H.264編碼標準進行編碼,編碼的結構為IPPP,GOP長度為25,QP取值為28、32、36、40和44,幀率取值為3.75、7.5、15和30。在視頻傳輸過程中分辨率通常保持不變,因此,實驗中選取標準視頻庫中352×288的視頻序列進行測試,并將QP為28、幀率為30的編碼視頻序列作為學習的視頻序列,從該學習視頻序列中提取所需要的特征進行模型參數(shù)的預測。預測結果如表5所示。由于不考慮分辨率的變化,因此也不考慮模型參數(shù)s的預測結果。重點比較模型參數(shù)αq,通過對表1、表2和表5的分析可以看出,在對模型參數(shù)αq的預測中,本文提出的預測方法普遍優(yōu)于QSTAR的預測結果。而在對模型參數(shù)αf的預測中,發(fā)現(xiàn)對于運動劇烈和場景復雜的視頻序列,如harbour、soccer,本文提出的預測方法比QSTAR的預測結果更優(yōu),但是對于運動平緩和場景簡單的視頻序列,如crew和garden而言,本文提出的預測方法比QSTAR的預測結果稍差,原因在于對于此類視頻,運動估計較為準確,運動補償之后得到的特征σDFD更準確,所以預測的結果更接近于最小二乘擬合的結果。在傳輸過程中,通常采用固定的幀率,且?guī)蚀笥?5 fps,視頻主觀感知質量受QP的影響最大,并且QSTAR模型的預測需要從264碼流提取運動矢量信息,而本文提出的基于視敏度的QSTAR模型利用視敏度信息代替運動矢量信息能達到相同的效果,誤差在可接受范圍內(nèi),因此,本文提出的方法更優(yōu)。
5結論
網(wǎng)絡視頻應用越來越普及,保障用戶的體驗是首要目的,基于PSNR的端到端失真估計保護以最小化失真為目標,如文獻[9]。而人眼視覺系統(tǒng)的復雜性決定了該保護與人眼感知的差異,基于主觀感知評價的視頻傳輸保障成為近年來研究的熱點。本文基于視敏度對現(xiàn)有的主觀感知模型QSTAR中模型參數(shù)進行了重新預測,提高了模型參數(shù)αq的預測準確度,并解決了運動劇烈和場景復雜的視頻序列中模型參數(shù)s和αf預測誤差較大的問題,但是對于運動平緩和場景簡單的視頻序列中模型參數(shù)的預測準確度有待提高。同時,模型參數(shù)的預測所需的視頻特征僅僅通過YUV視頻序列本身進行提取,不需要相應的264碼流,在傳輸分組丟失的情況下,接收端無需重新估計運動矢量信息,在盡可能保障模型參數(shù)預測準確度的同時使得計算更為簡單,可有效地用于視頻質量評價和視頻傳輸端到端的保障。
參考文獻
?。?] 蔣剛毅, 朱亞培, 郁梅, 等. 基于感知的視頻編碼方法綜述[J]. 電子與信息學報, 2013, 35(2): 474-483.
?。?] LEE J, EBRAHIMI T. Perceptual video compression: a survey[J]. IEEE Journal of Selected Topics in Signal Processing, 2012, 6(6): 684-697.
?。?] OU Y F, MA Z, LIU T, et al. Perceptual quality assessment of video considering both frame rate and quantization artifacts[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(3): 286-298.
?。?] MA Z, XU M, OU Y F, et al. Modeling of rate and perceptual quality of compressed video as functions of frame rate and quantization stepsize and its applications[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(5): 671-682.
?。?] OU Y F, XUE Y, WANG Y. QSTAR: a perceptual video quality model considering impact of spatial, temporal, and amplitude resolutions[J]. IEEE Transactions on Image Processing, 2014, 23(6): 2473-2486.
[6] BAIK E, PANDE A, STOVER C, MOHAPATRA P. Video acuity assessment in mobile devices[C]. 2015 IEEE Conference in Computer Communications (INFOCOM), HONG KONG, 2015: 19.
?。?] LIN W, KUO C C J. Perceptual visual quality metrics: a survey[J]. Journal of Visual Communication & Image Representation, 2011, 22(4):297-312.
?。?] BALACHANDRAN A, SEKAR V, AKELLA A, et al. Developing a predictive model of quality of experience for internet video[J]. ACM SIGCOMM Computer Communication Review, 2013, 43(4): 339-350.
?。?] LI C, XIONG H, WU D. Delayratedistortion optimized rate control for endtoend video communication over wireless channels[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2015, 25(10):1665-1681.