杜麟,田暢,吳澤民,張兆豐,胡磊,張磊
(中國人民解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007)
摘要:編碼后的視頻流經(jīng)過封裝形成數(shù)據(jù)包,并通過網(wǎng)絡(luò)傳輸至接收端。在傳輸過程中視頻序列的質(zhì)量受到網(wǎng)絡(luò)狀態(tài)的影響,當(dāng)網(wǎng)絡(luò)出現(xiàn)劇烈的抖動或不穩(wěn)定現(xiàn)象時,不可避免地會發(fā)生數(shù)據(jù)包的丟失,從而造成視頻質(zhì)量的損傷。利用面向主觀感知的視頻質(zhì)量評價指標(biāo)對視頻序列幀的重要性進(jìn)行分析,從而定義視頻序列不同類型幀的重要性級別。通過實(shí)驗(yàn)發(fā)現(xiàn),從面向主觀感知的角度,P幀的重要性大于I幀,I幀的重要性又大于B幀。得到的重要性等級可以為不等差錯保護(hù)以及丟幀選擇提供依據(jù)。
關(guān)鍵詞:網(wǎng)絡(luò)丟包;面向主觀感知;視頻序列幀;重要性分析
中圖分類號:TN919.85文獻(xiàn)標(biāo)識碼:ADOI: 10.19358/j.issn.1674-7720.2017.10.014
引用格式:杜麟,田暢,吳澤民,等.面向主觀感知的視頻序列幀的重要性分析[J].微型機(jī)與應(yīng)用,2017,36(10):48-50,53.
0引言
*基金項(xiàng)目:國家自然科學(xué)基金(61501509)
無線網(wǎng)絡(luò)以其覆蓋范圍廣、使用方便等優(yōu)點(diǎn)迅速成為了重要的通信方式,但是無線網(wǎng)絡(luò)具有不穩(wěn)定的特性,當(dāng)網(wǎng)絡(luò)出現(xiàn)劇烈抖動時,容易造成數(shù)據(jù)包的丟失從而造成傳輸過程中視頻質(zhì)量的損傷。為了保障接收端的視頻服務(wù)質(zhì)量,通常采用有效的信道編碼方法使得編碼后的數(shù)據(jù)流具有一定的糾錯和抗干擾的能力。然而視頻流中的數(shù)據(jù)具有不同重要性,有的數(shù)據(jù)丟失會造成錯誤的擴(kuò)散,而有的數(shù)據(jù)丟失后對視頻質(zhì)量幾乎沒有影響,因此提出了不等差錯保護(hù)(Unequal Error Protection,UEP)方法,按照數(shù)據(jù)的重要性等級采用不同程度的保護(hù),從而保障傳輸后的視頻質(zhì)量。同時當(dāng)網(wǎng)絡(luò)出現(xiàn)擁塞時也能夠按照重要性等級進(jìn)行丟棄策略的選擇,通過丟棄重要性級別低的數(shù)據(jù)包來盡可能地保障接收端視頻的質(zhì)量。H.264/AVC視頻編碼標(biāo)準(zhǔn)中將圖像的幀分為三種類型進(jìn)行編碼,并將編碼后的視頻流封裝成數(shù)據(jù)包進(jìn)行傳輸,在現(xiàn)有的視頻數(shù)據(jù)包重要性度量方法中,大多是將一幀圖像封裝成一個數(shù)據(jù)包,因此,對網(wǎng)絡(luò)數(shù)據(jù)包的重要性研究轉(zhuǎn)化為視頻序列幀的重要性研究。
近年來,一系列面向主觀的視頻質(zhì)量評價方法被提出,如PDMOSCL[1]、QSTAR[2]、VIIDEO[34]、SSEQ[56]、FRIQUEE[78]等,其中,PDMOSCL模型分別研究了編碼以及傳輸之后視頻質(zhì)量MOS的下降,從而提出了PDMOSC和PDMOSL模型,并聯(lián)合得到整個傳輸過程的模型PDMOSCL。QSTAR模型則重點(diǎn)研究了量化步長、幀率以及分辨率等編碼參數(shù)對視頻質(zhì)量的影響,但僅適用于編碼端。VIIDEO、SSEQ以及FRIQUEE則屬于盲參考算法,其中,VIIDEO是視頻級的算法,而SSEQ和FRIQUEE是圖像級的算法,通過計(jì)算視頻序列每一幀圖像的評價結(jié)果并取所有幀的平均值作為整段視頻序列的質(zhì)量。盲參考算法適用于實(shí)際的網(wǎng)絡(luò)環(huán)境,但是這幾類算法僅僅適用于特定的視頻庫,對于其他的視頻序列計(jì)算效果較差。因此本文采用面向主觀感知的視頻質(zhì)量評價模型PDMOSL作為評價指標(biāo),計(jì)算不同類型的幀丟失后視頻序列的質(zhì)量,從而得到不同類型的幀面向主觀感知的重要性等級。
1視頻序列的幀
為了進(jìn)行數(shù)據(jù)的壓縮,在H.264/AVC視頻編碼標(biāo)準(zhǔn)中存在兩種預(yù)測模式:幀內(nèi)預(yù)測和幀間預(yù)測。幀內(nèi)預(yù)測通過本幀中相鄰的像素值進(jìn)行預(yù)測,而幀間預(yù)測則通過運(yùn)動估計(jì)和運(yùn)動補(bǔ)償在已編碼的幀中尋找最優(yōu)的塊進(jìn)行預(yù)測。同時H.264/AVC視頻編碼標(biāo)準(zhǔn)中將圖像的幀分為三種類型,分別是I幀、P幀和B幀。I幀采用幀內(nèi)預(yù)測的方式,不參考任何幀進(jìn)行編碼;P幀為前向預(yù)測編碼,參考的幀可以是I幀和已經(jīng)編碼的P幀,并按照編碼的順序進(jìn)行播放;B幀采用雙向預(yù)測編碼,可參考在其播放順序之前的I幀和P幀,B幀一般不具有參考性。I、P、B幀的編碼參考關(guān)系如圖1所示,其中箭頭方向表示參考方向。因此,在H.264/AVC視頻流中,I幀的錯誤會造成參考它而生成的P幀和B幀的錯誤,而P幀的錯誤會造成參考它而生成的P幀和B幀的錯誤,B幀的錯誤則不會影響到其他幀。
由于參考幀的誤差而造成后續(xù)編碼幀的誤差,這種現(xiàn)象被稱為錯誤擴(kuò)散。為了解決錯誤擴(kuò)散所造成的視頻質(zhì)量下降的問題,H.264/AVC視頻編碼標(biāo)準(zhǔn)中采用了兩種基本的手段,一是在編碼時引入了GOP的概念,將視頻序列以GOP為單位進(jìn)行編碼,每一個GOP中的第一幀均為采用幀內(nèi)預(yù)測的方式生成的I幀,然后參考此I幀生成若干個P幀,B幀則參考I幀和P幀生成,整個視頻流的結(jié)構(gòu)如圖2所示。各個GOP之間是相互獨(dú)立的,因此,無論是I幀還是P幀的錯誤均不會擴(kuò)散到下一個GOP,從而有效阻止了錯誤的繼續(xù)擴(kuò)散。
另一種手段是在接收端采用錯誤隱藏機(jī)制。在每幀圖像解碼之后對解碼圖像進(jìn)行檢測,如果發(fā)現(xiàn)圖中包含了錯誤信息,則調(diào)用錯誤隱藏機(jī)制,利用視頻數(shù)據(jù)在空域和時域上的相關(guān)性,用已經(jīng)解碼出的正確信息來修復(fù)丟失或出錯的信息。簡單的錯誤隱藏方法直接拷貝前一幀中相同位置的宏塊進(jìn)行隱藏,但此方法只適用于運(yùn)動緩慢、場景簡單的視頻序列,此類視頻序列相鄰兩幀之間內(nèi)容差別小,具有很強(qiáng)的連貫性;而對于運(yùn)動劇烈、場景復(fù)雜的視頻序列,相鄰兩幀之間內(nèi)容差別大,具有很強(qiáng)的運(yùn)動性,采用直接拷貝的方法得到的效果不佳。直接拷貝的好處是計(jì)算簡單、易于實(shí)現(xiàn),因此常用于實(shí)際的網(wǎng)絡(luò)環(huán)境中。為了提高錯誤隱藏的效果,先進(jìn)的算法則需要通過運(yùn)動估計(jì)在已解碼的視頻幀中尋找最佳匹配的塊來進(jìn)行隱藏。
2面向主觀的評價指標(biāo)
本文采用文獻(xiàn)[1]中提出的全參考算法PDMOSL作為視頻質(zhì)量評價指標(biāo),該算法從丟包的長度、丟包的劇烈程度、丟包的數(shù)量以及丟包模式等多個方面出發(fā),研究了丟包對視頻主觀感知質(zhì)量造成的影響,并提出了一種基于PSNR下降的全參考視頻質(zhì)量評價指標(biāo)PDMOSL。在該評價指標(biāo)中引入了人眼視覺注意機(jī)制、遺忘效應(yīng)以及丟包聚散程度的影響,PDMOSL的計(jì)算表達(dá)式如式(1)所示。
實(shí)驗(yàn)中首先得到不同丟包條件下?lián)p傷的視頻序列,并對視頻序列進(jìn)行主觀打分,將主觀得分作為視頻序列的真實(shí)評價指標(biāo)。通過研究視頻質(zhì)量PSNR的下降與主觀得分MOS之間的關(guān)系從而提出了人眼視覺注意機(jī)制α(PD),α(PD)的計(jì)算表達(dá)式如式(2)所示。α(PD)表明在丟包網(wǎng)絡(luò)環(huán)境下,因?yàn)閬G包所造成視頻質(zhì)量PSNR的下降低于最低門限值即PDmin時并不會引起人眼視覺的變化,從而主觀得分沒有變化;當(dāng)視頻質(zhì)量PSNR的下降超過最大門限值即PDmax時,此時視頻損傷十分嚴(yán)重以至于影響人眼的感知,所以此時的主觀得分也保持不變。
不同的丟包數(shù)量、丟包模式均會影響到視頻質(zhì)量的評價,通過分析不同的丟包位置和丟包模式與主觀得分MOS之間的關(guān)系,提出了遺忘效應(yīng)以及丟包聚散程度CD。將遺忘因子定義為e-rDi,其中,r為常數(shù),通過實(shí)驗(yàn)擬合得出r=0.015;Di表示連續(xù)丟幀的最后一幀到視頻序列結(jié)尾的距離。遺忘效應(yīng)考慮了丟包發(fā)生的位置對人眼視覺感知的影響,在評價整段視頻序列時,越早時間的丟包(即丟包位置靠前)越容易造成“遺忘”的效應(yīng),在主觀評價時容易忽略這部分丟包所造成的影響;而越晚時間的丟包(即丟包位置靠后)越容易給人留下深刻的影響,這部分丟包影響了整段視頻序列的評價結(jié)果。丟包聚散程度CD則反映了丟包的密集程度,計(jì)算表達(dá)式如下:
CD=e-cLloss(1-e-kN)(3)
其中,c和k為固定值,實(shí)驗(yàn)中分別設(shè)置為c=0.002,k=0.8;Lloss表示從第一個丟失的幀到最后一個丟失的幀之間的距離;N表示連續(xù)丟包的個數(shù)。CD越大表明丟包越密集,受影響的幀相對集中,錯誤擴(kuò)散的范圍較小,對視頻序列的評價也較??;CD越小表明丟包越分散,受影響的幀分布越廣,導(dǎo)致錯誤擴(kuò)散的范圍越廣,從而使得整段視頻序列質(zhì)量下降。
3面向主觀的視頻序列幀的重要性
實(shí)驗(yàn)選取標(biāo)準(zhǔn)庫中的akiyo和city兩個視頻序列進(jìn)行測試,其中,akiyo為運(yùn)動平緩、場景簡單的視頻序列,而city則為運(yùn)動劇烈、場景復(fù)雜的視頻序列。編碼時兩個視頻序列采用相同的編碼設(shè)置:QP為28,幀率為30 f/s,分辨率為352×288,編碼幀數(shù)為500幀。為了防止錯誤擴(kuò)散,編碼時GOP長度為16,結(jié)構(gòu)為IPBBBBPBBBBPBBBB,此時I、P、B幀的數(shù)量分別為32、94和374。在編碼過程中不采用分片技術(shù),將一幀圖像封裝成一個數(shù)據(jù)包進(jìn)行傳輸,數(shù)據(jù)包的丟失即代表一幀圖像的丟失,在錯誤隱藏時采用直接拷貝前一幀的方式進(jìn)行隱藏。對三種類型的幀分別進(jìn)行丟包測試,丟包率設(shè)置為0、0.05、0.10、0.15和0.20,在丟包時不考慮第一個GOP內(nèi)視頻幀的丟棄,采用隨機(jī)丟包程序進(jìn)行仿真,由于丟包的隨機(jī)性,每種丟包率進(jìn)行十次仿真,并取十次仿真的平均值作為實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果如圖3所示。
從圖3的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)不同類型的幀丟失后采用不同的評價指標(biāo)定義的重要性所得到的結(jié)果也不相同?;赑SNR指標(biāo),視頻序列幀的重要性等級如下:IP>IB>II;基于PDMOSL指標(biāo),此時視頻序列幀的重要性等級如下:IP>II>IB。因此,基于兩種評價指標(biāo)獲得的幀重要性等級不一致。分析其原因,采用PSNR作為評價指標(biāo)時,需要逐一對比原始視頻與測試視頻的每一幀。I幀雖然具有最高的參考性,但I(xiàn)幀的數(shù)量較少,在相同的丟包率條件下,P幀丟失的數(shù)量大于I幀丟失的數(shù)量,使得更多的GOP受到影響,因此P幀的重要性大于I幀。同時,由于視頻序列的連續(xù)性,幀與幀之間具有很強(qiáng)的聯(lián)系,因此,當(dāng)I幀丟失之后拷貝前一幀進(jìn)行補(bǔ)償,此時產(chǎn)生的誤差較小,對后續(xù)參考此I幀生成的P幀、B幀影響較小。而B幀的數(shù)量巨大,很容易產(chǎn)生連續(xù)的丟幀,錯誤隱藏之后導(dǎo)致連續(xù)的幀均拷貝于同一幀,在計(jì)算PSNR時,下降更為明顯。在PDMOSL指標(biāo)中考慮了人眼視覺注意機(jī)制,只有超過連續(xù)丟幀的最小門限才會引起人眼的注意,并且只有PSNR的下降超過一定閾值時才會造成人眼視覺的差異,此時,B幀的丟失幾乎不會造成影響,與B幀的參考性等級相一致。
4結(jié)論
網(wǎng)絡(luò)視頻應(yīng)用越來越普及,用戶對視頻質(zhì)量的要求也越來越高,單純從視頻序列出發(fā),保障傳輸數(shù)據(jù)包的正確性并不能保證用戶實(shí)際感知到的視頻質(zhì)量,隨著對主觀感知以及人眼視覺的不斷研究,基于主觀感知的視頻質(zhì)量傳輸保障成為了當(dāng)下的熱點(diǎn)。為了提高接收端用戶的QoS,本文對不同類型的幀進(jìn)行面向主觀的重要性分析,分別對I、P、B三種類型的幀進(jìn)行丟包實(shí)驗(yàn),并利用面向主觀的視頻質(zhì)量評價模型PDMOSL作為評價指標(biāo),從而得出了不用類型幀的重要性級別。得到的視頻序列幀的重要性等級可為不等錯差保護(hù)以及丟幀選擇策略提供依據(jù)。
相比于傳統(tǒng)的視頻序列幀的重要性分析,本文從面向主觀的角度出發(fā),更加符合人眼的實(shí)際情況,但在丟包網(wǎng)絡(luò)中影響視頻質(zhì)量的因素還有很多,包括編碼的參數(shù),如QP、幀率、GOP大小等,因此,還需要進(jìn)一步的分析研究。
參考文獻(xiàn)
?。?] Liu Tao, Wang Yao, BOYCE J M, et al. A novel video quality metric for low bitrate video considering both coding and packetloss artifacts[J]. IEEE Journal of Selected Topics in Signal Processing, 2009, 3(2): 280-293.
?。?] OU Y F, Xue Yuanyi, Wang Yao. QSTAR: a perceptual video quality model considering impact of spatial, temporal, and amplitude resolutions.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2014, 23(6):2473-86.
?。?] MITTAL A, SAAD M A, BOVIK A C. A completely blind video integrity oracle[J]. IEEE Transactions on Image Processing, 2016, 25(1): 289-300.