摘 要: 根據(jù)目前錯誤掩蓋領(lǐng)域研究熱點,從解碼端掩蓋技術(shù)以及編解碼結(jié)合的掩蓋技術(shù)兩個研究方向介紹其發(fā)展狀況,比較并總結(jié)了傳統(tǒng)插值掩蓋技術(shù)和主要的新技術(shù)的優(yōu)劣。指出在編碼端進行的錯誤掩蓋技術(shù)發(fā)展?jié)u趨與其他學科結(jié)合,編解碼結(jié)合的掩蓋技術(shù)則致力于利用不同的數(shù)據(jù)隱藏技術(shù)在編碼端嵌入更有價值的冗余信息,有助于迅速了解錯誤掩蓋領(lǐng)域技術(shù)的發(fā)展狀況。最后指出了進一步研究的方向。
關(guān)鍵詞: 圖像處理;錯誤掩蓋;空間域;數(shù)據(jù)隱藏;場編碼
0 引言
隨著數(shù)字視頻及圖像處理水平的進步和人們對視頻及圖像視覺質(zhì)量要求的提高,高清數(shù)字視頻及圖像已步入人們?nèi)粘I?,與此同時,視頻和圖像的數(shù)據(jù)量急劇增加。為了存儲和通信運輸方便,對數(shù)據(jù)進行高效壓縮是必須的,壓縮后的數(shù)據(jù)之間冗余度大大降低,在經(jīng)不可靠信道傳輸時極易受損而發(fā)生錯誤,進而在接收端造成錯誤解碼,使解壓后的視頻質(zhì)量嚴重受損。因此,在數(shù)字視頻通信中必須應用差錯控制機制。在諸多的差錯控制技術(shù)中,錯誤掩蓋技術(shù)是一種重要的錯誤處理手段。
技術(shù)出發(fā)點是:在錯誤發(fā)生且錯誤區(qū)域被檢測后,利用數(shù)據(jù)間的時間冗余性和空間冗余性,在接收端通過正確接收的數(shù)據(jù)和算法實現(xiàn)錯誤區(qū)域重建,而無需數(shù)據(jù)重發(fā)。由于人眼無法感知較小幅度的圖像失真,因此該技術(shù)是可行的[1]。
錯誤掩蓋領(lǐng)域研究技術(shù)主要分為以下兩類:只在解碼端進行的錯誤掩蓋;編碼端和解碼端共同進行的錯誤掩蓋。本文分析研究了相應分類下的技術(shù)進展,并對各類掩蓋算法進行了研究比較,展望了錯誤掩蓋技術(shù)發(fā)展前景。
1 解碼端的掩蓋
1.1 技術(shù)優(yōu)勢
只在解碼端進行的錯誤掩蓋技術(shù)針對解碼端進行,有以下優(yōu)勢:⑴無需修改編碼端,不改變碼流結(jié)構(gòu),不會增加額外的碼率;⑵不需要反向信道,不會造成額外傳輸開銷;⑶在一些特殊場合,只能采用解碼端的錯誤掩蓋技術(shù),比如實時視頻通信和視頻廣播。實時通信不能忍受視頻重傳造成的時間延遲,視頻廣播則不具備反向信道。
1.2 技術(shù)分類
根據(jù)掩蓋時所選擇的冗余信息類型,在解碼端進行的錯誤掩蓋技術(shù)主要分為3類:空間域錯誤掩蓋、時間域錯誤掩蓋和時空結(jié)合的錯誤掩蓋。由于空間域錯誤掩蓋(Spatial Error Concealment, SEC)適用范圍廣(視頻切換幀、幀內(nèi)編碼幀等均依賴于空域掩蓋),其在錯誤掩蓋中有重要地位,是解碼端進行錯誤掩蓋的研究重點,同時也有相當多的改進算法,本節(jié)主要介紹SEC傳統(tǒng)算法和新算法。
1.2.1 傳統(tǒng)SEC算法
SEC算法核心在于重建錯誤圖像塊時所選擇的插值像素和插值算法,最簡單的是利用錯誤塊周邊像素進行雙線性插值,掩蓋錯誤塊。雙線性插值方法對于平滑區(qū)域的修復效果較好,但對圖像的邊緣(高頻信息)會造成平滑模糊。為了提高修復準確度和視覺清晰度,引入方向插值(Directional Interpolation, DI)以替代簡單的鄰域插值法,已經(jīng)成為傳統(tǒng)SEC中重要的手段。但是DI的準確度依賴于插值方向的選擇。邊緣判決[2]可以把錯誤區(qū)域周圍存在的多個方向合理利用,正確修復出錯誤塊內(nèi)的邊緣。通常先對錯誤塊鄰域像素進行邊緣檢測,并通過自適應的閾值對這些邊緣進行判斷,從中選擇合適的一個或多個插值方向,最后沿插值方向加權(quán)插值即可。邊緣判決可以避免引入由于噪聲帶來的錯誤邊緣。主要插值方向確定后,沿其確定插值像素,并采取加權(quán)插值。
1.2.2 SEC新算法
與傳統(tǒng)SEC方法集中于方向插值不同,新的SEC算法傾向與其他研究領(lǐng)域應用技術(shù)結(jié)合,比如模糊聚類、高斯過程回歸、序列對比技術(shù)、無跡卡爾曼濾波器[3]和人臉識別技術(shù)[4]等。本文將介紹前三種。
模糊聚類是聚類分析的實現(xiàn)方法之一。聚類分析是數(shù)理統(tǒng)計中的一種多元分析方法,它用數(shù)學方法定量地分析樣本的親疏關(guān)系,從而客觀地劃分類型。將模糊聚類用于錯誤塊的相似塊尋找[5],然后依據(jù)錯誤塊的相似塊的分布位置,進行多方向線性插值。
高斯過程回歸(Gaussian Process Regression, GPR)在統(tǒng)計學和機器學習中有大量理論基礎,而高斯過程是廣義高斯分布函數(shù),性質(zhì)完全由其均值函數(shù)和協(xié)方差函數(shù)確定,將其均值設為0,可使問題簡化為求協(xié)方差函數(shù)。若將GPR定義在損失塊周圍區(qū)域像素,選定GPR的協(xié)方差函數(shù)(比如γ指數(shù)函數(shù)),則可通過極大似然法自適應估計損失像素值,實現(xiàn)錯誤掩蓋[6]。
研究者利用生物信息學中的序列對比分析技術(shù),可以捕捉到圖片序列中錯誤塊及周圍正確接收塊的紋理變化和整體趨勢,從而建立最合適的紋理模型[7]。借助紋理模型,構(gòu)造錯誤塊的預測塊,通過計算預測塊與損失塊周邊的正確接收塊之間的最小均方差,確定可用像素塊的位置,實現(xiàn)空間域自適應插值掩蓋。
2 編解碼端結(jié)合的掩蓋
2.1 技術(shù)優(yōu)勢
由于在編碼端嵌入了有價值的冗余信息,使得在解碼端進行EC時可利用的信息更多,更準確,所以編解碼端結(jié)合的錯誤掩蓋技術(shù)的掩蓋的主客觀效果要優(yōu)于單純在解碼端進行的錯誤掩蓋。
2.2 技術(shù)分類
編解碼端結(jié)合的錯誤掩蓋技術(shù)發(fā)展趨勢大致可分為兩類,一類是基于數(shù)據(jù)隱藏的錯誤掩蓋技術(shù);另一類是基于分場描述編碼的錯誤掩蓋算法。
2.2.1 基于數(shù)據(jù)隱藏的掩蓋技術(shù)
此類技術(shù)利用數(shù)據(jù)隱藏手段在編碼端嵌入了關(guān)鍵冗余信息,在解碼端通過數(shù)據(jù)隱藏的逆操作,提取出冗余信息,配合傳統(tǒng)錯誤掩蓋算法,重建錯誤區(qū)域。其關(guān)鍵在于編碼端嵌入的冗余信息和信息嵌入信源時選擇的數(shù)據(jù)隱藏技術(shù)。
利用基于最低有效位的數(shù)據(jù)隱藏技術(shù)的具體操作是,圖像分塊后,利用離散小波變換(Discrete Wavelet Transform, DWT)后的量化操作,可以得到塊的描述信息(Block Description Information, BDI)。每個BDI代表該圖像塊的一個低質(zhì)量復制。通過基于最低有效位的數(shù)據(jù)隱藏技術(shù),將單個塊的BDI隱藏到另一個塊的信息中,當其中某個塊發(fā)生錯誤時,可從其他塊中獲取到BDI信息,從而重建錯誤塊。當某個塊及隱藏其BDI信息的塊都發(fā)生錯誤時,利用鄰近像素插值法重建[8]。
同樣是利用圖像DWT系數(shù),將其劃分為一群完全樹,利用改進的多集樹集合分裂算法對每個完全樹獨立編碼,形成完全樹的參考碼,每個樹的參考碼被嵌入到不同位置的另一棵完全樹中,完成編碼端冗余信息的隱藏,解碼端利用參考碼加強錯誤掩蓋效果。
對基于不等差錯保護(Unequal Error Protection,UEP)策略的視頻信息流可采用與上述算法不同的掩蓋方案。UEP策略對感興趣區(qū)(Region-of-Interest, ROI)信息采用了較強的差錯保護,而對低突出性(Low Saliency,LS)的圖像區(qū)域采用較低的差錯保護,導致信息流在經(jīng)不可靠信道傳輸時,LS區(qū)域更易發(fā)生錯誤,故可將LS區(qū)域的預測圖嵌入視頻信息中[9]。
此外,還有許多利用數(shù)據(jù)隱藏技術(shù)進行編解碼端結(jié)合的錯誤掩蓋技術(shù),例如利用基于量化索引調(diào)制的水印技術(shù),將視頻中每幀圖像的抖動色版本隱藏到視頻中[10];將每幀視頻圖像中ROI的宏塊運動矢量嵌入到該幀的背景區(qū)域[11]等。
2.2.2 基于分場描述編碼的錯誤掩蓋
分場描述編碼屬于多描述編碼技術(shù),而多描述編碼技術(shù)是在視頻重傳不能實現(xiàn)的情況下最重要的抗誤碼技術(shù)之一。分場描述編碼技術(shù)對單幀圖像按奇偶行或列掃描,記為奇場描述和偶場描述,兩者分別獨立編碼傳輸,在接收端合并。對于圖像序列,可按時間分為奇偶兩個序列,對每個序列中的每幀圖進行奇偶分場,即對視頻信號分為四個描述編碼發(fā)送,在接收端根據(jù)丟失場的位置信息或者運動矢量分析自適應選取時域掩蓋或者空域掩蓋。
2.2.3 技術(shù)的優(yōu)缺點
基于數(shù)據(jù)隱藏的掩蓋算法由于在信源中加入了更多的冗余信息,所以掩蓋效果普遍優(yōu)于解碼端的插值算法。主要缺點:一是信源端信號輕微降級;二是編解碼要同步,增加了計算復雜度。
分場描述編碼可在信道丟包率較高的情況下恢復出較好的圖像[12],但因一幅圖分兩場描述并獨立編碼,導致信息存在更多的冗余。
3 主要技術(shù)對比分析
解碼端錯誤掩蓋技術(shù)通過修復一定錯誤模式的單幀圖像來展示其修復效果,而編解碼端結(jié)合的錯誤掩蓋技術(shù)則假設信道有一定誤碼率,在接收端再進行掩蓋。故分為兩節(jié)展現(xiàn)兩大分類中主要技術(shù)的對比。
3.1 解碼端的錯誤掩蓋技術(shù)對比
針對解碼端錯誤掩蓋的技術(shù)實驗中的棋盤式經(jīng)典圖像錯誤模式(如圖1所示,塊大小為16×16),比較foreman圖像經(jīng)雙線性插值、空間域的多方向插值和基于GPR的掩蓋后主客觀效果。圖2為實驗用foreman原圖,圖3展示了三種算法對棋盤式錯誤模式下的foreman掩蓋后的主觀效果和客觀的峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)。
3.2 編解碼結(jié)合的技術(shù)對比
圖4顯示了在不同丟包率下,編解碼端結(jié)合的算法與H.264的掩蓋算法的PSNR對比。選取的編解碼端結(jié)合掩蓋算法有:基于數(shù)字水印技術(shù)算法[11]、隱藏ROI算法[12]和基于分場描述算法[14]。數(shù)據(jù)來自相應參考文獻。
從圖4可以看出,不同算法之間掩蓋效果差別較大,其中基于數(shù)字水印的掩蓋算法的掩蓋效果隨著丟包率的增大,掩蓋效果急劇下降,而基于分場描述的錯誤掩蓋有較好的魯棒性。
4 總結(jié)
本文根據(jù)數(shù)字視頻的錯誤掩蓋領(lǐng)域最新研究和發(fā)展方向,主要介紹了解碼端和編解碼端結(jié)合的錯誤掩蓋新技術(shù)。分析了兩類技術(shù)涉及的主要算法并進行了掩蓋效果的主客觀比較??梢哉雇幋a端進行的錯誤掩蓋技術(shù)將越來越多地與其他領(lǐng)域的成熟技術(shù)結(jié)合;編解碼端的錯誤掩蓋領(lǐng)域則將對嵌入的信息類型和信息隱藏技術(shù)做出更多合理化嘗試。
參考文獻
[1] 郭寶龍, 倪偉, 閆允一. 通信中的視頻信號處理[M]. 北京: 電子工業(yè)出版社, 2007.
[2] Asheri H, Rabiee H R, Pourdamghani N, et al. Multi-directional spatial error concealment using adaptive edge thresholding[J]. IEEE Transactions on Consumer Electronics, 2012, 58(3): 880-885.
[3] 崔世華, 崔慧娟, 唐昆. 基于無跡Kalman濾波的高誤碼掩蓋技術(shù)[J]. 清華大學學報, 2013, 53(4): 537-541.
[4] 張江鑫, 謝晉, 鄺萬坤. 基于人臉五官特征的空域差錯掩蓋算法[J]. 中國圖像圖形學報, 2013, 18(8): 913-918.
[5] 沈寒, 朱秀昌. 基于模糊聚類的空域視頻差錯掩蓋[J]. 信號處理, 2009, 25(4):592-595.
[6] Asheri H, Rabiee H R, Pourdamghani N, et al. A gaussian process regression framework for spatial error concealment with adaptive kernels[C]. 2010 20th International Conference on Pattern Recognition (ICPR), Istanbul, IEEE, 2010: 4541-4544.
[7] Nangam P, Kumwilaisak W, Keawkumnerd S. New spatial error concealment with texture modeling and adaptive directional recovery[C]. 2010 International Conference on Electrical Engineering/Electronics Computer Telecommunications and Information Technology (ECTI-CON), Chiang Mai, IEEE, 2010: 703-707.
[8] Kim K S, Lee H Y. Lee H K. Spatial error concealment technique for losslessly compressed images using data hiding in error-prone channels[J]. Journal of Communications and Networks, 2010, 12(2): 168-173.
[9] Hadizadeh H, Baji I V, Cheung G. Saliency-cognizant error concealment in loss-corrupted streaming video[C]. 2012 IEEE International Conference on Multimedia and Expo (ICME), Melbourne, IEEE, 2012: 73-78.
[10] Freitas P G, Rigoni R, Farias M C Q, et al. Error concealment using a halftone watermarking technique [C]. The 25th SIBGRAPI Conference on Graphics, Patterns and
A survey of error concealment technologies in digital video