摘? 要: 回顧了MPEG的發(fā)展歷史,介紹了MPEG-1、MPEG-4和MPEG-7標(biāo)準(zhǔn)的特點(diǎn),并對MPEG的未來作了展望。?
關(guān)鍵詞: MPEG? 視頻? 音頻? JPEG ?
?
MPEG壓縮技術(shù)已是目前視頻壓縮的重要技術(shù)之一。它解決了以往硬盤容量有限及計算機(jī)總線瓶頸效應(yīng),因而擴(kuò)大了多媒體應(yīng)用" title="多媒體應(yīng)用">多媒體應(yīng)用空間的自由度及靈活度。它開拓了很多不同的數(shù)字影像應(yīng)用,VCD節(jié)目制作就是運(yùn)用了MPEG壓縮技術(shù)。VCD盤上存儲的影視圖像和聲音是采用MPEG算法壓縮的數(shù)字信息,并按MPEG的格式交錯存放在VCD盤上。在數(shù)字多媒體壓縮(特別是視頻壓縮)領(lǐng)域內(nèi)的國際標(biāo)準(zhǔn)" title="國際標(biāo)準(zhǔn)">國際標(biāo)準(zhǔn)有很多,如ISO/ITU-T(國際標(biāo)準(zhǔn)化組織/國際電信同盟)技術(shù)委員會下的JPEG(Joint Photographic Experts Group)標(biāo)準(zhǔn),CCITT(國際電報電話咨詢委員會)制定的H.261標(biāo)準(zhǔn)等,而著名的MPEG(Moving Pictures Experts Group,運(yùn)動圖像專家組)是在ISO(國際標(biāo)準(zhǔn)組織)和IEC(國際電工委員會)內(nèi)運(yùn)作的一個工作組,它組建于1988年,開始時只有15位專家。?
MPEG的任務(wù)是開發(fā)運(yùn)動圖像及其聲音的數(shù)字編碼標(biāo)準(zhǔn),專家組最初的任務(wù)有三個:實(shí)現(xiàn)1.5Mb/s、10Mb/s、40Mb/s的壓縮編碼標(biāo)準(zhǔn),即MPEG-1、MPEG-2、MPEG-3。但因?yàn)镸PEG-2的功能已使MPEG-3為多余,所以MPEG-3于1992年撤消。MPEG-4項目是1991年5月建議并于1993年7月確認(rèn)。到現(xiàn)在為止,MPEG公布的標(biāo)準(zhǔn)有:①M(fèi)PEG-1標(biāo)準(zhǔn):1993年8月公布。用于傳輸1.5Mb/s數(shù)據(jù)傳輸率的數(shù)字存儲媒體運(yùn)動圖像及其伴音的編碼;②MPEG-2標(biāo)準(zhǔn):1994年11月公布。其全稱為:“運(yùn)動圖像及其伴音的編碼”,主要針對高清晰度" title="高清晰度">高清晰度電視(HDTV)所需要的視頻及伴音信號,傳輸速率為10Mbps,與MPEG-1兼容,適用于1.5Mbps~60Mbps甚至更高的編碼范圍;③MPEG-4標(biāo)準(zhǔn):2000年10月公布。該標(biāo)準(zhǔn)的目標(biāo)為:支持多種多媒體應(yīng)用(主要側(cè)重于多媒體信息內(nèi)容的訪問),可根據(jù)應(yīng)用的不同要求現(xiàn)場配置解碼器。目前,MPEG將研究重點(diǎn)轉(zhuǎn)向了交互性更加高級的形式,在未來的幾年里,技術(shù)的發(fā)展將使這種高級形式成為可能。?
1 MPEG的發(fā)展及其特點(diǎn)?
1.1 MPEG-1?
在MPEG出現(xiàn)之前,關(guān)于圖像壓縮已經(jīng)有兩個標(biāo)準(zhǔn),即用于靜態(tài)圖像數(shù)據(jù)壓縮的JPEG和用于電視電話、會議電視圖像壓縮的H.261,但是他們都與計算機(jī)數(shù)據(jù)標(biāo)準(zhǔn)無關(guān)。這就要求制定一個圖像、伴音、存儲和傳輸四個方面的計算機(jī)系統(tǒng)和廣播電視都統(tǒng)一的標(biāo)準(zhǔn),從而有利于各種媒體廣泛交流,因此MPEG就應(yīng)運(yùn)而生了。?
MPEG-1標(biāo)準(zhǔn)完成的基本任務(wù)就是質(zhì)量適當(dāng)?shù)膱D像(包括伴音)數(shù)據(jù)必須成為計算機(jī)數(shù)據(jù)的一種,和已有的數(shù)據(jù)(如文字、繪圖等數(shù)據(jù))在計算機(jī)內(nèi)兼容,并且這些數(shù)據(jù)必須在現(xiàn)有的計算機(jī)網(wǎng)絡(luò)和廣播電視等通信網(wǎng)絡(luò)中兼容傳輸。MPEG-1標(biāo)準(zhǔn)有3個組成部分:MPEG視頻、MPEG音頻、MPEG系統(tǒng)。所以MPEG涉及的問題是視頻壓縮、音頻壓縮及多種壓縮數(shù)據(jù)流的復(fù)合和同步問題。MPEG-1標(biāo)準(zhǔn)是適用于傳輸1.5Mbps數(shù)據(jù)傳輸率的數(shù)字存儲媒體運(yùn)動圖像及其伴音的編碼標(biāo)準(zhǔn),可以處理各種類型的活動圖像,其基本算法對于壓縮水平方向360個象素、豎直方向288個象素的空間分辨力,每秒24至30幅畫面的運(yùn)動圖像有很好的效果。與JPEG不同,它沒有定義產(chǎn)生合法數(shù)據(jù)流所需的詳細(xì)算法,而是在編碼器設(shè)計中提供了大量的靈活性,另外定義已編碼位流和解碼器的一系列參數(shù)都包含在位流本身當(dāng)中,這些特點(diǎn)允許算法可以用于不同大小和寬高比的圖像,也可以用在工作速率范圍很大的信道和設(shè)備上。?
MPEG-1標(biāo)準(zhǔn)壓縮首先對色差信號進(jìn)行亞采樣,減少數(shù)據(jù)量,采用運(yùn)動補(bǔ)償技術(shù),減少幀間冗余度,利用二維DCT變換去除空間相關(guān)性,對DCT分量進(jìn)行量化,舍去不重要的信息,將量化后DCT分量按照頻率重新排序,將DCT分量進(jìn)行變字長編碼,最后對每個數(shù)據(jù)塊的直流分量(DC)進(jìn)行預(yù)測差分編碼。MPEG視頻的編碼和解碼框圖如圖1所示。
?
?
MPEG-1的壓縮目標(biāo)是先對分辨率為30幀/秒(NTSC制式)或704×576、25幀/秒(PAL制式)的視頻圖像在水平方向和垂直方向上使象素減少一半,即變成352×240(NTSC制式)或352×288(PAL制式)的SIF圖像格式,再對其與立體聲伴音進(jìn)行壓縮。?
1.2 MPEG-2?
MPEG-2標(biāo)準(zhǔn)全稱為“運(yùn)動圖像及其伴音的編碼”,主要針對高清晰度電視(HDTV)所需要的視頻及伴音信號,傳輸速率為10Mbps。?
MPEG-2標(biāo)準(zhǔn)分為八個部分,統(tǒng)稱為ISO/IEC1318國際標(biāo)準(zhǔn)。第一部分:系統(tǒng),描述多個視頻,音頻和數(shù)據(jù)基本碼流合成傳輸碼流和節(jié)目碼流的方式;第二部分:視頻,描述視頻編碼方法;第三部分:音頻,描述與MPEG-1音頻標(biāo)準(zhǔn)反向兼容的音頻編碼方法;第四部分:符合測試,描述測試一個編碼碼流是否符合MPEG-2標(biāo)準(zhǔn)的第一、二、三部分的軟件實(shí)現(xiàn)方法;第五部分:數(shù)字存儲媒體-命令與控制,描述交互式多媒體網(wǎng)絡(luò)中服務(wù)器與用戶間的會話信令集;第六部分:非向后兼容的音頻,規(guī)定不與MPEG-1音頻反向兼容的多通道音頻編碼;第七部分:10比特視頻,現(xiàn)已停止;第八部分:實(shí)時接口,規(guī)定了傳送碼流的實(shí)時接口。?
MPEG-2視頻編碼標(biāo)準(zhǔn)是一個按等級劃分的系列,按編碼圖像的分辨率分成4個“級”:低級(LL: low level),輸入信號的像素為ITU-R601格式的四分之一;主級(ML: main level),輸入信號的像素為ITU-R601;高級-1440(H14L:high-1440 level)為4:3模式電視高清晰度格式;高級(HL: high level)為16:9模式電視的高清晰度格式。按所使用的編碼工具的集合分成5個“類”:簡單類(SP:simple profile),只有基準(zhǔn)幀Ⅰ和預(yù)測幀P;主類(MP: main profile),比SP增加了雙向推測幀B;信雜比分層類(SNRP:SNR scalable profile);空間可分層類(SSP: spatial scalable profile);高類(HP: high profile)?!凹墶迸c“類”的若干組合構(gòu)成MPEG-2視頻編碼標(biāo)準(zhǔn)在某種特定應(yīng)用下的子集。對某一輸入格式的圖像,采用特定集合的壓縮編碼工具,產(chǎn)生規(guī)定速率范圍內(nèi)的編碼碼流。MPEG-2的編碼碼流分為6個層次。從上至下依次為:視頻序列層(Sequence);圖像組層(GOP:GroupofPicture);圖像層(Picture);像條層(Slice);宏塊層(MacroBlock)和像塊層(Block)。?
MPEG-2的編碼流程:在幀內(nèi)編碼的情況下,編碼圖像僅經(jīng)過DCT,量化器和比特流編碼器即生成編碼比特流,而不經(jīng)過預(yù)測環(huán)處理。DCT直接應(yīng)用于原始的圖像數(shù)據(jù)。在幀間編碼的情況下,原始圖像首先與幀存儲器中的預(yù)測圖像進(jìn)行比較,計算出運(yùn)動矢量,由此運(yùn)動矢量和參考幀生成原始圖像的預(yù)測圖像。而后,將原始圖像與預(yù)測像素差值所生成的差分圖像數(shù)據(jù)進(jìn)行DCT變換,再經(jīng)過量化器和比特流編碼器生成輸出的編碼比特流。?
1.3 MPEG-4?
MPEG-4標(biāo)準(zhǔn)的目標(biāo)是:支持多種多媒體應(yīng)用(主要側(cè)重于對多媒體信息內(nèi)容的訪問),可根據(jù)應(yīng)用的不同要求現(xiàn)場配置解碼器。MPEG-4旨在為視(音)頻數(shù)據(jù)的通信、存取與管理提供一個靈活的框架與一套開放的編碼工具。?
在MPEG-4圖像與視頻標(biāo)準(zhǔn)中,視頻表示工具的目標(biāo),是為多媒體環(huán)境下的紋理、圖像和視頻數(shù)據(jù)的有效存儲、傳輸及管理提供標(biāo)準(zhǔn)化的核心技術(shù)。尤其強(qiáng)調(diào)這些工具對圖像和視頻內(nèi)容的原子單元(稱為視頻對象VO)的編解碼能力。對任意形狀的視頻對象進(jìn)行有效的表示,以支持所謂基于內(nèi)容的功能集。而此功能集支持內(nèi)容(即場景中的物理對象VO)的單獨(dú)編碼和解碼,這一特性為交互性提供了有力的底層機(jī)制支持,也為在壓縮域?qū)D像或視頻的VO內(nèi)容進(jìn)行靈活的表示和管理提供了有利條件。MPEG-4圖像與視頻標(biāo)準(zhǔn)統(tǒng)一支持傳統(tǒng)矩形和任意形狀圖像與視頻的編解碼。對于基于內(nèi)容的應(yīng)用,輸入的圖像序列可能具有任意形狀和位置。形狀可以用8位透明分量表示(一個VO由多個其它對象構(gòu)成時)或用一個二值掩模描述。另外,通過對場景中每個物體采用適當(dāng)?shù)暮途?xì)的基于對象的運(yùn)動預(yù)測工具,可以大大提高某些視頻序列的壓縮比" title="壓縮比">壓縮比。對于MPEG-4擴(kuò)展的基于內(nèi)容的編碼可視為傳統(tǒng)的VLBV內(nèi)核或HBV工具由矩形輸入向任意形狀輸入的邏輯延伸。從這個意義上,基于內(nèi)容的編碼是VLBV和HBV內(nèi)核的超集。?
MPEG-4標(biāo)準(zhǔn)在原有的基礎(chǔ)上增加了七個新的功能。增加的各個功能的特點(diǎn):?
(1)基于內(nèi)容的操作與比特流編輯支持無需編碼就可進(jìn)行基于內(nèi)容的操作與比特流編輯。(2)自然與合成數(shù)據(jù)混合編碼。提供將自然視頻圖像同合成數(shù)據(jù)(文本、圖形)有效結(jié)合的方式,同時支持交互性操作。(3)增強(qiáng)的時間域隨機(jī)存取。MPEG-4將提供有效的隨機(jī)存取方式:在有限的時間間隔內(nèi),可按幀或任意形狀的對象,對一音、視頻序列進(jìn)行隨機(jī)存取。(4)提高編碼效率。在與現(xiàn)有的或正在形成的標(biāo)準(zhǔn)的可比擬速率上,MPEG-4標(biāo)準(zhǔn)將提供更好的主觀視覺質(zhì)量的圖像。(5)對多個并發(fā)數(shù)據(jù)流的編碼。MPEG-4將提供對一景物的有效多視角編碼,加上多伴音聲道編碼及有效的視聽同步。在立體視頻應(yīng)用方面,MPEG-4將利用同一景物的多視點(diǎn)觀察所造成的信息冗余,在足夠的觀察視點(diǎn)條件下有效地描述三維自然景物。(6)錯誤易發(fā)環(huán)境中的抗錯性“靈活多樣”是指允許采用各種有線網(wǎng)和各種存儲媒體,MPEG-4將提高抗錯誤能力,尤其是在易發(fā)生嚴(yán)重錯誤的環(huán)境下的低比特應(yīng)用中(移動通信鏈路)。MPEG-4是第一個在其音、視頻表示規(guī)范中考慮信道特性的標(biāo)準(zhǔn),目的不是取代已由通信網(wǎng)提供的錯誤控制技術(shù),而是提供一種對抗殘留錯誤的堅韌性。(7)基于內(nèi)容的尺度可變性。內(nèi)容尺度可變性意味著給圖像中的各個對象分配優(yōu)先級?;趦?nèi)容的尺度可變性是MPEG-4的核心,因?yàn)橐坏﹫D像中所含對象的目錄及相應(yīng)的優(yōu)先級確定后,其它的集內(nèi)容的功能就比較容易實(shí)現(xiàn)了。對甚低比特率應(yīng)用來說,尺度可變形成一個關(guān)鍵的因素,因?yàn)樗峁┝俗赃m應(yīng)可用資源的能力。?
以上七個新的功能可以歸納為三類:基于內(nèi)容的交互性、高壓縮率和靈活多樣的存取模式。前三個功能為基于內(nèi)容的交互性,四、五為高壓縮率模式,最后兩個為靈活多樣的存取模式。?
1.4 MPEG-7?
MPEG-7標(biāo)準(zhǔn)稱為“多媒體內(nèi)容描述接口”,它將擴(kuò)展現(xiàn)有內(nèi)容識別專用解決方案的有限能力,特別是還包括了更多的數(shù)據(jù)類型。換言之,MPEG-7將規(guī)定一個用于描述各種不同類型多媒體信息的描述符" title="描述符">描述符的標(biāo)準(zhǔn)集合。?
MPEG-7對定義其它描述符及其結(jié)構(gòu)(描述方案)和他們之間關(guān)系的方法進(jìn)行標(biāo)準(zhǔn)化。這種描述(也就是描述符和描述方案的組合)將與內(nèi)容本身關(guān)聯(lián)起來,以便對用戶感興趣的素材進(jìn)行快速高效的搜索。MPEG-7標(biāo)準(zhǔn)化了一種用來定義描述方案的語言,即描述定義語言(DDL)。加之相關(guān)的MPEG-7數(shù)據(jù)的AV素材,就可以被加上索引,并可進(jìn)行檢索。?
MPEG-7象MPEG家族中其他成員一樣,是針對滿足特定需要的音、視頻信息的標(biāo)準(zhǔn)化表述。MPEG-7的描述符并不依賴于它所描述的內(nèi)容是編碼的或存儲的方式,可以把MPEG-7的描述說明附加到模擬制的電影里或使用紙張打印出來的圖片上。然而,盡管MPEG-7的描述不依賴于所處理素材的(編碼)表達(dá)方式,但由于在一定程度上它是在MPEG-4的基礎(chǔ)上發(fā)展起來的,而MPEG-4采用了按照具有一定時間關(guān)系和空間關(guān)系的對象來進(jìn)行音、視頻編碼的處理方式,因此用MPEG-4編碼有可能把描述說明附加到場景中的成員(對象)。所以,MPEG-7在描述中要提供不同的程度,才可能實(shí)現(xiàn)不同等級的識別。?
因?yàn)槊枋鲂蕴卣鞅仨氃趹?yīng)用環(huán)境中才有意義,所以會因用戶范圍的不同和應(yīng)用領(lǐng)域的不同而有所區(qū)別。這就意味著,同樣的素材,因?yàn)橐蛻?yīng)用范圍相匹配,可能會使用不同類型的特征來描述。當(dāng)然,所有這些描述都會以高效方式進(jìn)行編碼,業(yè)績能提高搜索的效率。同時,中間也可能存在過渡的抽象等級。抽象等級與提取特征的方式有關(guān),許多低等級的特征可以用全自動的方式提取出來,而高等級的特征就需要更多的人工交互。?
2 MPEG的未來展望?
MPEG視頻壓縮系統(tǒng)是一個技術(shù)含量很高的復(fù)雜集成系統(tǒng),在世界上也只有少數(shù)極有實(shí)力的公司才能推出商業(yè)產(chǎn)品。由于MPEG視頻壓縮系統(tǒng)的技術(shù)復(fù)雜、設(shè)備昂貴,故至今為止普及程度很低。但隨著技術(shù)的進(jìn)步、工藝的成熟和價格下降,其應(yīng)用面正在拓寬。過去需要花費(fèi)上百萬元才能做成的事,現(xiàn)在幾萬元即可實(shí)現(xiàn)。如果你已有這樣的MPEG視頻壓縮系統(tǒng),就可以很容易地把錄像、照片、圖片、電影等節(jié)目加以壓縮存放在計算機(jī)中或制成VCD光盤,可廣泛應(yīng)用于電話教學(xué)、演示宣傳、生活錄像、檔案管理等各類視頻制作中。?
MPEG制定的是一系列的標(biāo)準(zhǔn),實(shí)際上很多情況下并沒有給出具體的實(shí)現(xiàn),最后的實(shí)施還要通過各個廠商和研發(fā)人員實(shí)現(xiàn)。MPEG的研究主要集中在兩方面:(1)對MPEG實(shí)現(xiàn)的研究;(2)進(jìn)一步研究圖像壓縮方法已獲得更大數(shù)據(jù)壓縮比并且實(shí)現(xiàn)人機(jī)對話的功能。?
從現(xiàn)在MPEG標(biāo)準(zhǔn)來看,作者認(rèn)為主要將集中在基于對象的處理方法上,也就是對于不同的數(shù)據(jù)、內(nèi)容、要求將根據(jù)情況選擇不同方法處理。首先這是滿足人機(jī)對話的最基本要求,也是滿足以人為本宗旨的要求,每一個人都可以根據(jù)自己的需求而要求采用不同的處理方法;其次,這是進(jìn)一步獲得更大圖像數(shù)據(jù)壓縮比的要求。以前基于數(shù)據(jù)本身和其變換與統(tǒng)計個性的壓縮方法很難滿足高速公路上的數(shù)據(jù)流速度,而基于對象的處理方法,主要是現(xiàn)實(shí)基于模型的壓縮方法,可以針對不同對象(內(nèi)容)采用不同的壓縮方法,從而獲得巨大的壓縮比,而且滿足人的視覺要求。在MPEG-4和MPEG-7標(biāo)準(zhǔn)中已經(jīng)注意到這個問題,引入了基于對象或稱為內(nèi)容的研究。因此,筆者認(rèn)為基于對象的圖像處理方法將是未來MPEG的發(fā)展方向。?
MPEG視頻壓縮技術(shù)和VCD制作為我們開拓了一條發(fā)展的新路。MPEG視頻壓縮技術(shù)的推廣應(yīng)用,可能會產(chǎn)生一個新行業(yè),即多媒體制作。這方面的市場剛剛啟動,在教育、培訓(xùn)等方面幾乎是空白,是一個有很大發(fā)展?jié)摿Φ男袠I(yè),有待于開拓。未來是信息化的社會,各種多媒體數(shù)據(jù)的傳輸和存儲是信息處理的基本問題,本文僅僅從MPEG標(biāo)準(zhǔn)方面進(jìn)行了詳細(xì)的闡述,還有很多這方面的技術(shù)有待于研究和開發(fā),希望有志于此研究的人士共同探討。?
參考文獻(xiàn)?
1 Tan K T.Blockiness detection for MPEG-2 coded video[J].IEEE Signal Processing Letters ,2000,7(8)?
2 Kadono.Motion compensation method for moving prctures with binary shape[J].Signal Processing :Image Communication,2000,16(3)?
3 Sodagar.Multi-scale zerotree entropy coding[C].Proceedings of the IEEE 2000 International Symposium on Circuits and Systems,2000?
4 梨洪松.數(shù)字視頻技術(shù)及其應(yīng)用[M].清華大學(xué)出版社,1998?
5 Overview of the Mpeg-4Standard[S].version 16,ISO/IEC JTC1/SC29/WG11 N3747,2000?
6 Overview of the Mpeg-7Standard[S].version 4.0,ISO/IEC JTC1/SC29/WG11 N3752,2000