文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2012)06-0138-03
隨著視頻處理技術(shù)的日益成熟,越來(lái)越多的視頻匹配技術(shù),充分應(yīng)用于在醫(yī)學(xué)、電視廣播系統(tǒng)等領(lǐng)域,極大改善了數(shù)據(jù)庫(kù)中多媒體視頻的大量重復(fù)現(xiàn)象,為網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的綠色化提供了技術(shù)支持[1]。由于視頻數(shù)據(jù)量相當(dāng)大,因此對(duì)匹配過(guò)程中的具體指標(biāo)有相當(dāng)嚴(yán)格的要求。
近年來(lái),針對(duì)視頻識(shí)別的算法層出不窮,但大致都是單純基于運(yùn)動(dòng)特征或是單純基于內(nèi)容的識(shí)別方法。對(duì)于視頻中存在的若干部分的非紋理幀的現(xiàn)象,參考文獻(xiàn)[2]提出一個(gè)有效的視頻幀登記策略,并設(shè)計(jì)修改了兩幀強(qiáng)度的匹配算法。該算法具有良好的性能,可處理包含若干部分非紋理幀的視頻。但是使用估計(jì)值造成運(yùn)算結(jié)果中存在大量誤差。對(duì)于視頻處理的實(shí)時(shí)性,參考文獻(xiàn)[3]提出一種方法,能快速匹配長(zhǎng)視頻流,或者在長(zhǎng)視頻流中快速找到一個(gè)相對(duì)較短的視頻序列。該方法解決了視頻匹配的實(shí)時(shí)性問(wèn)題,但對(duì)于視頻的配準(zhǔn)率仍有所欠缺。參考文獻(xiàn)[4]則把每幅圖像預(yù)先劃分成紋理和非紋理區(qū)域,這種方法針對(duì)不同紋理區(qū)域采取相應(yīng)的措施,增加了整個(gè)過(guò)程的效率,提高整體性能,不足之處在于只能匹配內(nèi)容相近的視頻,無(wú)法確定是否為同一視頻。
本文提出一種基于主顏色和紋理特征的TS(Telescopic Shot)模型匹配方法,該方法忠實(shí)于視頻的內(nèi)容,利用視頻關(guān)鍵幀的主顏色和紋理特征來(lái)進(jìn)行部分視頻幀的圖像匹配。采用TS改進(jìn)模型描述各個(gè)鏡頭與視頻處理算法的對(duì)應(yīng)關(guān)系,提高了視頻圖像匹配的效率,同時(shí)也對(duì)相近視頻和同一視頻進(jìn)行了分類處理。
1 顏色特征與紋理特征
顏色特征是圖像匹配的基本依據(jù),提取顏色特征的方法主要有主顏色的直方圖、顏色矩、顏色集等。比較常用的是顏色的直方圖方法,該方法主要針對(duì)全局顏色的數(shù)量特征進(jìn)行統(tǒng)計(jì),得到顏色的直方圖,并反映出顏色的統(tǒng)計(jì)分布和基本色調(diào)。顏色直方圖包含某種顏色的頻率,拋棄了該色素所在的空間位置,因此計(jì)算量更少。
紋理特征是一個(gè)圖像匹配很好的方法,它不依賴于圖像的顏色和亮度。常見(jiàn)的紋理特征提取方法是灰度共生矩陣紋理特征提取以及基于小波變換的特征提取,灰度共生矩陣主要是把圖像的灰度值通過(guò)計(jì)算轉(zhuǎn)化成紋理特征。小波變化則是對(duì)時(shí)間以及頻率進(jìn)行局域性的變換,具有分析多分辨率的特點(diǎn)。
2 TS模型算法
TS模型適合鏡頭切換速度比較快、數(shù)量比較多的視頻。算法采用依次的鏡頭匹配實(shí)現(xiàn)其可伸縮性的特點(diǎn)。對(duì)于已經(jīng)完成的N個(gè)鏡頭匹配,判定是否有決定性匹配,若沒(méi)有則對(duì)下一鏡頭進(jìn)行匹配,直至完全匹配為止。其算法的計(jì)算量很小,目的就是判定目標(biāo)視頻與源視頻是否為同一視頻。
3 TS改進(jìn)模型描述
對(duì)于網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的海量視頻,算法復(fù)雜度是算法處理的難點(diǎn)。對(duì)于一些毫不相關(guān)的視頻內(nèi)容,可以采用一個(gè)簡(jiǎn)單的算法進(jìn)行識(shí)別和過(guò)濾,避免浪費(fèi)數(shù)據(jù)處理的時(shí)間。為此,針對(duì)TS模型算法,本文提出了改進(jìn)算法,圖1所示為對(duì)視頻的關(guān)鍵幀進(jìn)行粗、細(xì)匹配相結(jié)合的比對(duì)。
4 TS改進(jìn)模型的匹配算法實(shí)現(xiàn)
4.1 鏡頭分割
鏡頭檢測(cè)算法在鏡頭分割技術(shù)中的地位很重要,對(duì)于傳統(tǒng)的鏡頭算法,最難以描述的就是視頻鏡頭切換較快而且無(wú)規(guī)律,如NBA中的比賽錄像,前后鏡頭內(nèi)容變化量很大。對(duì)于這種視頻,采用參考文獻(xiàn)[5]提出的鏡頭邊界檢測(cè)算法進(jìn)行分割。
通過(guò)對(duì)視頻中各幀圖像的灰度強(qiáng)度的熵信息進(jìn)行運(yùn)算分析,找到信息變化量巨大的幀,選取為鏡頭的邊界幀。設(shè)X是一個(gè)離散的隨機(jī)變量,Ax表示一系列事件{y1,y2,…,yn},Px表示相關(guān)概率。
圖3所示為通過(guò)鏡頭檢測(cè)處理得到的各幀的熵變化。實(shí)驗(yàn)證明,采用此方法得到切割鏡頭的查準(zhǔn)率達(dá)到97.8%,查全率達(dá)到99.3%。
最后對(duì)共生矩陣歸一化,對(duì)共生矩陣計(jì)算能量、熵、慣性矩及相關(guān)4個(gè)紋理參數(shù),求出能量、熵、慣性矩及相關(guān)的均值和標(biāo)準(zhǔn)差作為最終的八維紋理特征[6]。
4.4 視頻粗匹配
(1)提取壓縮視頻的關(guān)鍵幀(此時(shí)關(guān)鍵幀選取為鏡頭第一幀),對(duì)數(shù)據(jù)源目標(biāo)視頻首幀進(jìn)行圖像匹配,對(duì)關(guān)鍵幀的相似度進(jìn)行比對(duì)。
(2)若相似度>80%,則認(rèn)為該視頻和源視頻處于同一視頻情景內(nèi),繼續(xù)進(jìn)行操作,轉(zhuǎn)接到細(xì)匹配。
(3)若相似度<80%,則繼續(xù)對(duì)后繼鏡頭頭幀進(jìn)行匹配,轉(zhuǎn)到步驟(2)。
(4)匹配結(jié)束,返回失敗提示。
4.5 視頻細(xì)匹配
運(yùn)用TS模型進(jìn)行視頻的細(xì)匹配。將首鏡頭的關(guān)鍵幀所提取的內(nèi)容信息(即主顏色以及紋理特征)進(jìn)行匹配,若相似度>80%,則認(rèn)為該鏡頭匹配,繼續(xù)將第二個(gè)鏡頭所得到的關(guān)鍵幀進(jìn)行圖像匹配,以此類推,直至達(dá)到鏡頭數(shù)量的閾值為止,此閾值為自適應(yīng)閾值。根據(jù)經(jīng)驗(yàn)值,在鏡頭總數(shù)>200時(shí),一般在總鏡頭數(shù)量的二分之一為宜,然后通過(guò)比對(duì)剩余鏡頭數(shù)量即可得到細(xì)匹配的效果。若鏡頭數(shù)很小,則自動(dòng)執(zhí)行至終鏡頭。在得到源視頻和目標(biāo)視頻匹配的同時(shí),可以將匹配的幀數(shù)放寬到源視頻幀數(shù)的90%,最后得到的視頻即為源視頻的相近視頻,并對(duì)匹配視頻和相近視頻做統(tǒng)一分類。通過(guò)這樣的順序匹配,配合TS模型的自動(dòng)伸縮性閾值,既可以減少視頻的運(yùn)算量,又可以保證基于內(nèi)容匹配的精確度。
5 實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)選用360個(gè)完全不同類型的長(zhǎng)短視頻進(jìn)行多次匹配,包括大量的、變化巨大的廣告視頻以及NBA比賽視頻等,鏡頭數(shù)量在160~2 500不等。
通過(guò)實(shí)驗(yàn)證明,基于主顏色和紋理特征的圖像匹配應(yīng)用到視頻匹配中,提高了視頻匹配的查準(zhǔn)率和查全率。相對(duì)于基于運(yùn)動(dòng)特征的視頻匹配,提高了約20%,如圖4所示。其中曲線y1表示結(jié)合主顏色和紋理特征的TS模型匹配算法,曲線y2表示單純主顏色的視頻匹配,曲線y3表示單純紋理特征的算法,曲線y4表示傳統(tǒng)的基于運(yùn)動(dòng)特征的視頻匹配。從實(shí)驗(yàn)結(jié)果可以看出,本文算法得到的查全率明顯優(yōu)于傳統(tǒng)的基于運(yùn)動(dòng)特征的算法,比基于單一特征的算法更為精確。另外,由于應(yīng)用TS模型算法大大降低了計(jì)算量,從計(jì)算復(fù)雜度方面衡量,本文算法比其他三種算法降低約45%。
本文提出一種基于主顏色和紋理特征的視頻匹配方法,不但將基于內(nèi)容的圖像匹配應(yīng)用到視頻中來(lái),提高了視頻內(nèi)容的查全率和查準(zhǔn)率,而且應(yīng)用TS模型改進(jìn)算法,更有效地降低了視頻處理的計(jì)算量。本文算法較傳統(tǒng)的基于運(yùn)動(dòng)特征的視頻匹配算法精確率明顯提高;較基于內(nèi)容的視頻匹配算法,精確度更高,計(jì)算量也降低高達(dá)45%,通過(guò)大量的實(shí)驗(yàn)驗(yàn)證,具有一定的通用性。
參考文獻(xiàn)
[1] 陳秀新,賈克斌,鄧智玭.融合時(shí)序特征和關(guān)鍵幀的視頻檢索方法[J].電視技術(shù),2011, 35(03):21-24.
[2] JIANCHAO Y. Alignment of non-texture video frames using kalman filter[C]. IET Computer Vision, Jan, 2011:77-85.
[3] PRIBULA O, POHANKA J, et al. Real-time video sequences matching using the spatiotemporal fingerprint[C].IEEE Mediter- ranean Electrotechnical Conference, 2010.
[4] ABDOLLAHIAN G, BIRINCI M, et al. A region-dependent image matching method for image and video annotation[C]. IEEE International Workshop on Content-Based Multimedia Indexing, 2011.
[5] BABER J, AFZULPURKAR N, et al. Shot boundary detection from videos using entropy and local descriptor[C]. IEEE International Conference on Digital Signal Processing, 2011.
[6] 薄華,馬縛龍. 圖像紋理的灰度共生矩陣計(jì)算問(wèn)題的分析[J]. 電子學(xué)報(bào), 2006,34(1):155-158.