文獻(xiàn)標(biāo)識碼: A
文章編號: 0258-7998(2012)03-0130-04
近年來,隨著網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的快速發(fā)展,數(shù)字視頻的產(chǎn)生、復(fù)制、修改和傳播變得越來越容易。視頻信息在版權(quán)保護(hù)、廣播監(jiān)測、內(nèi)容跟蹤和管理等方面的問題日益突出,同源視頻檢測技術(shù)作為應(yīng)對此類問題的一個(gè)有效手段受到廣泛關(guān)注。
同源視頻檢測的實(shí)質(zhì)是判定兩段視頻是否具有相同的內(nèi)容?,F(xiàn)有的同源視頻檢測方法通常采用基于幀匹配框架,且一些圖像匹配方法被廣泛使用,如基于顏色直方圖的方法、基于邊緣的方法以及基于運(yùn)動(dòng)信息的方法[1]等,但這些方法都存在對視頻色彩、格式、尺度變化魯棒性差以及難以準(zhǔn)確表征視頻信息等問題?;诜謮K亮度順序OM(Ordinal Measures)[2]的方法相比于現(xiàn)有其他方法性能更優(yōu)。該方法通過發(fā)現(xiàn)圖像塊間相對關(guān)系來構(gòu)造不變視覺特征,但是局部變化通常會(huì)打亂圖像塊間的相對關(guān)系,導(dǎo)致這類方法失效[3],且該方法受限于OM分塊的數(shù)量,對視頻內(nèi)容的區(qū)分能力較弱[1]。
上述方法的核心問題是所選取特征的魯棒性及區(qū)分性較差,采用魯棒性及區(qū)分性更好的視頻圖像特征將有利于視頻的準(zhǔn)確表征,能進(jìn)一步改善同源視頻檢測效果。近年來,在計(jì)算機(jī)視覺領(lǐng)域成熟的圖像局部關(guān)鍵點(diǎn)檢測算子和描述算子[4]受到廣泛關(guān)注,并被應(yīng)用于視頻檢測中[5,11]。其中SIFT特征在對象識別方面具有較好的性能[6-7]。但是基于單幀SIFT特征的視頻檢測方法沒有充分利用視頻特征的時(shí)空相關(guān)性,不利于視頻的表征及檢測效果。本文對視頻幀序列的SIFT特征進(jìn)行了時(shí)空特性分析,提出了一種視頻聯(lián)合時(shí)空SIFT特征。
1 視頻序列的SIFT特征分析
1.1 SIFT特征提取算法
SIFT[8](Scale-Invariant Feature Transform)是一種圖像特征提取與匹配算法,該算法能處理兩幅圖像之間發(fā)生平移、旋轉(zhuǎn)、尺度變化、光照變化情況下的特征匹配問題,且在一定程度上對視角變化、仿射變化也具備較為穩(wěn)定的特征匹配能力。該算法已被證實(shí)在同類特征中健壯性最強(qiáng)[4,6],能在不同圖像中檢測識別出相同的物體。SIFT特征在穩(wěn)定性、獨(dú)特性方面的優(yōu)良性能,使得SIFT特征非常適合在連續(xù)視頻幀中提取穩(wěn)定性、區(qū)分性強(qiáng)的事物特征來表征視頻信息,并能夠準(zhǔn)確地在特征數(shù)據(jù)庫中予以匹配。
1.2 視頻序列的SIFT特征時(shí)空特性分析
連續(xù)視頻幀的視覺信息在時(shí)域和空域都是不斷變化的,其中會(huì)有穩(wěn)定相同的以及新出現(xiàn)的事物和特征。本文以視頻幀圖像的SIFT特征進(jìn)行實(shí)驗(yàn)分析,對一段運(yùn)動(dòng)視頻在空域上對每幀圖像進(jìn)行SIFT特征提取,在時(shí)域上統(tǒng)計(jì)幀與幀之間的SIFT特征匹配數(shù)量。實(shí)驗(yàn)結(jié)果如圖1(a)所示,虛線表示每幀圖像中SIFT特征的數(shù)量,實(shí)線表示相鄰前后兩幀圖像相匹配的SIFT特征數(shù)量,‘*’線表示后續(xù)幀分別與首幀(也可認(rèn)為是某一固定幀)特征相匹配的數(shù)量。該數(shù)據(jù)表明本實(shí)驗(yàn)視頻具有以下特性:
(1)相鄰的前后幀存在大量相匹配的SIFT特征,即幀間存在特征冗余。
(2)后續(xù)幀與首幀之間存在一定數(shù)量相匹配的SIFT特征,即后續(xù)畫面中穩(wěn)定出現(xiàn)的一些特征,如圖1(b)所示。視頻中可能會(huì)有臺標(biāo)、徽標(biāo)等長時(shí)間出現(xiàn)且未發(fā)生變化的物體畫面區(qū)域。
(3)序列幀間存在特征更新。雖然相鄰幀相匹配的特征數(shù)量較多,但對于運(yùn)動(dòng)等畫面內(nèi)容變動(dòng)較大的視頻,隨著幀間隔的擴(kuò)大,幀間特征匹配數(shù)量會(huì)減少,即新的特征在增加。
(4)隨著后續(xù)幀與首幀(或者某一固定幀)相匹配的特征數(shù)量的減少,其所占每幀特征總數(shù)的比例遞減。進(jìn)一步分析可知,當(dāng)其減少到一定比例時(shí),可以認(rèn)為是大量新的視頻信息取代了首幀(或者某一固定幀)信息,即新的代表幀甚至是新場景鏡頭的開始。
通過以上分析容易得出,本實(shí)驗(yàn)視頻的上述特點(diǎn)具有一定的普遍性。
2 視頻序列的聯(lián)合時(shí)空SIFT特征表征及其度量
對于一段視頻,僅提取單幀或者關(guān)鍵幀圖像的特征會(huì)造成一定的視頻信息損失,無法充分準(zhǔn)確地表征視頻。結(jié)合1.2節(jié)視頻序列SIFT特征的時(shí)空特性分析,本文進(jìn)行了視頻聯(lián)合時(shí)空SIFT特征構(gòu)造。
2.1 聯(lián)合時(shí)空SIFT特征的構(gòu)造
視頻聯(lián)合時(shí)空SIFT特征有以下三種構(gòu)造方法:
(1)對視頻幀序列范圍內(nèi)的SIFT特征進(jìn)行“趨同”處理。由1.2節(jié)實(shí)驗(yàn)視頻特性(2)可知,視頻幀序列中會(huì)重復(fù)、穩(wěn)定出現(xiàn)一些事物特征,特別是對于鏡頭固定、畫面內(nèi)容變動(dòng)不大的視頻,此類特征能較準(zhǔn)確地表達(dá)視頻信息。于是以一定序列幀內(nèi)某一幀為基準(zhǔn),按照式(1)提取幀間穩(wěn)定出現(xiàn)的、即“趨同”的SIFT特征對視頻進(jìn)行表征。
表示沒有檢測到的參考視頻數(shù)量,F(xiàn)lasePositive表示錯(cuò)誤檢測到的非參考視頻數(shù)量,Ntarget表示查詢視頻中參考視頻的數(shù)量,Tqueries表示查詢視頻的總長度,β[10]為統(tǒng)一量綱和加權(quán)。NDCR的數(shù)值越低,表明視頻檢測的精度越高。
(2)平均檢測時(shí)間:由一個(gè)查詢遍歷完所有參考視頻所消耗的時(shí)間來衡量。
本文將聯(lián)合時(shí)空SIFT方法與目前常用的分塊亮度順序(OM)方法進(jìn)行同源視頻檢測的對比實(shí)驗(yàn)。如圖3(a)中所示的聯(lián)合時(shí)空SIFT特征方法的NDCR總體平均值為0.192 9,遠(yuǎn)低于OM方法的NDCR總體平均值0.872 1,即前者的檢測精度高于后者。圖3(b)中聯(lián)合時(shí)空SIFT方法的時(shí)間消耗平均為1 000.46 s,遠(yuǎn)大于OM方法的122.75 s。
由實(shí)驗(yàn)可以得出,聯(lián)合時(shí)空SIFT方法對亮度、尺寸、幀率、分辨率、畫中畫等視頻變化都有較好的檢測精度,明顯好于OM方法。由于SIFT算法本身具有較大的計(jì)算量,而聯(lián)合時(shí)空SIFT方法是在提取了SIFT局部點(diǎn)特征的基礎(chǔ)上進(jìn)行了一定的時(shí)域及空域的壓縮,所以導(dǎo)致了檢測時(shí)間明顯高于OM方法。
SIFT特征具有良好的尺度、旋轉(zhuǎn)、光照和仿射等不變性,是性能優(yōu)良的特征匹配算子。視頻幀序列中,單個(gè)圖像幀的特征匹配并不能很好地解決所選特征存在的魯棒性和區(qū)分性較弱的問題。本文對視頻幀序列進(jìn)行了SIFT特征時(shí)空特性分析,并采用“局部趨同,全局異化”的策略,提出了一種聯(lián)合時(shí)空SIFT特征的視頻表征方法。實(shí)驗(yàn)表明,使用本文所提出的聯(lián)合特征進(jìn)行同源視頻檢測,能應(yīng)對如亮度、尺寸、分辨率等視頻變化,且較現(xiàn)有的OM方法具有更好的檢測精度。但基于該特征的方法也有些不足,如計(jì)算量較大等問題,且當(dāng)參考視頻數(shù)據(jù)庫規(guī)模較大時(shí),會(huì)導(dǎo)致檢測時(shí)間較長。在進(jìn)一步的工作中,將繼續(xù)對本文所提出的方法進(jìn)行優(yōu)化研究,以提高處理速度及改善在大容量視頻數(shù)據(jù)庫中的應(yīng)用。
參考文獻(xiàn)
[1] 潘雪峰,李錦濤,張勇東,等. 基于視覺感知的時(shí)空聯(lián)合視頻拷貝檢測方法[J].計(jì)算機(jī)學(xué)報(bào),2009,32(1):107-114.
[2] LAW T J, CHEN L, JOLY A,et al. Video copy detection: A Comparative Study[C].Proceedings of CIVR.Amsterdam:The Netherlands,2007.
[3] 吳瀟,李錦濤,唐勝,等. 基于時(shí)空軌跡行為特征的視頻拷貝檢測方法[J].計(jì)算機(jī)研究與發(fā)展,2010,47(11):1871-1877.
[4] MIKOLAJCZYK K, TUYTELAARS T, SCHMID C, et al. A comparsion of affine region detectors[J].International Journal of Computer Vision, 2005,65(1):43-72.
[5] 孫晶,褚金奎.圖像局部不變特征提取技術(shù)研究及其應(yīng)用[D].大連:大連理工大學(xué),2009.
[6] MIKOLAJCZYK K, SCHMID C. A performance evaluation of local descriptors[J]. IEEE Trans.on Pat.Analysis and Machine Intelligence,2005,27(10):1615-1630.
[7] DOUZE M, JEGOU H, SCHMID C. An image-based approach to video copy detection with spatio-temporal post-filtering[J].IEEE Transactions on Multimedia,2008,12(4):257-266
[8] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision,2004,60(2):91-110
[9] 徐波,孫軍.基于視頻印記的同源視頻檢測[D].上海:上交通大學(xué),2008
[10] TREC Video Retrieval Evaluation Home Page[Z].(2011-4-15).http://www-nlpir.nist.gov/projects/trecvid/.
[11] Guo Junbo, Li Jintao, Zhang Yongdong, et al. Video copy detection based on trajectory behavior pattern[J]. Journal of Computer Aided Design and Computer Graphics, 2010,22(6):943-948.