《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 聯(lián)合時(shí)空SIFT特征的同源視頻檢測
聯(lián)合時(shí)空SIFT特征的同源視頻檢測
來源:電子技術(shù)應(yīng)用2012年第3期
張瑞年,于洪濤,李邵梅
國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 河南 鄭州 450002
摘要: 通過對視頻幀序列時(shí)空特性的分析,采用“局部趨同,全局異化”的策略,提出了一種聯(lián)合時(shí)域和空域SIFT點(diǎn)特征的特征提取方法。實(shí)驗(yàn)表明,基于該特征的同源視頻檢測方法對于一定的視頻變化具有較好的魯棒性和檢測精度。
中圖分類號: TN915
文獻(xiàn)標(biāo)識碼: A
文章編號: 0258-7998(2012)03-0130-04
Detection of coderivative video based on spatiotemporal SIFT
Zhang Ruinian, Yu Hongtao, Li Shaomei
National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002, China
Abstract: Video features extraction is the important part of detection of coderivative video .SIFT features are local features with excellent performance. By anglicizing the temporal and spatial characteristics of video frames sequences SIFT feature, this paper takes the "local convergence, global alienation" strategy, and proposes a feature extraction method of spatiotemporal SIFT characteristics. Experiments of detection of coderivative video based on the method show that the proposed co-features has better robustness against certain changes of video sequences ,and also has a better detection accuracy than some existing methods.
Key words : detection of coderivative video; spatiotemporal characteristics of video frames sequences ;spatiotemporal SIFT characteristics

    近年來,隨著網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的快速發(fā)展,數(shù)字視頻的產(chǎn)生、復(fù)制、修改和傳播變得越來越容易。視頻信息在版權(quán)保護(hù)、廣播監(jiān)測、內(nèi)容跟蹤和管理等方面的問題日益突出,同源視頻檢測技術(shù)作為應(yīng)對此類問題的一個(gè)有效手段受到廣泛關(guān)注。

    同源視頻檢測的實(shí)質(zhì)是判定兩段視頻是否具有相同的內(nèi)容?,F(xiàn)有的同源視頻檢測方法通常采用基于幀匹配框架,且一些圖像匹配方法被廣泛使用,如基于顏色直方圖的方法、基于邊緣的方法以及基于運(yùn)動(dòng)信息的方法[1]等,但這些方法都存在對視頻色彩、格式、尺度變化魯棒性差以及難以準(zhǔn)確表征視頻信息等問題?;诜謮K亮度順序OM(Ordinal Measures)[2]的方法相比于現(xiàn)有其他方法性能更優(yōu)。該方法通過發(fā)現(xiàn)圖像塊間相對關(guān)系來構(gòu)造不變視覺特征,但是局部變化通常會(huì)打亂圖像塊間的相對關(guān)系,導(dǎo)致這類方法失效[3],且該方法受限于OM分塊的數(shù)量,對視頻內(nèi)容的區(qū)分能力較弱[1]。
    上述方法的核心問題是所選取特征的魯棒性及區(qū)分性較差,采用魯棒性及區(qū)分性更好的視頻圖像特征將有利于視頻的準(zhǔn)確表征,能進(jìn)一步改善同源視頻檢測效果。近年來,在計(jì)算機(jī)視覺領(lǐng)域成熟的圖像局部關(guān)鍵點(diǎn)檢測算子和描述算子[4]受到廣泛關(guān)注,并被應(yīng)用于視頻檢測中[5,11]。其中SIFT特征在對象識別方面具有較好的性能[6-7]。但是基于單幀SIFT特征的視頻檢測方法沒有充分利用視頻特征的時(shí)空相關(guān)性,不利于視頻的表征及檢測效果。本文對視頻幀序列的SIFT特征進(jìn)行了時(shí)空特性分析,提出了一種視頻聯(lián)合時(shí)空SIFT特征
1 視頻序列的SIFT特征分析
1.1 SIFT特征提取算法

     SIFT[8](Scale-Invariant Feature Transform)是一種圖像特征提取與匹配算法,該算法能處理兩幅圖像之間發(fā)生平移、旋轉(zhuǎn)、尺度變化、光照變化情況下的特征匹配問題,且在一定程度上對視角變化、仿射變化也具備較為穩(wěn)定的特征匹配能力。該算法已被證實(shí)在同類特征中健壯性最強(qiáng)[4,6],能在不同圖像中檢測識別出相同的物體。SIFT特征在穩(wěn)定性、獨(dú)特性方面的優(yōu)良性能,使得SIFT特征非常適合在連續(xù)視頻幀中提取穩(wěn)定性、區(qū)分性強(qiáng)的事物特征來表征視頻信息,并能夠準(zhǔn)確地在特征數(shù)據(jù)庫中予以匹配。
1.2 視頻序列的SIFT特征時(shí)空特性分析
    連續(xù)視頻幀的視覺信息在時(shí)域和空域都是不斷變化的,其中會(huì)有穩(wěn)定相同的以及新出現(xiàn)的事物和特征。本文以視頻幀圖像的SIFT特征進(jìn)行實(shí)驗(yàn)分析,對一段運(yùn)動(dòng)視頻在空域上對每幀圖像進(jìn)行SIFT特征提取,在時(shí)域上統(tǒng)計(jì)幀與幀之間的SIFT特征匹配數(shù)量。實(shí)驗(yàn)結(jié)果如圖1(a)所示,虛線表示每幀圖像中SIFT特征的數(shù)量,實(shí)線表示相鄰前后兩幀圖像相匹配的SIFT特征數(shù)量,‘*’線表示后續(xù)幀分別與首幀(也可認(rèn)為是某一固定幀)特征相匹配的數(shù)量。該數(shù)據(jù)表明本實(shí)驗(yàn)視頻具有以下特性:

    (1)相鄰的前后幀存在大量相匹配的SIFT特征,即幀間存在特征冗余。
 (2)后續(xù)幀與首幀之間存在一定數(shù)量相匹配的SIFT特征,即后續(xù)畫面中穩(wěn)定出現(xiàn)的一些特征,如圖1(b)所示。視頻中可能會(huì)有臺標(biāo)、徽標(biāo)等長時(shí)間出現(xiàn)且未發(fā)生變化的物體畫面區(qū)域。
  (3)序列幀間存在特征更新。雖然相鄰幀相匹配的特征數(shù)量較多,但對于運(yùn)動(dòng)等畫面內(nèi)容變動(dòng)較大的視頻,隨著幀間隔的擴(kuò)大,幀間特征匹配數(shù)量會(huì)減少,即新的特征在增加。
  (4)隨著后續(xù)幀與首幀(或者某一固定幀)相匹配的特征數(shù)量的減少,其所占每幀特征總數(shù)的比例遞減。進(jìn)一步分析可知,當(dāng)其減少到一定比例時(shí),可以認(rèn)為是大量新的視頻信息取代了首幀(或者某一固定幀)信息,即新的代表幀甚至是新場景鏡頭的開始。
  通過以上分析容易得出,本實(shí)驗(yàn)視頻的上述特點(diǎn)具有一定的普遍性。
2 視頻序列的聯(lián)合時(shí)空SIFT特征表征及其度量
     對于一段視頻,僅提取單幀或者關(guān)鍵幀圖像的特征會(huì)造成一定的視頻信息損失,無法充分準(zhǔn)確地表征視頻。結(jié)合1.2節(jié)視頻序列SIFT特征的時(shí)空特性分析,本文進(jìn)行了視頻聯(lián)合時(shí)空SIFT特征構(gòu)造。
2.1 聯(lián)合時(shí)空SIFT特征的構(gòu)造
  視頻聯(lián)合時(shí)空SIFT特征有以下三種構(gòu)造方法:
    (1)對視頻幀序列范圍內(nèi)的SIFT特征進(jìn)行“趨同”處理。由1.2節(jié)實(shí)驗(yàn)視頻特性(2)可知,視頻幀序列中會(huì)重復(fù)、穩(wěn)定出現(xiàn)一些事物特征,特別是對于鏡頭固定、畫面內(nèi)容變動(dòng)不大的視頻,此類特征能較準(zhǔn)確地表達(dá)視頻信息。于是以一定序列幀內(nèi)某一幀為基準(zhǔn),按照式(1)提取幀間穩(wěn)定出現(xiàn)的、即“趨同”的SIFT特征對視頻進(jìn)行表征。

 


  

表示沒有檢測到的參考視頻數(shù)量,F(xiàn)lasePositive表示錯(cuò)誤檢測到的非參考視頻數(shù)量,Ntarget表示查詢視頻中參考視頻的數(shù)量,Tqueries表示查詢視頻的總長度,β[10]為統(tǒng)一量綱和加權(quán)。NDCR的數(shù)值越低,表明視頻檢測的精度越高。
    (2)平均檢測時(shí)間:由一個(gè)查詢遍歷完所有參考視頻所消耗的時(shí)間來衡量。
    本文將聯(lián)合時(shí)空SIFT方法與目前常用的分塊亮度順序(OM)方法進(jìn)行同源視頻檢測的對比實(shí)驗(yàn)。如圖3(a)中所示的聯(lián)合時(shí)空SIFT特征方法的NDCR總體平均值為0.192 9,遠(yuǎn)低于OM方法的NDCR總體平均值0.872 1,即前者的檢測精度高于后者。圖3(b)中聯(lián)合時(shí)空SIFT方法的時(shí)間消耗平均為1 000.46 s,遠(yuǎn)大于OM方法的122.75 s。

    由實(shí)驗(yàn)可以得出,聯(lián)合時(shí)空SIFT方法對亮度、尺寸、幀率、分辨率、畫中畫等視頻變化都有較好的檢測精度,明顯好于OM方法。由于SIFT算法本身具有較大的計(jì)算量,而聯(lián)合時(shí)空SIFT方法是在提取了SIFT局部點(diǎn)特征的基礎(chǔ)上進(jìn)行了一定的時(shí)域及空域的壓縮,所以導(dǎo)致了檢測時(shí)間明顯高于OM方法。
    SIFT特征具有良好的尺度、旋轉(zhuǎn)、光照和仿射等不變性,是性能優(yōu)良的特征匹配算子。視頻幀序列中,單個(gè)圖像幀的特征匹配并不能很好地解決所選特征存在的魯棒性和區(qū)分性較弱的問題。本文對視頻幀序列進(jìn)行了SIFT特征時(shí)空特性分析,并采用“局部趨同,全局異化”的策略,提出了一種聯(lián)合時(shí)空SIFT特征的視頻表征方法。實(shí)驗(yàn)表明,使用本文所提出的聯(lián)合特征進(jìn)行同源視頻檢測,能應(yīng)對如亮度、尺寸、分辨率等視頻變化,且較現(xiàn)有的OM方法具有更好的檢測精度。但基于該特征的方法也有些不足,如計(jì)算量較大等問題,且當(dāng)參考視頻數(shù)據(jù)庫規(guī)模較大時(shí),會(huì)導(dǎo)致檢測時(shí)間較長。在進(jìn)一步的工作中,將繼續(xù)對本文所提出的方法進(jìn)行優(yōu)化研究,以提高處理速度及改善在大容量視頻數(shù)據(jù)庫中的應(yīng)用。
參考文獻(xiàn)
[1] 潘雪峰,李錦濤,張勇東,等. 基于視覺感知的時(shí)空聯(lián)合視頻拷貝檢測方法[J].計(jì)算機(jī)學(xué)報(bào),2009,32(1):107-114.
[2] LAW T J, CHEN L, JOLY A,et al. Video copy detection: A Comparative Study[C].Proceedings of CIVR.Amsterdam:The Netherlands,2007.
[3] 吳瀟,李錦濤,唐勝,等. 基于時(shí)空軌跡行為特征的視頻拷貝檢測方法[J].計(jì)算機(jī)研究與發(fā)展,2010,47(11):1871-1877.
[4] MIKOLAJCZYK K, TUYTELAARS T, SCHMID C, et al. A  comparsion of affine region detectors[J].International Journal of Computer Vision, 2005,65(1):43-72.
[5] 孫晶,褚金奎.圖像局部不變特征提取技術(shù)研究及其應(yīng)用[D].大連:大連理工大學(xué),2009.
[6] MIKOLAJCZYK K, SCHMID C. A performance evaluation of local descriptors[J]. IEEE Trans.on Pat.Analysis and Machine Intelligence,2005,27(10):1615-1630.
[7] DOUZE M, JEGOU H, SCHMID C. An image-based  approach to video copy detection with spatio-temporal post-filtering[J].IEEE Transactions on Multimedia,2008,12(4):257-266
[8] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision,2004,60(2):91-110
[9] 徐波,孫軍.基于視頻印記的同源視頻檢測[D].上海:上交通大學(xué),2008
[10]    TREC Video Retrieval Evaluation Home Page[Z].(2011-4-15).http://www-nlpir.nist.gov/projects/trecvid/.
[11]    Guo Junbo, Li Jintao, Zhang Yongdong, et al. Video copy detection based on trajectory behavior pattern[J]. Journal of Computer Aided Design and Computer Graphics, 2010,22(6):943-948.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。