摘 要: 提出了一種基于穩(wěn)定局部區(qū)域檢測和全局圖像特征描述的圖像檢索新算法。該算法繼承了局部區(qū)域特征和GIST特征的優(yōu)點(diǎn),能夠更精確地描述圖像的內(nèi)容,并且可以應(yīng)對不同的視角變換,在一定程度上提高了圖像檢索的精度。
關(guān)鍵詞: 穩(wěn)定局部區(qū)域; 全局內(nèi)容特征; 圖像匹配
圖像檢索的主要目的是從大規(guī)模數(shù)據(jù)庫中檢索出與查詢圖像相似的圖像。SWAIN M J和BALLARD D H[1]提出利用顏色直方圖作為圖像顏色特征的表示方法,該方法能夠簡單描述一幅圖像中顏色的全局分布,簡單易行,具有旋轉(zhuǎn)不變性。此外,STRICKER和ORENGO提出的累積直方圖方法[2]也優(yōu)于一般基于圖像顏色直方圖的方法。但是由于顏色對圖像或圖像區(qū)域的方向、大小等變化不敏感,因此顏色特征不能很好地捕捉圖像中對象的局部特征。為此,MARR和NISHIHARA H[3]和BRADDY M[4]詳細(xì)闡述了形狀的表示方法和評價標(biāo)準(zhǔn),然而基于圖像形狀特征的方法在獲得有關(guān)目標(biāo)的形狀參數(shù)時通常需要對圖像進(jìn)行邊界提取或分割操作,因此形狀特征的提取會受到圖像分割效果的影響。目前大多數(shù)基于內(nèi)容的圖像檢索系統(tǒng)也是基于上述特征的。
一般圖像特征可以分為全局特征和局部特征[5]?;谌痔卣鞯臋z索系統(tǒng)只能表示圖像的整體內(nèi)容,并不適合部分圖像的匹配和具有不同視角的相同目標(biāo)或場景的圖像檢索。受參考文獻(xiàn)[6]的啟發(fā),本文提出一種基于圖像的穩(wěn)定局部區(qū)域特征和全局GIST特征相結(jié)合的圖像檢索算法。圖像的穩(wěn)定局部區(qū)域不僅具有顯著性,并且對旋轉(zhuǎn)以及仿射變換具有不變性,已廣泛應(yīng)用于目標(biāo)識別等領(lǐng)域。而基于仿射不變區(qū)域檢測技術(shù)也得到很大的發(fā)展,例如最大穩(wěn)定極值區(qū)域檢測器MSER[7]等方法。參考文獻(xiàn)[8]對目前國際上比較流行的6種仿射不變區(qū)域檢測方法進(jìn)行了比較,得出最大穩(wěn)定區(qū)域(MSER)檢測方法檢測效果最好。為了更好地找到圖像的穩(wěn)定局部區(qū)域,本文選取目前國際上最流行的MSER檢測方法。
1 最大穩(wěn)定區(qū)域檢測
1.1 MSER的相關(guān)定義
在基于區(qū)域的檢測方法中,最大穩(wěn)定極值區(qū)域檢測方法的檢測效果較好,并且已經(jīng)得到了廣泛的應(yīng)用。MSER利用地形中分水嶺的概念檢測穩(wěn)定局部區(qū)域,與傳統(tǒng)的分水嶺算法重要的區(qū)別是二者所關(guān)心的水位選取是不一樣的。MSER尋找圖像中的穩(wěn)定區(qū)域,也就是當(dāng)水位變化時水的體積變化率最小的區(qū)域。圖像I是區(qū)域D到灰度S的映射:D∈Z 2→S,且滿足下述條件。
(1) S具有自反、非對稱和傳遞的二值關(guān)系,S={0,1,…,255}。鄰域關(guān)系A(chǔ)?奐D×D。
(2) 區(qū)域Q是D的一個連通子集。
2 區(qū)域的GIST特征提取及匹配
2.1 GIST特征簡介
為了精確地描述圖像局部區(qū)域的內(nèi)容,本文采用基于GIST特征的區(qū)域描述算法。參考文獻(xiàn)[9]提出了GIST描述符,其思想就是不用任何形式的圖像分割,找到一種圖像場景的低維表示。目前,GIST特征被廣泛應(yīng)用于自然圖像檢索領(lǐng)域,并且取得了較好的效果。
2.2 局部圖像區(qū)域的GIST特征提取步驟
(1) 利用MSER區(qū)域檢測算法檢測到圖像的穩(wěn)定區(qū)域;
(2) 把最終檢測到的區(qū)域擬合為橢圓,計算橢圓區(qū)域的最小外接矩形;
(3) 對最小外接矩形進(jìn)行方向校正,并提取矩形區(qū)域內(nèi)的GIST特征。
本文的圖像檢索系統(tǒng)的框架流程如圖2所示。
2.3 圖像匹配
本文借助于sift關(guān)鍵點(diǎn)匹配與k-d樹算法相結(jié)合進(jìn)行圖像匹配,其詳細(xì)步驟如下。
(1) 對待查詢圖像進(jìn)行局部區(qū)域檢測并提取特征;
(2) 對于查詢圖像的每一個區(qū)域與數(shù)據(jù)庫圖像的所有區(qū)域利用歐氏距離進(jìn)行比較,找到距離最小和次小值;
(3) 如果距離的最小值除以次小值小于某個預(yù)設(shè)閾值(本實(shí)驗(yàn)中的閾值為0.85),就認(rèn)為此區(qū)域找到了與其匹配的區(qū)域;
(4)找到與查詢圖像匹配區(qū)域數(shù)最多的圖像作為檢索結(jié)果。
3 實(shí)驗(yàn)結(jié)果及分析
為了與參考文獻(xiàn)[6]的方法進(jìn)行對比,數(shù)據(jù)庫也選擇哥倫比亞大學(xué)的COIL-100數(shù)據(jù)庫[10]。此數(shù)據(jù)庫含有100個類,每個類含有72幅不同視角的圖像。本文也同樣選取了與參考文獻(xiàn)[6]相同的10類作為實(shí)驗(yàn)庫,每類含有72幅不同視角的圖像。
為了驗(yàn)證本文算法的有效性,從每一類中隨機(jī)地選取5幅圖像作為查詢圖像。對數(shù)據(jù)庫中的所有圖像檢測到穩(wěn)定區(qū)域并提取區(qū)域的特征。
圖3展示了一些數(shù)據(jù)庫中的圖像實(shí)例。在實(shí)驗(yàn)中從每一個類中隨機(jī)選取5幅圖像作為查詢圖像并在最后統(tǒng)計了相應(yīng)的實(shí)驗(yàn)結(jié)果。
檢索的部分結(jié)果如圖4所示,其中第一幅為待檢索圖像,后4幅為查詢結(jié)果中選取的前4幅圖像。從實(shí)驗(yàn)結(jié)果可以看出,該方法能夠抵制較強(qiáng)的旋轉(zhuǎn)與光照干擾,這與穩(wěn)定局部區(qū)域和全局內(nèi)容信息特征的有效選取是分不開的。
本文的一些實(shí)驗(yàn)結(jié)果統(tǒng)計如表1所示,其中查詢圖像從每一類中隨機(jī)選取5幅圖像。查準(zhǔn)率即檢出的相關(guān)圖像與檢出的全部圖像的百分比。
為測試算法的有效性,與參考文獻(xiàn)[6]中提到的方法進(jìn)行了對比,在相同數(shù)據(jù)圖像庫條件下,參考文獻(xiàn)[6]的平均查準(zhǔn)率為82.46%,而本文的平均查準(zhǔn)率為89.6%。由實(shí)驗(yàn)結(jié)果可知,本文方法的平均查準(zhǔn)率遠(yuǎn)高于參考文獻(xiàn)[6]中的平均檢索精度,驗(yàn)證了本文方法的有效性。
本文提出了一種基于穩(wěn)定局部區(qū)域和區(qū)域全局內(nèi)容特征相結(jié)合的圖像檢索算法。實(shí)驗(yàn)結(jié)果表明,兩者結(jié)合能夠達(dá)到很好的圖像檢索效果。與參考文獻(xiàn)[6]的方法相比,本文方法不需要設(shè)定權(quán)值,平均檢索精度更優(yōu)。
參考文獻(xiàn)
[1] SWAIN M J, BALLARD D H. Color indexing[J]. International Journal of Computer Vision, 1991,7(1):11-32.
[2] 顧曙輝.基于內(nèi)容的圖像檢索技術(shù)研究[J].科技資訊,2007(14):189.
[3] MARR D, NISHIHARA H K. Representation and recognition of the spatial rganization of three-dimensional shapes[J]. Proceedings of Royal Seciety, 1978,200(1140):269-294.
[4] BRADY M. Criteria for representations and of shape[J]. Academic Press, 1993:39-84.
[5] HALAWANI A, TEYNOR A, SETIA L, et al. Fundamentals and applications of image retrieval: an overview[J]. Datenbank Spektrum, 2006:14-23.
[6] VELMURUGAN K, LT D S, BABOO S. Image retrieval using harris corners and histogram of oriented gradients[J]. International Journal of Computer Applications, 2011,24(7): 6-10.
[7] MATAS J, CHUM O, URBAN M, et al. Robust widebaseline stereo from maximally stable extremal regions[C]. British Machine Vision Conference, 2002:384-393.
[8] MIKOLAJCZYK K, TUYTELAARS T, SCHMID C, et al. A comparision of affine region detectors[J].International Journal of Computer Vision, 2005,65(1-2):43-72.
[9] OLIVA A, TORRALBA A. Modeling the shape of the
scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001,42(3):145-175.
[10] NENE S A, AYAR S K, MURASE H. Columbia object image library[R]. New Yourk: Deptartment of Competter Science, Columbia University, 1996.