摘要:基于特征碼本的圖像分類(lèi)方法依賴于需要特征向量與聚類(lèi)中心之間的映射,然而硬加權(quán)映射方法導(dǎo)致了相似的特征向量被映射為不同的聚類(lèi)中心,從而降低了分類(lèi)的查全率。為此提出一種基于軟加權(quán)映射的局部聚類(lèi)向量表示方法。該方法首先用k均值算法將特征向量聚類(lèi)為k個(gè)聚類(lèi)中心,采用最近鄰算法尋找最接近的s個(gè)聚類(lèi)中心,通過(guò)特征向量與聚類(lèi)中心之間的相似度和鄰近程度構(gòu)建軟加權(quán)映射的局部聚類(lèi)向量,然后統(tǒng)計(jì)特征直方圖,最后用主成分分析減少特征直方圖維度。實(shí)驗(yàn)結(jié)果分析表明,相比較硬加權(quán)映射方法,文中方法提高了約5%的分類(lèi)準(zhǔn)確率。
關(guān)鍵詞:軟加權(quán)映射; 圖像分類(lèi); 特征碼本; 主成分分析
0引言
復(fù)雜紛亂的背景、局部遮擋和幾何變化給目標(biāo)圖像分類(lèi)帶來(lái)了應(yīng)用上的困難,因此詞包模型分類(lèi)方法得到了廣泛的應(yīng)用。如圖1所示,詞包模型是基于特征聚類(lèi)得到的,即對(duì)特征向量進(jìn)行聚類(lèi)量化得到多個(gè)聚類(lèi)中心,所有的聚類(lèi)中心組成一個(gè)特征碼本,特征向量與聚類(lèi)中心之間的映射稱為特征量化。
特征向量可以選擇角點(diǎn)或者SIFT特征、SURF特征等,近期這方面的工作可參見(jiàn)文獻(xiàn)[13]等。然而,詞包模型在量化過(guò)程中丟失了目標(biāo)物體的空間結(jié)構(gòu)信息,僅僅使用了特征的視覺(jué)信息。這使得一些視覺(jué)上類(lèi)似但是分布完全不同的物體難以分類(lèi),因此加入空間信息成為了另一個(gè)研究的熱點(diǎn)。Svetlana Lazebnik等提出了空間金字塔Spatial pyramid模型[4],其將圖像分成多個(gè)同樣大小的網(wǎng)格,對(duì)每個(gè)網(wǎng)格內(nèi)的局部特征分別進(jìn)行頻率直方圖統(tǒng)計(jì),再將直方圖按照網(wǎng)格順序連接起來(lái)形成具有空間分布信息的直方圖。在此基礎(chǔ)上,出現(xiàn)了一系列類(lèi)似的變化方法[59]。其中局部聚類(lèi)向量表示[10](Vector Local Aggregating Descriptors, VLAD)通過(guò)比較同一個(gè)聚類(lèi)中心內(nèi)所有的特征向量方向以加入空間信息,既降低了特征碼本量化的精度,又降低了計(jì)算復(fù)雜度。然而上述方法的特征映射過(guò)程均采用硬加權(quán)映射方法,即一個(gè)特征向量只映射到最近鄰的聚類(lèi)中心。近期研究發(fā)現(xiàn)[11,12],這些方法的查全率難以提升,這是因?yàn)橛布訖?quán)映射方法在量化特征碼本過(guò)程中存在誤差,從而導(dǎo)致特征映射時(shí)無(wú)法映射到準(zhǔn)確的聚類(lèi)中心。如圖2所示的硬加權(quán)映射聚類(lèi)結(jié)果表明,對(duì)于5個(gè)聚類(lèi)中心,點(diǎn)1,2,3,4, 5表示特征向量,按照硬加權(quán)特征映射方法,即使點(diǎn)3,4空間距離十分相近,在特征匹配階段,點(diǎn)3和點(diǎn)4仍然被認(rèn)為是完全不同的特征,這就給后續(xù)的分類(lèi)帶來(lái)了匹配上的誤差。
這樣的硬加權(quán)映射結(jié)果將導(dǎo)致特征點(diǎn)3和特征點(diǎn)4被量化為兩種不同的特征,從而在分類(lèi)過(guò)程中容易產(chǎn)生混淆,降低了分類(lèi)的查全率。
軟加權(quán)映射方法可以有效地增加特征的魯棒性,模糊C聚類(lèi)和模糊k均值是兩種軟加權(quán)映射方法。Li等采用模糊C均值聚類(lèi)提高了聚類(lèi)的準(zhǔn)確率[13]。Khang等用分層模糊C均值聚類(lèi)提高了彩色圖像分割精度。然而模糊聚類(lèi)使得特征維度變長(zhǎng),特征直方圖更加稀疏,從而在一定程度降低了分類(lèi)準(zhǔn)確率[14]。
為了解決硬加權(quán)映射帶來(lái)的問(wèn)題,文中提出一種基于軟加權(quán)的局部聚類(lèi)向量表示方法,既保留了軟加權(quán)映射的魯棒性,又減少了特征維度。該方法通過(guò)特征向量與聚類(lèi)中心之間的相似度和鄰近程度實(shí)現(xiàn)軟加權(quán)映射,實(shí)驗(yàn)結(jié)果表明了方法的有效性。
1基于軟加權(quán)的局部聚類(lèi)向量表示
特征碼本的構(gòu)建是詞包模型中必不可少的一個(gè)環(huán)節(jié),通過(guò)特征碼本實(shí)現(xiàn)了特征向量與特征單詞之間的映射,極大地減少了特征向量的維數(shù)。然而,特征碼本的量化精度也成為了檢索方法準(zhǔn)確率的瓶頸,為了盡可能提高特征之間的可區(qū)分性,需要提高量化的精度;而要提高檢索系統(tǒng)的泛化能力,則要降低量化的精度,因此需要在兩者之間尋找一個(gè)平衡。此外,傳統(tǒng)的特征碼本構(gòu)建方法通常采用k均值方法,為了保證量化精度,通常將特征碼本維數(shù)n取為很大的值,該方法的計(jì)算復(fù)雜度為O(n2),計(jì)算效率很低。為了降低算法復(fù)雜度,提出了近似聚類(lèi)方法(KDtree和hierarchical kmeans),但又無(wú)法保證聚類(lèi)的精度。
為了解決上述問(wèn)題,文獻(xiàn)[10]提出了一種VLAD局部聚類(lèi)向量表示方法,該方法既可以降低特征碼本量化的精度以實(shí)現(xiàn)降低計(jì)算復(fù)雜度,又加入了特征之間的空間關(guān)系以保證檢索的準(zhǔn)確率,VLAD構(gòu)建過(guò)程如圖3所示。
VLAD采用的是硬加權(quán)特征映射方法,即一個(gè)特征向量映射到與其距離最近的聚類(lèi)中心。給定M個(gè)特征向量Φ=[r1,r2,…,rM],聚類(lèi)為N個(gè)聚類(lèi)中心的特征碼本W(wǎng)=[w1,w2,…,wN],則特征向量rj與聚類(lèi)中心wi的映射表示如公式(1)所示,d(rj,wi)表示特征向量rj和聚類(lèi)中心wi的直方圖距離。
特征直方圖H(wi)則由特征向量rj映射到聚類(lèi)中心wi的頻次n(rj,wi)和聚類(lèi)中心wi在圖像I中出現(xiàn)的頻次n(wi, I)計(jì)算得到,如公式(2)所示:
n(wi,I)=1,如果wi在圖像I中出現(xiàn)
然而,兩個(gè)極其相似的特征向量如果被映射給兩個(gè)不同的聚類(lèi)中心,則將被認(rèn)為是完全不同的特征。
據(jù)文本檢索的研究表明,單詞存在多義性,即一個(gè)單詞在不同的情況下有不同的含義。而硬加權(quán)特征映射方法則減少了特征單詞多義性帶來(lái)的泛化能力。為此,本文提出一種基于軟加權(quán)的局部聚類(lèi)向量表示方法。
采用一個(gè)距離向量V來(lái)取代傳統(tǒng)的單個(gè)特征向量映射,距離向量V=[v1,v2,…,vs]表示為該特征向量與多個(gè)聚類(lèi)中心之間的距離表示,s表示最近鄰居聚類(lèi)中心的個(gè)數(shù)。則VLAD中特征向量rj與聚類(lèi)中心wi之間的映射關(guān)系n(rj,wi)如公式(3)所示:
其中12k-1為權(quán)重系數(shù),即特征向量與最近鄰的特征聚類(lèi)中心單詞權(quán)重最大;表示特征向量rj與聚類(lèi)中心wi的相似程度。ξ表示距離閾值,特征向量rj與聚類(lèi)中心wi之間的距離超過(guò)該閾值則認(rèn)為兩者之間沒(méi)有聯(lián)系。改變后的特征直方圖H(wi)如公式(4)所示:
使用軟加權(quán)映射后,增大了特征直方圖的維度(從J維變?yōu)镴×s維),然而經(jīng)過(guò)對(duì)特征直方圖進(jìn)行統(tǒng)計(jì)分析后發(fā)現(xiàn),特征向量維度增加導(dǎo)致直方圖大部分值為0,特征直方圖很稀疏,這給后續(xù)的分類(lèi)帶來(lái)不必要的數(shù)據(jù)冗余。為此,采用主成分分析(PCA)對(duì)特征直方圖進(jìn)行降維,提取出數(shù)據(jù)中最重要的部分。降維步驟如下:
(1)將所有的特征直方圖組成一個(gè)矩陣A∈RJ*s×d,d表示特征直方圖的個(gè)數(shù);
?。?)計(jì)算矩陣A的均值和協(xié)方差矩陣;
?。?)根據(jù)協(xié)方差矩陣計(jì)算出特征值和特征向量,將特征值按從大到小的順序排列,選擇特征值較大的特征向量組成主成分矩陣;
?。?)將主成分矩陣與矩陣A相乘,得到降維后的特征直方圖。
2實(shí)驗(yàn)及討論
為了驗(yàn)證本文提出的基于軟加權(quán)的局部聚類(lèi)向量表示方法的有效性,將該方法用于目標(biāo)分類(lèi)。實(shí)驗(yàn)數(shù)據(jù)集采用著名的Scene15數(shù)據(jù)集,Scene15數(shù)據(jù)集有15種類(lèi)別的場(chǎng)景圖像,平均每個(gè)類(lèi)別約有300張圖像,示例圖像如圖4所示。
本次實(shí)驗(yàn)的局部特征提取方法采用的是SIFT局部特征,聚類(lèi)方法采用k均值聚類(lèi),分類(lèi)器使用的是libsvm工具箱。實(shí)驗(yàn)的分類(lèi)策略是每個(gè)類(lèi)型抽取前100張圖像用作訓(xùn)練,剩余的圖像作為測(cè)試集。SVM分類(lèi)器的分類(lèi)參數(shù)采用交叉驗(yàn)證法獲取,分類(lèi)參數(shù)為c=5,g=0.5,核函數(shù)采用RBF徑向基核函數(shù),分類(lèi)策略采用二分類(lèi)法,即每個(gè)類(lèi)別的分類(lèi)器由多個(gè)二分類(lèi)器組成,該分類(lèi)器的分類(lèi)結(jié)果由二分類(lèi)器的投票結(jié)果決定,得票最多的分類(lèi)器類(lèi)型即是測(cè)試圖像的類(lèi)型。采用的分類(lèi)評(píng)價(jià)準(zhǔn)則為平均準(zhǔn)確率(mean Average Precision, mAP)
21不同參數(shù)下的軟加權(quán)對(duì)聚類(lèi)精度的影響
首先檢驗(yàn)文中方法在不同參數(shù)下對(duì)分類(lèi)準(zhǔn)確率的影響,改變參數(shù)σ和s,獲取不同參數(shù)下Scene15數(shù)據(jù)庫(kù)分類(lèi)實(shí)驗(yàn)的mAP值,結(jié)果如表1所示。當(dāng)s>3后,平均準(zhǔn)確率有所降低,這是因?yàn)檫^(guò)多的聚類(lèi)中心映射反而導(dǎo)致特征匹配準(zhǔn)確率的下降。因此后續(xù)的實(shí)驗(yàn)采用參數(shù)s=3,σ2=5 000。
圖5是本文方法與硬加權(quán)映射方法在不同大小的特征碼本下的mAP曲線圖。從圖中可以看出,本文方法相比較硬加
權(quán)映射方法,mAP提高了約5%。隨著特征碼本不斷增大,兩種方法的mAP提高均有限,此時(shí)增加特征碼本不僅對(duì)分類(lèi)準(zhǔn)確率沒(méi)有提升,反而增加了特征匹配的錯(cuò)誤率,因此選擇合適大小的特征碼本可以減少算法的計(jì)算復(fù)雜度。
22方法對(duì)比實(shí)驗(yàn)
為了更好地體現(xiàn)文中方法的性能,將文中方法與VLAD+硬加權(quán)映射方法進(jìn)行對(duì)比,實(shí)驗(yàn)對(duì)比的結(jié)果如圖6所示。
從上圖的實(shí)驗(yàn)數(shù)據(jù)可以得出,隨著圖像數(shù)據(jù)庫(kù)數(shù)量的不斷增加,兩種方法的mAP值均明顯下降,也說(shuō)明了無(wú)論是哪種方法,在大數(shù)據(jù)量的圖像分類(lèi)中其作用都相當(dāng)有限。相比較硬加權(quán)映射方法,本文方法通過(guò)軟加權(quán)映射,能更有效地提高特征匹配的魯棒性和分類(lèi)準(zhǔn)確性。
3結(jié)論
本文提出了一種基于軟加權(quán)映射的局部聚類(lèi)向量表示方法,首先用k均值算法將特征向量聚類(lèi)為k個(gè)聚類(lèi)中心,采用最近鄰算法尋找最接近的s個(gè)聚類(lèi)中心,通過(guò)特征向量與聚類(lèi)中心之間的相似度和鄰近程度構(gòu)建軟加權(quán)映射的局部聚類(lèi)向量,然后統(tǒng)計(jì)特征直方圖,最后通過(guò)主成分分析減少特征直方圖維度?;赟cene15數(shù)據(jù)庫(kù)的圖像分類(lèi)實(shí)驗(yàn)表明,文中提出的基于軟加權(quán)映射的局部聚類(lèi)向量表示方法與硬加權(quán)映射方法表示相比較,可以提高分類(lèi)準(zhǔn)確率。但文中方法仍存在不足之處,例如特征碼本構(gòu)建的準(zhǔn)確率是本文方法的瓶頸,如何更加快速、準(zhǔn)確地量化特征向量,是今后工作的重點(diǎn)。
參考文獻(xiàn)
?。?] GRAUMAN K,DARRELL T. Pyramid match kernels: Discriminative classification with sets of image features[C]. Proceedings of the IEEE International Conference on Computer Vision, 2005:1458-1465.
?。?] 王林灝, 宋臻毓. 基于SURF特征的人臉識(shí)別方法研究[J]. 微型機(jī)與應(yīng)用, 2014, 33(7):31-34.
?。?] 李倩影,陳鍛生,吳揚(yáng)揚(yáng). 基于圖像距離匹配的人臉卡通化技術(shù)[J]. 微型機(jī)與應(yīng)用, 2014, 33(10):44-46.
?。?] LAZEBNIK S. Semilocal and global models for texture, object and scene recognition[D]. University of Illinois at Urbana Champaign, 2006.
?。?] KIM G, FALOUTSOS C, HEBERT M. Unsupervised modeling and recognition of object categories with combination of visual contents and geometric similarity links[C]. In ACM International Conference on Multimedia Information Retrieval (ACM MIR), 2008: 419-426.
?。?] LEORDEANU M, HEBERT M. A spectral technique for correspondence problems using pairwise constraints[C]. In ICCV, 2005: 1482-1489.
[7] LEORDEANU M, HEBERT M, SUKTHANKAR R. Beyond local appearance: Category recognition from pairwise interactions of simple features[C]. In CVPR, 2007:1-8.
?。?] 劉揚(yáng)聞, 霍宏, 方濤. 詞包模型中視覺(jué)單詞歧義性分析[J]. 計(jì)算機(jī)工程, 2011, 37(19):204-209.
?。?] Tian Qi, Hua Gang, Huang Qingming, et al. Generating descriptive visual words and visual phrases for largescale image applications[J]. IEEE Transactions on Image Processing, 2011, 20(9): 2664-2667.
?。?0] JEGOU H, DOUZE M, SCHMID C, et al. Aggregating local descriptors into a compact image representation[C]. IEEE Conference on Computer Vision Pattern Recognition, 2010: 3304-3311.
?。?1] KANUNGO G K, SINGH N, DASH J, et al. Mammogram image segmentation using hybridization of fuzzy clustering and optimization algorithms[C]. Processing in Intelligent Computing, Communication and Devices Advances in Intelligent Systems and Computing, 2015: 403-413.
?。?2] PHILBIN J, CHUM O, ISARD M, et al. Object retrieval with large vocabularies and fast spatial matching[C]. In Proc. CVPR, 2007:1-8.
?。?3] LI M J, NG M K, CHEUNG Y M, et al. Agglomerative fuzzy Kmeans clustering algorithm with selection of number of clusters[J]. IEEE Transactions on Knowledge and Data Engineering, 2008, 20(11): 1519-1534.
?。?4] KHANG S T, NOR A M I. Color image segmentation using histogram thresholdingfuzzy Cmeans hybrid approach[J]. Pattern Recognition, 2011, 44(1): 1-15.