文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2017.07.033
中文引用格式: 白艷宇,申超群,楊新鋒. 結合SIFT特征和神經(jīng)網(wǎng)絡池的物體分類方法[J].電子技術應用,2017,43(7):130-134,139.
英文引用格式: Bai Yanyu,Shen Chaoqun,Yang Xinfeng. An object classification method combing with SIFT features and neural network pool[J].Application of Electronic Technique,2017,43(7):130-134,139.
0 引言
基于圖像的物體分類是計算機視覺領域的基礎研究課題,在人工智能、自動化生成等領域應用廣泛[1]。物體分類的關鍵是提取圖像特征和設計分類器。這兩個方面目前的成果都比較多,如特征提取方面,目前應用比較成熟的有Haar特征[2]、方向梯度直方圖(Histograms of Oriented Gradients,HOG)特征[3]、局部二元模式(Local Binary Pattern,LBP)特征[4]、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征[5]等。在分類器設計方面,目前常用的有Adaboost分類器、支持向量機(Support Vector Machine,SVM)分類器、決策樹、隨機森林、神經(jīng)網(wǎng)絡等[6-7]。針對不同的圖像內(nèi)容,特征的表述能力也不盡相同。文獻[8]提出一種基于Kolmogorov-Sinai熵的分類方法,通過構建模糊集進行物體分類。文獻[9]采用圖像局部區(qū)域的梯度特征來描述特征,并采用稀疏分布構建圖像描述子,能有效提高物體的分類效果。文獻[10]結合近似Fisher核特征和詞袋模型,實現(xiàn)物體的有效分類。
為了進一步提高物體分類的性能,本文提出了一種結合SIFT特征和神經(jīng)網(wǎng)絡池的物體分類方法,主要創(chuàng)新是提出了神經(jīng)網(wǎng)絡池的特征分類方法。該方法采用徑向基神經(jīng)網(wǎng)絡構建基元分類器,通過重復迭代方式構建基元分類器集合,結合增強技術組建神經(jīng)網(wǎng)絡池,采用樸素貝葉斯分類器預測特征分類結果,有效提高了物體分類性能。
1 本文方法
本文提出一種結合SIFT特征和神經(jīng)網(wǎng)絡池的物體分類方法。對于不同物體的圖像集合,首先提取圖像的SIFT特征,然后構建神經(jīng)網(wǎng)絡池分類器,實現(xiàn)物體的分類。其中,SIFT特征是目前非常成熟的特征提取方法,本文將在實驗部分對不同特征提取方法進行對比實驗,驗證SIFT方法在物體分類領域的優(yōu)勢?;究蚣苋鐖D1所示。
由圖1可見,神經(jīng)網(wǎng)絡池的構建過程主要分為三個階段:(1)基元分類器的構建,本文采用徑向基(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡來構造基元分類器;(2)神經(jīng)網(wǎng)絡池的組建,本文采用重復迭代和增強技術組建神經(jīng)網(wǎng)絡池;(3)最終分類器的構建,本文采用樸素貝葉斯分類器作為最終的分類器,對神經(jīng)網(wǎng)絡池中各個基元分類器集合的預測結果進行融合,得到最終的預測結果。
1.1 基元分類器
目前,基元分類器有很多種,如Adaboost、SVM、決策樹、神經(jīng)網(wǎng)絡等。本文采用徑向基神經(jīng)網(wǎng)絡構建基元分類器。RBF神經(jīng)網(wǎng)絡是一種3層的前向網(wǎng)絡,由輸入層、隱含層和輸出層組成。對于特征分類而言,輸入層為特征向量,輸出層為分類結果。中間的隱含層的變換函數(shù)采用徑向基函數(shù)。該函數(shù)是一種非負非線性函數(shù),對中心點徑向?qū)ΨQ且衰減。輸入層與隱含層之間采用權重向量,相當于一種非線性映射。同樣地,隱含層與輸出層之間也是一種非線性映射,采用不同的權重相連接。在徑向基神經(jīng)網(wǎng)絡中,激活函數(shù)采用徑向基函數(shù),以輸入向量與權值向量之間的距離作為自變量,調(diào)整神經(jīng)元的靈敏度。隨著權值與輸入向量之間距離的減少,網(wǎng)絡輸出是遞增的。
1.2 神經(jīng)網(wǎng)絡池
本文將多個基元分類器構建成一個基元分類器集合,由各個類別的基元分類器集合組建神經(jīng)網(wǎng)絡池。具體方法是:在基元分類器構建階段,將K個二元神經(jīng)網(wǎng)絡{BNNi|i=1,2,…,K}應用于數(shù)據(jù)集合D,得到K個基元分類器,記為{Ci|i=1,2,…,K}。將這一過程重復執(zhí)行T次,可以對每一個類別ci生成T個基元分類器集合,記為{ECi|i=1,2,…,T}。
在構建神經(jīng)網(wǎng)絡池中的每一個基元分類器集合時,本文采用了一對多的分類策略。在二元策略中,分類器對未知樣本x的預測是二元的,也即該樣本x的預測結果只有兩個,即屬于某一類別或者不屬于某一類別。對于未知樣本x,基元分類器C中的K個預測結果可以組合生成一個基元分類器集合。每一個基元分類器集合對未知樣本x的預測結果可以用類別出現(xiàn)的概率表示為:
其中,S(x)表示基元分類器集合的預測結果,其值為0或1,由設定的概率閾值θ1決定。因此,二元策略允許每一個獨立的基元分類器集合接受或者拒絕某一個類別的出現(xiàn)。該策略將一個復雜的多元分類問題轉(zhuǎn)化為多個簡單的二元分類的子問題。P(x)表示類別ci出現(xiàn)的概率,由基元分類器{Ci|i=1,2,…,K}預測得到,表示為:
其中,hi表示第i個基元分類器判斷x屬于類別ci的分類結果,取值為0或1,0表示x不屬于類別ci,1表示x屬于類別ci。
為了分類一個未知樣本x,N個基元分類器集合對樣本x給出N個預測結果,本文采用樸素貝葉斯模型作為最終的預測器,對這N個預測結果進行綜合。這部分內(nèi)容在下一節(jié)介紹,下面先介紹神經(jīng)網(wǎng)絡池的訓練過程。
作為一個分類器,基元分類器集合依靠徑向基神經(jīng)網(wǎng)絡的輸出來計算概率,用于估計某一類別是否存在。某一類別是否存在的概率同樣在每一個基元分類器集合分類器的訓練階段計算,后續(xù)用于計算樸素貝葉斯分類器的先驗概率。先驗概率分布用于估計未知樣本的特征向量所對應的類別的出現(xiàn)概率。因此,樣本的特征向量輸入到神經(jīng)網(wǎng)絡池的多個基元分類器集合之后,最終得到一個概率值,作為樣本分類的依據(jù)。本文采用增強技術來訓練神經(jīng)網(wǎng)絡池,最后采用樸素貝葉斯分類器構建最終的預測器。
本文通過為二元神經(jīng)網(wǎng)絡隨機選擇訓練樣本進行重復訓練來解決過擬合問題。在訓練基元分類器集合時,借鑒詞袋的思想,隨機從整體訓練數(shù)據(jù)中選取一定數(shù)量的子樣本集,每一個樣本子集用于訓練一個基元分類器。
基元分類器集合通過對大量的二元神經(jīng)網(wǎng)絡進行學習得到。因此,每一個基元分類器集合很難確定一個最優(yōu)的二元神經(jīng)網(wǎng)絡數(shù)量。本文訓練了許多冗余的二元神經(jīng)網(wǎng)絡,以此來實現(xiàn)最優(yōu)的分類性能。得到許多基元分類器集合之后,即構建了神經(jīng)網(wǎng)絡池。
本文將增強技術引入到神經(jīng)網(wǎng)絡池的訓練過程,由增強技術組合多個基元分類器集合。這些基元分類器集合通過多次迭代構建,每一個新的基元分類器集合都受上一級基元分類器集合的預測誤差的影響。增強技術鼓勵新的基元分類器集合對前一級分類錯誤的樣本盡可能正確分類,方法是依據(jù)它們的分類性能來調(diào)整權重。初始時,為所有訓練樣本(樣本數(shù)為N)分配相同的權重,表示為:
然后,隨機選取一個訓練樣本子集來訓練一個二元神經(jīng)網(wǎng)絡,用于構建基元分類器集合。并依據(jù)基元分類器集合的性能來修改每一個樣本的權重,正確分類樣本的權重降低,誤分類樣本的權重增加。
本文將訓練數(shù)據(jù)劃分為兩組:低權重組和高權重組。然后,依據(jù)該基元分類器集合的性能來增加或者減少訓練樣本的權重。結果是,部分樣本擁有很高的權重,而部分樣本可能擁有很低的權重。權重值反映了訓練樣本被誤分類的頻率。本文方法通過維護權重的變化率,構造了一種有效的基元分類器集合生成策略。其中,權重變化率主要依賴于當前基元分類器集合的分類錯誤率。實現(xiàn)流程為:
首先,從整個訓練數(shù)據(jù)集中隨機選擇訓練樣本子集Se,用于訓練二元神經(jīng)網(wǎng)絡,構造基元分類器集合。每一個基元分類器集合的輸出用于量化輸入特征向量與輸出類別之間的關系,可以采用類別出現(xiàn)的概率來表示,如式(1)所示。其中,每一個基元分類器集合的權重的計算方法為:
其中,εt表示基元分類器集合的分類錯誤率。對于特征分類而言,在訓練樣本上的分類正確率的期望值應當大于零。如果該值不大于零,則丟棄對應的基元分類器集合。每一個基元分類器集合的錯誤率可以表示為:
在更新了訓練樣本的權重之后,將權重歸一化到N。對于每一類圖像,權重更新過程執(zhí)行T次,構建T個增強的基元分類器集合,組建神經(jīng)網(wǎng)絡池。
綜上所述,神經(jīng)網(wǎng)絡池的訓練過程偽代碼如下:
輸入:訓練樣本集{x1,y1,w1}、{x2,y2,w2}、…、{xN,yN,wN},類別數(shù)E,基元分類器集合數(shù)量T,基元分類器數(shù)量K,閾值θ1、θ2,以及隨機選取的樣本子集中的樣本數(shù)量M。
輸出:神經(jīng)網(wǎng)絡池{SBNNi}。
過程:
1.3 樸素貝葉斯分類器
目前常采用投票的方式來融合多個分類器的預測結果,而本文提出一種新的融合思路,采用概率分布來融合神經(jīng)網(wǎng)絡池中各個基元分類器集合的預測結果,減少個別基元分類器奇異的問題。具體地,本文采用樸素貝葉斯模型來組合多個基元分類器,提供了一個最終預測器與基元分類器之間的橋梁。樸素貝葉斯分類器作為最終的預測器,依據(jù)預測誤差最小準則,在神經(jīng)網(wǎng)絡池中進行學習和預測。
考慮到基元分類器集合是二元分類器,其輸出的決策值是二值形式。因此,本文采用傳統(tǒng)的樸素貝葉斯分類器來分類這些二值數(shù)據(jù),具體是采用多維伯努利(Bernoulli)分布的形式。對于一個D維的輸入特征向量d,其對應的類別c可以表示為:
2 仿真實驗與分析
2.1 實驗說明
本文采用神經(jīng)網(wǎng)絡池進行物體分類實驗,選擇國際上公開的VOC-2007數(shù)據(jù)集對算法性能進行評測。該數(shù)據(jù)集共包含20個物體類別。其中,訓練集中圖像樣本5 011幅,測試集中圖像樣本4 952幅。
2.2 神經(jīng)網(wǎng)絡池訓練過程的參數(shù)說明
在訓練基元分類器時,涉及一些對訓練結果影響較大的參數(shù)。一是基元分類器集合的錯誤率上限θ2。在訓練過程中,可以通過估算每一個基元分類器的分類類別,計算分類錯誤率指標,如果基元分類器的分類錯誤率大于設定的錯誤率上限θ2,則丟棄該基元分類器,重新構建一個新的基元分類器。錯誤率上限越大,丟棄的基元分類器越少,訓練速度越快,但最終的錯誤率就可能提高,本文取θ2為0.01。
另外,學習速率對訓練速度和分類錯誤率的影響也比較大。學習速率太小會導致過擬合,且導致訓練效率降低。然而,學習速率過大盡管會加快訓練速度,但也有可能導致分類錯誤率提高。本文設定的學習速率參數(shù)為0.4。
最大迭代次數(shù)閾值用于作為基元分類器訓練的一個終止條件,當?shù)螖?shù)大于該閾值時,停止基元分類器的訓練過程。在本文中,最大迭代次數(shù)設置為1 000。
隨機選取一定數(shù)量的隱含神經(jīng)元可能導致過擬合或者欠擬合問題。這里,采用不同數(shù)量的隱含層神經(jīng)元來訓練各種基元分類器。實驗中,當隱含層數(shù)量達到9時識別結果最好。因此,本文的徑向基神經(jīng)網(wǎng)絡的隱含層數(shù)量設為9。
在訓練神經(jīng)網(wǎng)絡池時涉及的參數(shù)取值為:E=20、T=100、N=5 011、M=2 000、K=20、θ1=0.5。
2.3 特征提取方法對比與選擇
常用的圖像特征有Haar、HOG、LBP和SIFT,下面分別采用這4種圖像特征,結合本文的神經(jīng)網(wǎng)絡池進行物體分類實驗。以分類正確率為評價指標來選取最優(yōu)的圖像特征。分類正確率定義為分類正確的圖像數(shù)量與圖像總數(shù)的比值。
圖2顯示了不同特征對應的分類正確率。很明顯,SIFT特征的分類正確率明顯高于其他3種特征。故本文選擇SIFT特征和神經(jīng)網(wǎng)絡池分類器結合的方法進行物體分類。
2.4 不同物體分類方法的實驗結果與分析
本文選擇文獻[8]、[9]和[10]所述的物體分類方法進行對比實驗,實驗所用訓練數(shù)據(jù)集和測試數(shù)據(jù)集都是相同的,計算機處理平臺也是相同的,具體為:CPU四核 3.6 GHz、內(nèi)存16 GB。實驗結果如圖3所示。
由圖3可見,采用本文所述的SIFT特征和神經(jīng)網(wǎng)絡池分類器相結合的方法取得了最高的分類正確率指標,比排名第2的文獻[10]方法高2.3%。
表1給出了4種方法的物體分類時間指標,該時間是指從輸入一幅圖像到輸出分類結果所需要的平均時間,不包括訓練過程所耗費的時間。由表1可見,本文方法的分類時間最短,說明本文方法的運算效率最高。綜合評價,本文方法的分類性能優(yōu)于所對比的3種方法。
3 結束語
本文提出了一種結合SIFT特征和神經(jīng)網(wǎng)絡池的物體分類方法。該方法選擇經(jīng)典的SIFT特征描述特征,通過構建神經(jīng)網(wǎng)絡池分類器實現(xiàn)特征分類。其關鍵是構建神經(jīng)網(wǎng)絡分類器,設計思想是采用隨機采樣方式選擇樣本子集,采用徑向基神經(jīng)網(wǎng)絡為每一個樣本子集構建基元分類器,通過重復迭代方式得到許多基元分類器集合,再結合增強技術組建神經(jīng)網(wǎng)絡池,最后采用樸素貝葉斯分類器進行融合預測。實驗表明,本文方法分類正確率高且分類耗時少。
參考文獻
[1] 黃凱奇,任偉強,譚鐵牛.圖像物體分類與檢測算法綜述[J].計算機學報,2014,37(6):1225-1240.
[2] CHANG Z,BAN X,WANG Y.Fatigue driving detection based on Haar feature and extreme learning machine[J].Journal of China Universities of Posts & Telecommunications,2016,23(4):91-100.
[3] 陸星家.基于HOG和Haar特征的行人追蹤算法研究[J].計算機科學,2013,40(s1):199-203.
[4] SATPATHY A,JIANG X,ENG H L.LBP-based edgetexture features for object recognition[J].IEEE Transactions on Image Processing,2014,23(5):1953-1964.
[5] WANG Y,BAN X,CHEN J,et al.License plate recognition based on SIFT feature[J].Optik-International Journal for Light and Electron Optics,2015,126(21):2895-2901.
[6] 許劍,張洪偉.Adaboost算法分類器設計及其應用[J].四川理工學院學報:自然科學版,2014,27(1):28-31.
[7] WANG Y,YANG M,WEI G,et al.Improved PLS regression based on SVM classification for rapid analysis of coal properties by near-infrared reflectance spectroscopy[J].Sensors & Actuators B Chemical,2014,193(3):723-729.
[8] PHAM T D.The Kolmogorov-Sinai entropy in the setting of fuzzy sets for image texture analysis and classification[J].Pattern Recognition,2016,38(53):229-237.
[9] SUDHAKARAN S,JAMES A P.Sparse distributed localized gradient fused features of objects[J].Pattern Recognition,2014,46(4):1538-1546.
[10] CINBIS R G,VERBEEK J,SCHMID C.Approximate Fisher Kernels of non-iid image models for image categorization[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,38(6):1084-1098.
作者信息:
白艷宇1,申超群2,楊新鋒3
(1.中原工學院信息商務學院 信息技術系,河南 鄭州451191;
2.河南機電職業(yè)學院,河南 鄭州451191;3.南陽理工學院 計算機與信息工程學院,河南 南陽473004)