《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 結(jié)合分塊模糊熵和隨機森林的圖像分類方法
結(jié)合分塊模糊熵和隨機森林的圖像分類方法
2017年電子技術應用第7期
肖玉玲1,仵 征1,朱 煜2
1.河南應用技術職業(yè)學院 建筑工程學院,河南 鄭州450042;2.華東理工大學 信息科學與工程學院,上海210040
摘要: 為提高圖像分類性能,提出了一種圖像分類方法。其基本思想是將圖像內(nèi)容的不確定性描述看作是一個隨機過程,采用分塊模糊熵來提取圖像特征,采用隨機森林方法進行特征分類。首先,考慮全局和局部特性,將圖像劃分為多個圖像子塊;然后,對每一個圖像子塊進行模糊c均值聚類,提取模糊熵特征;接著,通過歸一化處理,得到圖像的模糊熵特征向量;最后,構造隨機森林分類器,實現(xiàn)模糊熵特征向量的分類。實驗結(jié)果表明,該方法的錯分率低,分類耗時少。
中圖分類號: TP391
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2017.07.031
中文引用格式: 肖玉玲,仵征,朱煜. 結(jié)合分塊模糊熵和隨機森林的圖像分類方法[J].電子技術應用,2017,43(7):122-126.
英文引用格式: Xiao Yuling,Wu Zheng,Zhu Yu. An image classification method combing with blocked fuzzy entropy and random forest[J].Application of Electronic Technique,2017,43(7):122-126.
An image classification method combing with blocked fuzzy entropy and random forest
Xiao Yuling1,Wu Zheng1,Zhu Yu2
1.School of Architectural Engineering,Henan Vocational College of Applied Technology,Zhengzhou 450042,China; 2.School of Information Science and Engineering,East China University of Science and Technology,Shanghai 210040,China
Abstract: To improve the performance of image classification, a new image classification method is proposed. The basic idea is:by considering the uncertainty of the content of the image as a stochastic process, blocked fuzzy entropy is used to extract image features, and random forest method is used to execute feature classification. First, it divides an image into multiple image blocks by considering the global and local properties of the image. Then, it executes fuzzy c-means clustering on each image blocks, and extracts fuzzy entropy features. And then, it obtains a fuzzy entropy feature vector of an image after feature normalization. Finally, a classifier of random forest is built, and feature classification is realized for fuzzy entropy feature vectors. Experimental results show that the method has low error-classification rate, and less time-consuming of classification.
Key words : image classification;fuzzy entropy;random forest;fuzzy c-means;image blocks

0 引言

    圖像分類是計算機視覺領域的基礎研究課題之一,在自動化、人工智能等領域應用廣泛[1-3]。圖像分類的關鍵是提取具有顯著性和穩(wěn)健性的圖像特征,近些年在圖像分類領域涌現(xiàn)出了很多有意義的圖像描述方法[4-6]。其中,灰度共現(xiàn)矩陣(Gray-Level Co-occurrence Matrices,GLCMs)是經(jīng)典的圖像描述方法,通過量化相鄰像素點之間的空間灰度分布來有效表征圖像的紋理特性,實現(xiàn)不同紋理圖像的分類[7-9]。在此基礎上,文獻[10]依據(jù)自然圖像視為不確定性,提出了一種模糊暈矩陣(Fuzzy Aura Matrices,F(xiàn)AMs)的概念,描述圖像中各鄰居像素的空間相關屬性。文獻[11]提出了一種稀疏分布的局部梯度融合特征(Sparse Distributed Localized Gradient Fused Features,SDLGFFs),提取圖像的局部梯度特征,并融合構建多稀疏分布特征。文獻[12]提出了一種近似Fisher核(Approximate Fisher Kernels,AFKs)特征,對詞袋(Bag-of-Words,BoWs)模型進行擴展,提取圖像局部特征描述子,實現(xiàn)不同圖像的分類。為進一步提高圖像分類性能,本文提出一種結(jié)合分塊模糊熵隨機森林的圖像分類方法,思路是將圖像內(nèi)容的不確定性看作一個隨機過程,采用分塊模糊熵特征來描述圖像,并結(jié)合隨機森林學習方法實現(xiàn)特征的訓練與分類,完成圖像分類目標。

1 本文方法

    本文方法的實現(xiàn)流程如圖1所示。首先,將圖像劃分為多個圖像子塊;然后,對每一個圖像子塊進行模糊c均值聚類,提取模糊熵特征;接著,通過歸一化處理,得到圖像的模糊熵特征向量;最后,構造隨機森林分類器,實現(xiàn)模糊熵特征向量的分類。

jsj2-t1.gif

1.1 圖像分塊

    考慮到圖像光照不均勻或者不同區(qū)域圖像紋理差異大的因素,將輸入的圖像劃分為多個圖像子塊,先將整幅圖像作為圖像子塊b1,用于表征圖像的整體特性。然后,將圖像分別在水平和垂直方向上進行二等分,得到4個互不重疊的圖像子塊,分別記為b2~b5。接著,對圖像子塊b2~b5再在水平和垂直方向上分別進行二等分,得到16個圖像子塊,記為b6~b21。最后,對這16個圖像子塊再進行水平和垂直方向上的二等分,得到64個圖像子塊,記為b22~b85。這樣,一幅圖像共分為85個圖像子塊,在這些圖像子塊上提取特征,不僅可以描述圖像的全局屬性,還可以描述圖像在不同區(qū)塊的局部屬性。具體的特征提取方法將在下一節(jié)詳述。

1.2 模糊c均值聚類

    對于每一個圖像子塊X,本文擬提取其模糊熵特征,作為圖像子塊的特征表述。而理論上,如果圖像未被噪聲污染,圖像本身并不具有隨機性,不易采用模糊熵進行描述。但是,對實際圖像而言,其空間信息或者外觀屬性都存在一些內(nèi)在的不確定性。當用圖像的直方圖作為一個概率密度函數(shù)來描述圖像中某一灰度級出現(xiàn)的可能性時,可以將圖像看作是一個隨機過程。在許多圖像中,表示不同物體的像素可能存在相似的灰度值。換言之,圖像目標的描述是模糊和不確定的。按照上述分析,由于無法精確描述圖像的內(nèi)容,因此圖像存在不確定性。這一不確定性可以采用不同圖像內(nèi)容塊的模糊熵來描述,為此需要先對圖像空間進行分割,劃分出不同的圖像內(nèi)容塊。本文采用模糊c均值聚類算法[13]來進行圖像分割,描述如下。

jsj2-t1-x1.gif

jsj2-gs1.gif

    該目標函數(shù)JF(U,V)可以看作是一個均方誤差聚類準則,可以通過迭代更新U和V來實現(xiàn)目標函數(shù)的最小化,更新方程為:

     jsj2-gs2.gif

    因此,給定c個模糊聚類中心,可以將圖像中的所有像素聚類到c個類中。換言之,模糊聚類分析可以依據(jù)模糊類的不精確信息構造圖像的不確定模型。

1.3 模糊熵提取

    對于c個模糊聚類構成的模糊集合A,依據(jù)香農(nóng)熵函數(shù),在第i個模糊聚類中心上,對應的模糊熵可以表示為:

jsj2-gs3-6.gif

    其特征提取過程的偽代碼如下:

    (1)初始化D0=0,m=1;

    (2)選定模糊聚類類別數(shù)c,進行模糊c均值聚類;

    (3)while(1)

    (4) Do 

jsj2-1.4-s1.gif

1.4 模糊熵歸一化

    當如圖2所示的85個圖像子塊的模糊熵都提取完畢之后,需要將模糊熵進行歸一化處理,用于消除不同尺寸的圖像所求的模糊熵的尺度差異。

首先,計算所有模糊熵中值最大的熵,表示為:

jsj2-gs7-9.gif

1.5 隨機森林分類

    得到圖像的模糊熵特征向量之后,需要對特征進行分類,以確定圖像的類別。考慮到圖像的類別一般都不少于兩個,本文采用隨機森林作為多類分類器,進行圖像模糊熵特征向量的分類。

    隨機森林由多個決策樹構成,可以看作是多個決策樹構建的集成學習方法。在決策過程中,各個決策樹都會對輸入向量的預測結(jié)果進行投票,然后取平均投票結(jié)果作為最終的預測結(jié)果。由于森林中的各個決策樹之間相互獨立,各決策樹可以獨立進行學習和分類,因此隨機森林學習方法的效率很高[14-15]。

    隨機森林中各個決策樹的基本分類單元是決策節(jié)點,決策樹上的每一個決策節(jié)點都對應一個決策函數(shù),決策函數(shù)對到達該決策節(jié)點的特征向量Y進行判決,判斷是將其劃分到該決策節(jié)點的左子樹還是右子樹。依此類推,直至到達決策樹的葉節(jié)點。具體地,對于決策樹中的第n個決策節(jié)點,對應的決策函數(shù)記為fn,該決策函數(shù)為二元函數(shù),可以表示為:

     jsj2-gs10.gif

jsj2-gs11-13.gif

其中,C為目標的類別數(shù)。

    在訓練過程中,對于訓練數(shù)據(jù)集中各個圖像的模糊熵特征向量,訓練一個隨機森林分類器。該訓練過程是一個迭代過程,其終止條件是:到達節(jié)點的訓練樣本數(shù)量小于設定閾值NS。此時,該節(jié)點為葉節(jié)點,不再劃分左子樹和右子樹。葉節(jié)點具有預測功能,可以實現(xiàn)數(shù)據(jù)的分類。在本文中,NS取值為10。

jsj2-gs14.gif

2 仿真實驗

2.1 實驗說明

    為評價本文方法性能,將本文方法(Blocked Fuzzy Entropy and Random Forest,BFEaRF)與近些年圖像分類領域常用的3種方法(FAMs[10]、SDLGFFs[11]、AFKs[12])進行對比實驗,定量評價本文方法相對于其他3種方法的性能。

    實驗數(shù)據(jù)集選用國際上通用的COIL-100和PVOC-2007兩個數(shù)據(jù)集,簡要說明見表1。

jsj2-b1.gif

    本文在進行仿真實驗時,采用4種方法分別進行訓練和測試,每一種方法都分別在COIL-100和PVOC-2007兩個數(shù)據(jù)集上單獨進行訓練和測試。

    圖像分類的性能評價指標有兩個:錯分率、分類耗時。前者用于評價圖像分類算法的分類結(jié)果,后者用于評價圖像分類算法的分類效率。

    記RE為錯分率,定義為:

    jsj2-gs15.gif

    分類耗時是指從輸入一幅圖像開始到輸出圖像類別為止所耗費的時間。本文統(tǒng)計的是每一個數(shù)據(jù)集上所有測試圖像的分類耗時的平均值。其中,考慮到算法運算效率與計算機平臺有關,故本文實驗所對比的4種方法都是在相同的計算機平臺上進行的,計算機平臺性能為:四核3.2 GHz CPU;16 GB RAM。

2.2 參數(shù)優(yōu)選

    本文方法未賦值參數(shù)有兩個:模糊類別數(shù)c和模糊權重q。這兩個參數(shù)針對不同應用(如圖像分割和圖像分類)的取值差異較大,本文針對圖像分類的實驗結(jié)果選取最優(yōu)參數(shù)。圖2給出了參數(shù)c不同時本文方法在COIL-100數(shù)據(jù)集下的錯分率指標,其中q=3。由圖2可見,當模糊類別數(shù)c=4時對應的錯分率最小。故本文取c=4。

jsj2-t2.gif

    圖3給出了參數(shù)q不同時本文方法在COIL-100數(shù)據(jù)集下的錯分率指標,其中c=4??梢?,當q=3時對應的錯分率最小,故本文取q=3。

jsj2-t3.gif

2.3 性能對比

    圖4給出了4種方法在兩個數(shù)據(jù)集下的錯分率對比結(jié)果。由圖4可見,本文方法在兩個數(shù)據(jù)集下的錯分率指標都是4種方法中最低的。這說明,采用本文方法進行圖像分類時錯分的圖像數(shù)量少。

jsj2-t4.gif

    表2給出了4種方法在兩個數(shù)據(jù)集下的分類耗時對比結(jié)果??梢姡疚姆椒ǖ姆诸惡臅r指標略高于文獻[10]所述方法,但低于其他兩種方法。由圖4可見,本文方法的錯分率指標與文獻[10]所述方法相比優(yōu)勢明顯。綜合考慮分類耗時和錯分率兩個指標來看,本文方法的圖像分類性能優(yōu)于其他3種方法。

jsj2-b2.gif

3 結(jié)束語

    本文提出了一種結(jié)合分塊模糊熵和隨機森林的圖像分類方法,目標是提高圖像分類性能。設計思想是:以圖像內(nèi)容的不確定性描述為研究對象,采用分塊模糊熵表征圖像全局和局部的不確定內(nèi)容特征,再結(jié)合隨機森林學習方法構建多類目標分類器,實現(xiàn)不同圖像類別的分類。通過在國際上公開的兩個數(shù)據(jù)集(COIL-100和PVOC-2007)上進行仿真實驗。結(jié)果表明,采用本文方法進行圖像分類可以降低圖像分類過程的錯分率,同時分類耗時較少,是一種有效的圖像分類方法。

參考文獻

[1] HUANG M,MU Z,ZENG H.Efficient image classification via sparse coding spatial pyramid matching representation of SIFT-WCS-LTP feature[J].Iet Image Processing,2016,10(1):61-67.

[2] 張晶,馮林,王樂,等.MapReduce框架下的實時大數(shù)據(jù)圖像分類[J].計算機輔助設計與圖形學學報,2014,26(8):1263-1271.

[3] CHEN H,LIU G,ZHANG L.Semi-supervised image classification based on sparse coding spatial pyramid matching[C].International Conference on Internet Multimedia Computing & Service.ACM,2013:273-276.

[4] NI H,GUO Z,HUANG B.Patent image classification using local-constrained linear coding and spatial pyramid matching[C].International Conference on Service Science.IEEE,2015:28-31.

[5] 呂啟,竇勇,牛新,等.基于DBN模型的遙感圖像分類[J].計算機研究與發(fā)展,2014,51(9):1911-1918.

[6] 趙仲秋,季海峰,高雋,等.基于稀疏編碼多尺度空間潛在語義分析的圖像分類[J].計算機學報,2014,37(6):1251-1260.

[7] MANIVANNAN K,AGGARWAL P,DEVABHAKTUNI V,et al.Particulate matter characterization by gray level cooccurrence matrix based support vector machines[J].Journal of Hazardous Materials,2012,223-224(2):94-103.

[8] WALAA.Content based medical image retrieval with texture content using gray level co-occurrence Matrix and K-Means clustering algorithms[J].Journal of Computer Science,2012,8(7):1070-1076.

[9] HU S,XU C,GUAN W,et al.Texture feature extraction based on wavelet transform and gray-level co-occurrence matrices applied to osteosarcoma diagnosis[J].Bio-Medical Materials and Engineering,2014,24(1):129-143.

[10] HAMMOUCHE K,LOSSON O,MACAIRE L.Fuzzy aura matrices for texture classification[J].Pattern Recognition,2015,53(c):212-228.

[11] SUDHAKARAN S,JAMES A P.Sparse distributed localized gradient fused features of objects[J].Pattern Recognition,2014,48(4):1538-1546.

[12] CINBIS R G,VERBEEK J,SCHMID C.Approximate Fisher Kernels of non-iid image models for image categorization[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,38(6):1084-1098.

[13] HAVENS T C,BEZDEK J C,LECKIE C,et al.Fuzzy c-Means algorithms for very large data[J].IEEE Transactions on Fuzzy Systems,2012,20(6):1130-1146.

[14] VENS C.Random forest[J].Encyclopedia of Systems Biology,2013,45(1):157-175.

[15] TOUW W G,BAYJANOV J R,OVERMARS L,et al.Data mining in the life sciences with random forest:a walk in the park or lost in the jungle?[J].Briefings in Bioinformatics,2012,14(3):315-326.



作者信息:

肖玉玲1,仵  征1,朱  煜2

(1.河南應用技術職業(yè)學院 建筑工程學院,河南 鄭州450042;2.華東理工大學 信息科學與工程學院,上海210040)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉(zhuǎn)載。