摘 要: 提出了基于貢獻(xiàn)矩陣" title="貢獻(xiàn)矩陣">貢獻(xiàn)矩陣的特征提取方法。首先采用基于結(jié)構(gòu)分析的統(tǒng)計(jì)方法構(gòu)造貢獻(xiàn)矩陣,利用貢獻(xiàn)矩陣對(duì)圖像預(yù)處理;通過(guò)二維主成分分析" title="主成分分析">主成分分析方法提取圖像特征。將此算法用于微鈣化點(diǎn)圖像特征提取,利用支持向量機(jī)" title="支持向量機(jī)">支持向量機(jī)分類器進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,該算法加快了訓(xùn)練速度,同時(shí)有效地降低了微鈣化點(diǎn)檢測(cè)" title="微鈣化點(diǎn)檢測(cè)">微鈣化點(diǎn)檢測(cè)的假陽(yáng)性。
關(guān)鍵詞: 支持向量機(jī) 貢獻(xiàn)矩陣 二維主成分分析 特征提取 微鈣化點(diǎn)檢測(cè)
一般認(rèn)為,特征越多,描述圖像越充分,越能反映事物的內(nèi)涵。然而,獲取特征數(shù)據(jù)不僅需要大量的測(cè)量設(shè)備和時(shí)間,樣本存儲(chǔ)占用的空間和數(shù)據(jù)處理的計(jì)算量也急劇增長(zhǎng),而且,還有一些對(duì)分類來(lái)說(shuō)是冗余的甚至不相關(guān)的特征會(huì)影響分類速度和分類器的泛化能力。在低維特征空間描述圖像,是特征提取需要解決的問(wèn)題。
主成分分析PCA(Principal Component Analysis)是一種常用的特征提取方法。它依據(jù)特征值的大小選擇特征向量" title="特征向量">特征向量,消除了特征向量間的相關(guān)性,從一定意義上體現(xiàn)了特征向量中不同維對(duì)識(shí)別結(jié)果貢獻(xiàn)大小的不同。但是至今還沒(méi)有理論證明特征值大的特征向量對(duì)分類結(jié)果的貢獻(xiàn)大,而且這僅僅是體現(xiàn)在特征向量的代數(shù)特征上,不能夠充分利用特征向量的幾何與結(jié)構(gòu)分布的特點(diǎn)。為了更有效地選擇特征,人們已經(jīng)提出了多種改進(jìn)方法。文獻(xiàn)[1]提出了一種基于粗糙集理論的主成分分析方法,文獻(xiàn)[2]提出了一種基于遺傳算法的主成分分析方法,文獻(xiàn)[3]提出了通過(guò)反饋監(jiān)督學(xué)習(xí)反復(fù)調(diào)整特征子空間的方法。為了改善分類效果,選擇更有利于分類的特征,本文提出基于貢獻(xiàn)矩陣的二維主成分分析方法。首先利用貢獻(xiàn)矩陣對(duì)圖像預(yù)處理,通過(guò)二維主成分分析方法提取圖像特征,最后利用支持向量機(jī)分類器檢測(cè)微鈣化點(diǎn)。
1基于貢獻(xiàn)矩陣的微鈣化點(diǎn)檢測(cè)
1.1 貢獻(xiàn)矩陣
通過(guò)對(duì)微鈣化點(diǎn)檢測(cè)問(wèn)題的實(shí)驗(yàn)發(fā)現(xiàn),不同的特征向量對(duì)檢測(cè)結(jié)果的影響是不同的。為了更好地利用特征向量解決不同問(wèn)題,本文引入了貢獻(xiàn)矩陣。貢獻(xiàn)矩陣和原始特征矩陣維數(shù)相同,且該矩陣的每一維數(shù)據(jù)反映了原始特征向量的該維對(duì)分類結(jié)果的貢獻(xiàn)大小,用該矩陣對(duì)原始特征向量進(jìn)行預(yù)處理。
產(chǎn)生經(jīng)驗(yàn)矩陣的方法有:(1)經(jīng)驗(yàn)分析法,取決于人的經(jīng)驗(yàn),無(wú)法通過(guò)計(jì)算機(jī)自動(dòng)確定;(2)基于結(jié)構(gòu)分析的統(tǒng)計(jì)方法,通過(guò)對(duì)大量圖像的幾何特征的分布進(jìn)行分析,對(duì)乳腺X圖像中的目標(biāo)進(jìn)行定位、邊緣提取,通過(guò)統(tǒng)計(jì)確定出每一部分對(duì)分類貢獻(xiàn)的大小,從而確定貢獻(xiàn)矩陣;(3)反向優(yōu)化算法,根據(jù)前兩種方法確定一個(gè)初始的貢獻(xiàn)矩陣,然后按照這個(gè)初始值對(duì)樣本處理,求出分類結(jié)果,反過(guò)來(lái)根據(jù)分類結(jié)果修正貢獻(xiàn)矩陣,最后得到一個(gè)優(yōu)化的貢獻(xiàn)矩陣使分類效果達(dá)到最好。
本文采用第二種方法構(gòu)造貢獻(xiàn)矩陣。由于微鈣化點(diǎn)是一些相對(duì)周圍區(qū)域灰度值較高的亮點(diǎn),故在微鈣化點(diǎn)檢測(cè)問(wèn)題的分類中起重要作用的是相對(duì)鄰域的亮點(diǎn),對(duì)應(yīng)貢獻(xiàn)矩陣中較大的貢獻(xiàn)系數(shù),對(duì)于其他的像素,應(yīng)賦予較小的貢獻(xiàn)系數(shù)。
1.2 二維主成分分析
經(jīng)典的主成分分析[4]是基于一維向量,這里采用直接針對(duì)二維圖像數(shù)據(jù)的二維主成分分析方法。
令X為n維單位列向量。A為m×n的隨機(jī)矩陣,通過(guò)線性變換
Y=AX (1)
得到圖像A映射的特征向量。為了得到一個(gè)最優(yōu)的映射向量,引入映射樣本的總類分散度來(lái)度量映射向量X的判別力。用映射特征向量協(xié)方差矩陣的跡來(lái)描述總類分散度。采用準(zhǔn)則
J(X)=tr(Sx) (2)
其中Sx為訓(xùn)練樣本的映射特征向量的協(xié)方差矩陣,tr(Sx)表示Sx的跡。最大化上述準(zhǔn)則的物理意義就是找到映射方向X,將所有樣本映射到該方向之后能夠使映射樣本的總類分散度最大。協(xié)方差矩陣Sx定義為:
Sx=E(Y-EY)(Y-EY)t (3)
=E[AX-E(AX)][AX-E(AX)]T
于是
tr(Sx)=XT[E(A-EA)T(A-EA)]X (4)
定義圖像A的協(xié)方差矩陣Gt
Gt=E[(A-EA)t(A-EA)] (5)
從定義很容易證明Gt是非負(fù)的,而且可以直接從圖像訓(xùn)練樣本得到。假設(shè)共有M個(gè)訓(xùn)練樣本,第j個(gè)樣本記作m×n維矩陣Aj(j=1,2,…,M),所有樣本的平均圖像記作A′,這樣
準(zhǔn)則(2)改寫(xiě)為:
J(X)=XTGtX (7)
最優(yōu)映射軸Xopt是最大化Jx的單位向量,就是Gt對(duì)應(yīng)最大特征值的特征向量。一般來(lái)說(shuō),只有一個(gè)最優(yōu)軸向是不夠的,通常需要選擇映射軸向的一個(gè)子集,即最大化Jx的一組正交向量X1,X2,…,Xd
實(shí)際上,最優(yōu)映射軸X1,X2,…,Xd就是Gt對(duì)應(yīng)前d個(gè)最大特征值的特征向量。
1.3 特征提取
利用最優(yōu)映射向量提取圖像特征,對(duì)于一個(gè)給定的圖像樣本A,
Yk=AXk, k=1,2,…,d (9)
這樣得到一組映射的特征向量Y1,Y2,…,Yd,稱作圖像樣本的主成分。需要指出的是二維主成分分析的每一個(gè)主成分都是矢量,而一維主成分分析的是標(biāo)量。B=[Y1,Y2,…,Yd]為圖像的特征,用作后續(xù)分類器的輸入。
1.4 支持向量機(jī)
支持向量機(jī)以結(jié)構(gòu)化風(fēng)險(xiǎn)最小化代替常用的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化作為優(yōu)化準(zhǔn)則,可以在理論上取得更好的泛化性能。下面以兩類模式的分類為例說(shuō)明其基本原理。
設(shè)樣本集(xi,yi),i=1,2,…,n,yi∈{+1,-1},其中yi是模式xi的類別標(biāo)號(hào),通過(guò)滿足Mercer條件的核函數(shù)K(u,v)將輸入模式映射到一個(gè)更高維特征空間H中,在此高維空間求取一個(gè)線性分類面,使兩類距離最大(稱為最優(yōu)線性分類面)。
這相當(dāng)于求解約束條件下的二次優(yōu)化問(wèn)題
其中C是對(duì)線性不可分樣本的分類錯(cuò)誤的懲罰因子,αi為每個(gè)約束條件對(duì)應(yīng)的Lagrangian乘子。
求解上述二次優(yōu)化問(wèn)題,可以從訓(xùn)練樣本中得到一系列對(duì)應(yīng)αi≠0的向量,這些特征向量稱為支持向量,分類面由這些向量決定。
其中SV為支持向量。
核函數(shù)的選擇決定了高維特征空間H的結(jié)構(gòu),常用的函數(shù)有三種:
多項(xiàng)式核函數(shù)
K(x,xi)=[(x·xi)+1]q (13)
RBF(Radial Basis Function)核
Sigmoid核函數(shù)
K(x,y)=tanh(v(x·xi)+c) (15)
1.5 算法描述
本文采用分等級(jí)的微鈣化點(diǎn)檢測(cè):預(yù)處理、感興趣區(qū)域提取和鈣化點(diǎn)檢測(cè)。預(yù)處理包括圖像增強(qiáng)和去噪。通過(guò)提取感興趣區(qū)域,可以去除大量不含鈣化點(diǎn)的區(qū)域,提高訓(xùn)練速度和分類精度。通過(guò)感興趣區(qū)域中鈣化點(diǎn)的檢測(cè),可以得到微鈣化點(diǎn)。感興趣區(qū)域的提取以及微鈣化點(diǎn)的檢測(cè)問(wèn)題都是分類問(wèn)題,即將包含鈣化點(diǎn)的區(qū)域和不包含鈣化點(diǎn)的區(qū)域或者鈣化點(diǎn)與非鈣化點(diǎn)區(qū)分開(kāi)。本文使用支持向量機(jī)進(jìn)行分類。下面詳細(xì)介紹感興趣區(qū)域的選取部分,分為兩個(gè)階段:訓(xùn)練階段和測(cè)試階段。
1.5.1 訓(xùn)練階段
(1)對(duì)每一幅感興趣區(qū)域(設(shè)為p×q維)和非感興趣區(qū)域(p×q維)的圖像樣本,利用圖像統(tǒng)計(jì)特征計(jì)算貢獻(xiàn)矩陣D,且維數(shù)與圖像相同。圖像的統(tǒng)計(jì)特征本文采用統(tǒng)計(jì)平均值:
對(duì)圖像中的每個(gè)像素,首先計(jì)算其2m+1鄰域灰度均值,根據(jù)該像素的灰度值與該均值的差值大小給貢獻(xiàn)矩陣對(duì)應(yīng)的貢獻(xiàn)系數(shù)賦值dij,且0<DIJ<1。若差值較大,則說(shuō)明該點(diǎn)對(duì)分類的影響較大,應(yīng)賦予較大的貢獻(xiàn)系數(shù);反之,則賦予較小的貢獻(xiàn)系數(shù)值。
(2)利用貢獻(xiàn)矩陣對(duì)訓(xùn)練樣本圖像預(yù)處理。這里定義一種運(yùn)算
即圖像各像素與貢獻(xiàn)矩陣中對(duì)應(yīng)位置的貢獻(xiàn)系數(shù)相乘。
(3)由公式(6)、(8)、(9)利用二維主成分分析提取圖像特征,作為支持向量機(jī)的輸入向量。
(4)訓(xùn)練支持向量機(jī),保存最優(yōu)分類面參數(shù)。
1.5.2 測(cè)試階段
(1)對(duì)測(cè)試樣本用大小p×q的窗口,x方向以步長(zhǎng)p/2,y方向以步長(zhǎng)q/2遍歷,對(duì)窗口選定的每一個(gè)區(qū)域利用圖像統(tǒng)計(jì)特征計(jì)算貢獻(xiàn)矩陣。
(2)利用貢獻(xiàn)矩陣對(duì)測(cè)試樣本圖像預(yù)處理。
(3)利用二維主成分分析提取圖像特征。
(4)調(diào)用訓(xùn)練好的支持向量機(jī)對(duì)測(cè)試樣本分類。本實(shí)驗(yàn)使用RBF核函數(shù)(見(jiàn)公式(14)),σ=5,C=1000。
微鈣化點(diǎn)的檢測(cè),基本步驟同上,只是提取的特征不同。提取的鈣化點(diǎn)的特征包括面積、對(duì)比度和從SRDM (Surround Region Dependence Matrix)提取的四個(gè)方向的加權(quán)和[5],作為支持向量機(jī)的輸入向量。
2 實(shí)驗(yàn)結(jié)果
本文對(duì)100幅乳腺X圖像作為訓(xùn)練樣本,并對(duì)其他9幅測(cè)試樣本進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表1所示,給出了每個(gè)測(cè)試樣本中微鈣化點(diǎn)MC(Microcalcification)的真實(shí)個(gè)數(shù)、檢出個(gè)數(shù)以及假陽(yáng)性FP(False Positive)。與主成分分析提取特征相比,本文提出的特征提取方法,運(yùn)算速度提高3倍以上。而且隨著樣本數(shù)量增多,本文提出的基于貢獻(xiàn)矩陣的二維主成分分析比經(jīng)典主成分分析具有更顯著優(yōu)勢(shì)。
本文提出了基于貢獻(xiàn)矩陣的二維主成分分析特征提取方法。首先,與經(jīng)典的對(duì)向量運(yùn)算的主成分分析方法不同,二維主成分分析方法是直接針對(duì)二維圖像數(shù)據(jù)的,因而大大減少了計(jì)算量,加快了運(yùn)算速度。而且,貢獻(xiàn)矩陣是根據(jù)特征向量對(duì)分類結(jié)果的影響大小來(lái)確定的,用來(lái)對(duì)圖像預(yù)處理,可以彌補(bǔ)經(jīng)典主成分分析僅僅基于特征值大小選擇特征的不足,選擇更加有利于分類的特征。乳腺X線圖像中微鈣化點(diǎn)檢測(cè)的實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的可行性,在保證檢測(cè)精度的前提下,大大提高了運(yùn)算速度。
參考文獻(xiàn)
1 Roman W. Swiniarski, Andrzej Skowron. Rough set methods in feature selection and recognition. Pattern Recognition Letters[J], 2003;24: 833~849
2 Sun Zehang,Bebis,George, Miller, Ronald. Object detection using feature subset selection. Pattern Recognition [J], 2004;37(11):2165~2176
3 蔣偉峰,劉濟(jì)林. 基于pca學(xué)習(xí)子空間算法的有限漢字識(shí)別.中國(guó)圖象圖形學(xué)報(bào)[J],2001;2: 186~190
4 高秀梅,楊靜宇,袁小華,楊健. 廣義主分量分析及人臉識(shí)別.計(jì)算機(jī)工程與應(yīng)用[J],2003;(11):31~32,48
5 H.D. Cheng, Xiaopeng Cai, Xiaowei Chen, Liming Hu, Xueling Lou. Computer-aided detection and classification of microcalcifications in mammograms:a survey.Pattern Recognition 36 (2003):2967~2991