摘 要: 提出利用貢獻(xiàn)矩陣" title="貢獻(xiàn)矩陣">貢獻(xiàn)矩陣對(duì)圖像預(yù)處理,利用二維主成分分析" title="主成分分析">主成分分析方法提取區(qū)域特征。先檢測(cè)感興趣區(qū)域,再檢測(cè)微鈣化點(diǎn),并提出質(zhì)量可分級(jí)的支持向量機(jī)" title="支持向量機(jī)">支持向量機(jī)作為分類器,最后利用順序?yàn)V波法對(duì)鈣化點(diǎn)的檢測(cè)結(jié)果進(jìn)行修正。實(shí)驗(yàn)結(jié)果表明,該算法有效地降低了假陽性。
關(guān)鍵詞: 支持向量機(jī) 貢獻(xiàn)矩陣 順序?yàn)V波
乳腺癌是一種常見的婦科惡性腫瘤[1]。由于病因未知,所以還不能預(yù)防。早期診斷和早期治療是降低死亡率的關(guān)鍵。微鈣化點(diǎn)是乳腺癌的早期征兆,所以微鈣化點(diǎn)檢測(cè)" title="微鈣化點(diǎn)檢測(cè)">微鈣化點(diǎn)檢測(cè)是控制乳腺癌的關(guān)鍵。計(jì)算機(jī)輔助診斷已成功地被放射線學(xué)者用于乳腺X射線影像醫(yī)學(xué)圖像中微鈣化點(diǎn)的檢測(cè)。人們已經(jīng)提出了很多微鈣化點(diǎn)檢測(cè)的方法[2~4]。但普遍存在假陽性高的特點(diǎn)。
本文提出首先利用貢獻(xiàn)矩陣對(duì)圖像預(yù)處理,突出圖像中對(duì)分類結(jié)果而言的強(qiáng)影響點(diǎn);然后將圖像分割成子區(qū)域,通過二維主成分分析方法提取區(qū)域特征,利用支持向量機(jī)分類器檢測(cè)感興趣區(qū)域;再提取點(diǎn)的特征(包括矩特征、直方圖特征參數(shù)等),利用質(zhì)量可分級(jí)的支持向量機(jī)分類器檢測(cè)微鈣化點(diǎn);最后利用順序?yàn)V波器修正檢測(cè)結(jié)果,排除孤立點(diǎn),可以有效地降低假陽性。
1 微鈣化點(diǎn)檢測(cè)
1.1 貢獻(xiàn)矩陣
通過對(duì)目標(biāo)檢測(cè)問題的研究發(fā)現(xiàn),不同的特征向量" title="特征向量">特征向量對(duì)檢測(cè)結(jié)果的影響是不同的。為了更好地利用特征向量解決不同問題的不同作用,本文引入了貢獻(xiàn)矩陣。貢獻(xiàn)矩陣與原始特征矩陣維數(shù)相同,且該矩陣的每一維數(shù)據(jù)反映了原始特征向量的該維對(duì)分類結(jié)果的貢獻(xiàn)大小,用該矩陣對(duì)原始特征向量進(jìn)行預(yù)處理。
產(chǎn)生經(jīng)驗(yàn)矩陣的方法有:(1)經(jīng)驗(yàn)分析法,取決于人的經(jīng)驗(yàn),無法通過計(jì)算機(jī)自動(dòng)確定;(2)基于結(jié)構(gòu)分析的統(tǒng)計(jì)方法,通過對(duì)大量圖像的灰度特征分布分析,對(duì)圖像中的目標(biāo)進(jìn)行評(píng)估,確定出每一部分對(duì)分類貢獻(xiàn)的大小,從而確定貢獻(xiàn)矩陣;(3)反向優(yōu)化算法,根據(jù)前兩種方法確定一個(gè)初始的貢獻(xiàn)矩陣,然后按照這個(gè)初始值對(duì)樣本處理,求出分類結(jié)果;反過來根據(jù)分類結(jié)果修正貢獻(xiàn)矩陣,得到一個(gè)優(yōu)化的貢獻(xiàn)矩陣,使分類效果達(dá)到最好。
本文采用第二種方法構(gòu)造貢獻(xiàn)矩陣。由于微鈣化點(diǎn)是一些相對(duì)周圍區(qū)域灰度值較高的亮點(diǎn),故微鈣化點(diǎn)檢測(cè)問題在分類中起重要作用的是相對(duì)鄰域的亮點(diǎn),對(duì)應(yīng)貢獻(xiàn)矩陣中較大的貢獻(xiàn)系數(shù)。對(duì)于其他的像素,應(yīng)賦予較小的貢獻(xiàn)系數(shù)。
利用圖像統(tǒng)計(jì)特征計(jì)算貢獻(xiàn)矩陣D,其維數(shù)與圖像相同。圖像的統(tǒng)計(jì)特征本文采用統(tǒng)計(jì)平均值
對(duì)圖像中的每個(gè)像素,首先計(jì)算其2m+1鄰域灰度均值,根據(jù)該像素的灰度值與該均值的差值大小來給貢獻(xiàn)矩陣對(duì)應(yīng)的貢獻(xiàn)系數(shù)賦值dij,且0<Cij<1。若差值較大,則說明該點(diǎn)對(duì)分類的影響較大,應(yīng)賦予較大的貢獻(xiàn)系數(shù);反之,則賦予較小的貢獻(xiàn)系數(shù)值。
利用貢獻(xiàn)矩陣對(duì)訓(xùn)練樣本圖像預(yù)處理。這里定義一種運(yùn)算
即圖像各像素與貢獻(xiàn)矩陣中對(duì)應(yīng)位置的貢獻(xiàn)系數(shù)相乘。
1.2 二維主成分分析
經(jīng)典的主成分分析是基于一維向量,這里采用直接針對(duì)二維圖像數(shù)據(jù)的二維主成分分析方法。
令X為n維單位列向量。A為維數(shù)m×n的隨機(jī)矩陣,通過線性變換
Y=AX (3)
得到圖像A映射的特征向量。為了得到一個(gè)最優(yōu)的映射向量,引入映射樣本的總類分散度來度量映射向量X的判別力。用映射特征向量協(xié)方差矩陣的跡來描述總類分散度。采用準(zhǔn)則
J(X)=tr(Sx) (4)
其中Sx為訓(xùn)練樣本的映射特征向量的協(xié)方差矩陣,tr(Sx)表示Sx的跡。最大化上述準(zhǔn)則的物理意義就是找到映射方向X,將所有的樣本映射到該方向之后能夠使映射樣本的總類分散度最大。協(xié)方差矩陣Sx定義為:
Sx=E(Y-EY)(Y-EY)t=E[AX-E(AX)][AX-E(AX)]T (5)
于是
從定義很容易證明Gt是非負(fù)的,而且可以直接從圖像訓(xùn)練樣本得到。假設(shè)共有M個(gè)訓(xùn)練樣本,第j個(gè)樣本記作m×n維矩陣Aj(j=1,2,…,M),所有樣本的平均圖像記作A′,這樣
最優(yōu)映射軸Xopt是最大化Jx的單位向量,即Gt對(duì)應(yīng)最大特征值的特征向量。一般來說,只有一個(gè)最優(yōu)軸向是不夠的,通常需要選擇映射軸向的一個(gè)子集,即最大化Jx的一組正交向量X1,X2,…,Xd:
實(shí)際上,最優(yōu)映射軸X1,X2,…,Xd就是Gt的對(duì)應(yīng)前d個(gè)最大特征值的特征向量。
1.3 特征提取
利用最優(yōu)映射向量提取圖像特征,對(duì)于一個(gè)給定的圖像樣本A,
Yk=AXk, k=1,2,…,d (11)
這樣得到一組映射的特征向量Y1,Y2,…,Yd,稱作圖像樣本的主成分。需要指出,二維主成分分析的每一個(gè)主成分都是矢量,而一維主成分分析的是標(biāo)量。B=[Y1,Y2,…,Yd]為圖像的特征,用作后續(xù)分類器的輸入。
1.4 順序?yàn)V波法修正
乳腺癌的診斷中,專家認(rèn)為,單位cm2的區(qū)域內(nèi),要有三個(gè)到五個(gè)以上的鈣化點(diǎn),才可診斷為乳腺癌。惡性的鈣化點(diǎn)多是成簇出現(xiàn)的,所以檢測(cè)出的孤立點(diǎn)一般是良性的點(diǎn),而且很多情況下,是噪聲,導(dǎo)致鈣化點(diǎn)檢測(cè)普遍存在假陽性較高的問題。為了排除這些噪聲點(diǎn),降低微鈣化點(diǎn)檢測(cè)的假陽性,本文提出了順序?yàn)V波修正的方法。
順序?yàn)V波是一種非線性的信號(hào)處理方法。m×n鄰域內(nèi)d階順序?yàn)V波就是取圖像中某點(diǎn)的m×n鄰域內(nèi)的點(diǎn),把它們的灰度按從大到小順序排序,選取灰度順序?yàn)閐的點(diǎn)的灰度作為該點(diǎn)的灰度。m×n鄰域內(nèi)d階順序?yàn)V波如式(12)所示:
f(i,j)=ord{f(i±k,j±h),f(i±(k-1), j±(h-1)),…, f(i,j)} m=2k+1,n=2h+1 (12)
例如,臨床指征的鈣化顆粒一般為100~500μm??臻g分辨率是每像素50μm的情況下,可見鈣化點(diǎn)一般不小于2個(gè)像素。對(duì)圖像采用3×3鄰域內(nèi)的3階順序?yàn)V波,即以每個(gè)點(diǎn)的3×3鄰域中第三大的灰度值代替這點(diǎn)的灰度,從而可保證濾除掉只占1個(gè)像素和2個(gè)像素的噪聲點(diǎn)。
1.5 質(zhì)量可分級(jí)的支持向量機(jī)
支持向量機(jī)以結(jié)構(gòu)風(fēng)險(xiǎn)最小化代替常用的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化作為優(yōu)化準(zhǔn)則,可以在理論上取得更好的泛化性能。人們已經(jīng)將其應(yīng)用于微鈣化點(diǎn)檢測(cè)問題[3]。下面以兩類模式的分類為例來說明其基本原理。
設(shè)樣本集(xi,yi),i=1,2,…,n,yi∈{-1,+1},其中yi是模式xi的類別標(biāo)號(hào),通過滿足Mercer條件的核函數(shù)K(u,v)將輸入模式映射到一個(gè)更高維特征空間H中,在此高維空間求取一個(gè)線性分類面使兩類距離最大(稱為最優(yōu)先性分類面)。
這相當(dāng)于求解約束條件下的二次優(yōu)化問題
其中C是對(duì)線性不可分樣本的分類錯(cuò)誤的懲罰因子,αi為每個(gè)約束條件對(duì)應(yīng)的Lagrangian乘子。
求解上述二次優(yōu)化問題,可以從訓(xùn)練樣本中得到一系列對(duì)應(yīng)αi≠0的向量,這些特征向量稱為支持向量,分類面由這些向量決定
其中SV為支持向量。
支持向量機(jī)測(cè)試速度主要受支持向量個(gè)數(shù)的影響,支持向量個(gè)數(shù)越多,測(cè)試速度越慢。由于不同的支持向量對(duì)分類結(jié)果的作用大小不同,有的對(duì)分類結(jié)果影響大,有的對(duì)分類結(jié)果影響小,甚至有一些是冗余的,所以本文提出可控的支持向量選擇算法,利用一定的標(biāo)準(zhǔn)對(duì)支持向量排序,選擇不同百分比的支持向量子集構(gòu)成分類器,可以在保證分類精度的前提下,減少支持向量的個(gè)數(shù),提高分類速度,實(shí)現(xiàn)質(zhì)量可分級(jí)的支持向量機(jī)。
通過支持向量機(jī)訓(xùn)練階段得到所有的支持向量,記作支持向量集Ssv={xj},j=1,…,p,訓(xùn)練樣本集{xi},i=1,…,q,以每個(gè)支持向量為聚類中心,計(jì)算每個(gè)樣本到每個(gè)支持向量的距離,樣本到支持向量的距離為:
dij=xi-xj?????????????????? (16)
樣本和距離最近的支持向量歸為一類,即
統(tǒng)計(jì)各個(gè)支持向量所聚類的樣本數(shù),據(jù)此對(duì)支持向量進(jìn)行排序,選擇不同數(shù)量的支持向量,實(shí)現(xiàn)可控的質(zhì)量可分級(jí)的支持向量機(jī)。
核函數(shù)的選擇決定了高維特征空間H的結(jié)構(gòu),常用的函數(shù)有三種:
(1)多項(xiàng)式核函數(shù)
K(x,xi)=[(x·xi)+1]q (18)
(2)RBF(Radial Basis Function)核
2 實(shí)驗(yàn)結(jié)果
在有經(jīng)驗(yàn)醫(yī)師的指導(dǎo)下,本文從40幅乳腺X圖像中,構(gòu)造了230幅大小為128×128像素的圖片,其中存在微鈣化現(xiàn)象的110幅和不存在微鈣化現(xiàn)象的120幅。利用本文提出的基于貢獻(xiàn)矩陣的2維PCA方法提取圖片的特征(鈣化與非鈣化樣本各100幅),訓(xùn)練支持向量機(jī)。并用另外30幅樣本進(jìn)行測(cè)試。檢出率達(dá)100%,但是將其中兩幅不含鈣化的圖片誤斷為含鈣化的樣本。表1給出了部分樣本的鈣化點(diǎn)檢測(cè)結(jié)果。
針對(duì)微鈣化點(diǎn)檢測(cè)普遍存在的假陽性高的問題,本文提出了一種新的鈣化點(diǎn)檢測(cè)方法。利用貢獻(xiàn)矩陣對(duì)圖像預(yù)處理,貢獻(xiàn)矩陣是根據(jù)圖像中的像素對(duì)分類結(jié)果的影響大小來確定的,用來對(duì)圖像預(yù)處理,能夠突出對(duì)分類結(jié)果作用較大的圖像區(qū)域,可以彌補(bǔ)經(jīng)典主成分分析僅僅基于特征值大小選擇特征的不足,選擇更加有利于分類的特征;與經(jīng)典的對(duì)向量運(yùn)算的主成分分析方法不同,二維主成分分析方法是直接針對(duì)二維圖像數(shù)據(jù)的,大大減少了求協(xié)方差矩陣的計(jì)算量;提取感興趣區(qū)域可以排除大量非鈣化的區(qū)域,從而提高檢測(cè)速度;通過支持向量聚類的樣本數(shù)來衡量支持向量對(duì)分類結(jié)果的作用大小,從而對(duì)支持向量排序?qū)崿F(xiàn)質(zhì)量可分級(jí)的支持向量機(jī),在不丟失鈣化信息的前提下,修剪部分對(duì)分類結(jié)果影響較小的支持向量,能夠提高檢測(cè)速度;采用順序?yàn)V波的方法對(duì)鈣化點(diǎn)進(jìn)行修正,可以排除孤立的點(diǎn),降低微鈣化點(diǎn)檢測(cè)中普遍存在的假陽性。
參考文獻(xiàn)
1 Mesurolle, Benoit, Mignon,et al. Digital spot mammography using an add-on upright unit: Diagnostic application in daily practice.European Journal of Radiology [J], 2004;51(1):61~65
2 Soltanian-Zadeh, Hamid,Rafiee-Rad,et al. Comparison of multiwavelet, wavelet, Haralick, and shape features for microcalcification classification in mammograms. Pattern Recognition [J], 2004;37(10):1973~1986
3 Ferreira, Cristiane Bastos Rocha, Borges,et al. Analysis of mammogram classification using a wavelet transform decomposition. Pattern Recognition [J], 2003;24(7):973~982
4 萬柏坤,王瑞平,朱欣等.SVM算法及其在乳腺X片微鈣化點(diǎn)自動(dòng)檢測(cè)中的應(yīng)用[J].電子學(xué)報(bào), 2004;32(4):587~590