高集榮1,田艷2,楊永紅1,劉清華1
(1.中山大學(xué) 計算機(jī)科學(xué)系,廣東 廣州 510006;2.西安財經(jīng)學(xué)院 統(tǒng)計學(xué)院,陜西 西安 710061)
摘要:乳腺癌已經(jīng)成為當(dāng)今世界影響婦女健康的重要疾病。對于乳腺癌診斷來說,當(dāng)一個惡性病例被誤分類為良性病例的時候,其代價遠(yuǎn)遠(yuǎn)大于一個良性病例被誤分類為惡性病例。它利用數(shù)據(jù)挖掘領(lǐng)域的代價敏感相關(guān)方法,建立一個識別良性乳腺腫瘤和惡性乳腺腫瘤的診斷預(yù)測系統(tǒng)。在建模過程中充分考慮到誤分類代價的因素,提出了誤分類代價策略。通過一系列實驗驗證了所建立的模型。從實驗結(jié)果來看,Adaboost與SVM的誤分類組合分類算法在正確率和總誤分類代價兩個評估指標(biāo)上得到了良好的效果。
關(guān)鍵詞:數(shù)據(jù)挖掘;代價敏感;誤分類代價;乳腺癌
中圖分類號:TP393.092文獻(xiàn)標(biāo)識碼:ADOI: 10.19358/j.issn.1674-7720.2017.02.004
引用格式:高集榮,田艷,楊永紅,等.基于誤分類模式的乳腺癌診斷研究[J].微型機(jī)與應(yīng)用,2017,36(2):10-13,16.
0引言
乳腺癌已經(jīng)成為當(dāng)今世界影響婦女健康的重要疾?。?],全球乳腺癌發(fā)病率從上世紀(jì)70年代末起就一直呈上升趨勢。據(jù)美國的調(diào)查,平均每8名美國婦女中,就有一個人在其一生中可能患有乳腺癌疾病。據(jù)中國國家癌癥中心和衛(wèi)生部疾病預(yù)防控制局2012年公布的2009年乳腺癌發(fā)病數(shù)據(jù)顯示:全國腫瘤登記地區(qū)的女性惡性腫瘤排行榜上,乳腺癌發(fā)病率位居第1位。
乳腺癌的研究和治療歷史悠久,積累了不少的數(shù)據(jù),如何從這些數(shù)據(jù)中發(fā)現(xiàn)有用的信息來輔助治療,成了當(dāng)下比較熱門的一個課題。數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)的不斷進(jìn)步,將這些技術(shù)用于乳腺癌的識別和預(yù)測是大勢所趨。再結(jié)合醫(yī)生本身的經(jīng)驗來預(yù)測乳腺癌,這將是未來癌癥疾病的診斷模式。
國內(nèi)外對乳腺癌診斷預(yù)測的研究從未停止過,很多研究算法都得到了95%以上的正確率。但是這些研究所使用的數(shù)據(jù)集為威斯康星乳腺癌數(shù)據(jù)集,共收集病例樣本699個樣本,只有9個特征屬性。
本文使用到的良惡性乳腺腫瘤分析的數(shù)據(jù)為威斯康星乳腺癌診斷數(shù)據(jù)集,含有569個樣本(其中良性樣本357個,惡性樣本212個),30個特征維度[2];近些年的乳腺癌挖掘研究大都采用此數(shù)據(jù)集。
在進(jìn)行乳腺癌診斷預(yù)測的過程中,降低誤診斷的風(fēng)險是一個實際的需求。如果是惡性乳腺腫瘤被預(yù)測為良性,其帶來的后果比原本是良性的被預(yù)測為惡性的給病人帶來的后果會更嚴(yán)重。因此,本文引入誤分類代價,誤分類代價是一種代價敏感的策略,它定義了被誤分類為不同類型時所產(chǎn)生的成本是不同的。
1算法描述
基于誤分類的乳腺癌診斷預(yù)測建模主要分為兩個步驟:首先是對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行降維操作,乳腺癌細(xì)胞的特征屬性本來就很多,本數(shù)據(jù)集中含有30個特征屬性,如果直接對其進(jìn)行建模,所花費(fèi)的成本會很高,而且這么多特征屬性之中,可能存在噪聲數(shù)據(jù),影響建模的效果;其次是使用基于誤分類代價的建模方法對其數(shù)據(jù)進(jìn)行訓(xùn)練和驗證。文中重點考察了決策樹和SVM兩種分類方法,并且在研究中引入它們的誤分類策略。
1.1乳腺癌特征選擇的方法
降維方式基本分為兩種,特征選擇和特征變換。特征選擇方法依據(jù)是否獨(dú)立于后續(xù)的學(xué)習(xí)算法又分為過濾式和封裝式兩種[3]。過濾式與后續(xù)的學(xué)習(xí)分類算法無關(guān),一般是直接利用所有訓(xùn)練數(shù)據(jù)的統(tǒng)計信息評估特征,其特點是速度快;封裝式利用后續(xù)學(xué)習(xí)算法的訓(xùn)練準(zhǔn)確率評估特征子集,其特點是偏差小,計算量大。特征變換不同于特征選擇之處在于其輸出結(jié)果不是原有的屬性,而是基于某種變換的原則所產(chǎn)生的新屬性。作為醫(yī)療診斷來說,不僅需要診斷預(yù)測的結(jié)果,還重視其推理的過程。由于變換后的屬性改變了原有屬性的物理特性,不可能看到其推理的結(jié)果,因此這里不討論特征變化方式。
本文研究的模型針對的是擁有30個屬性維度的數(shù)據(jù)集,屬于高維數(shù)據(jù)集。如果直接針對原始數(shù)據(jù)集采用分類方法,不僅成本較高,而且可能由于噪聲屬性的影響而降低精確度。
在絕大部分的特征選擇方法中,其核心部分在于對屬性特征重要性的評估,本文將選用三種特征重要度評估方式,其中一種是上文中提到的Fscores,另一種是在構(gòu)建決策樹過程中用于選擇分裂數(shù)據(jù)集時評估屬性的GINI方法,最后一種則是基于分類器的特征評估方式。選擇這三種評估方式的先驗條件是假定每一個特征是獨(dú)立的,可以評估出每一個特征的重要程度,并按照重要程度進(jìn)行降序排序,從而根據(jù)需要選擇最重要的前N個特征屬性。
1.2乳腺癌誤分類代價的組合分類研究
在進(jìn)行了降維操作之后,需要對其進(jìn)行分類建模操作。本文除了要基本保持診斷預(yù)測的正確率之外,還要降低其誤分類診斷的總代價。這里將把誤分類代價的概念引入到乳腺癌診斷預(yù)測課題中,誤分類代價屬于代價敏感的一種。
1.2.1代價敏感
數(shù)據(jù)挖掘的本質(zhì)在于利用一個特定的數(shù)學(xué)模型來給某一個數(shù)據(jù)進(jìn)行分類,判定其類別,為了構(gòu)建出數(shù)學(xué)模型,需要從大量的數(shù)據(jù)中獲取信息,并發(fā)現(xiàn)其中蘊(yùn)含的規(guī)律,最后利用這個規(guī)律,也就是數(shù)學(xué)模型來預(yù)測一些數(shù)據(jù),得到其可能的一個類別,這個類別是通過預(yù)測而來的,可能會和該數(shù)據(jù)真實的類別(假設(shè)只能在未來驗證得知)不一致,這時就會出現(xiàn)一個分類正確率的問題,對于一個預(yù)測數(shù)學(xué)模型來說,正確率是一個非常重要的指標(biāo)。但是在實際應(yīng)用中,代價因素也是不得不考慮的一個問題。
分類的代價不平等性給基于代價敏感的數(shù)據(jù)挖掘方法帶來了全新的視角和方向。TURNEY P D[4]認(rèn)為代價具有抽象的意義,可以用不同的單位來進(jìn)行衡量,并且他歸納總結(jié)了分類過程中8種不同的代價類型:誤分類代價、測試代價、標(biāo)注代價、干預(yù)代價、計算代價、獲取實例代價、人機(jī)交互代價、不穩(wěn)定代價。
代價敏感,尤其是誤分類代價在機(jī)器學(xué)習(xí)中重點處理的是數(shù)據(jù)不平衡的情況,擔(dān)心大樣本類別數(shù)據(jù)在建模過程中對分類結(jié)果產(chǎn)生一定的傾斜。而對于本文所研究的問題而言,這卻是一個具有實際意義的問題。對于乳腺腫瘤良惡性診斷來說,當(dāng)一個惡性病例被誤分類為良性病例的時候,其代價遠(yuǎn)遠(yuǎn)大于一個良性病例被誤分類為惡性病例的代價(主要指對病人的關(guān)注)。
對于二元分類問題,一個實例本來是i類別的,但是在分類預(yù)測的時候被錯誤地歸為類別j,Ci,j表示將類別為i的事物預(yù)測為類別j時所產(chǎn)生的代價。
一個二元分類的代價矩陣定義如表1所示。其中,正確分類的不會產(chǎn)生代價。誤分類代價的分類的目的就是要以最小誤分類代價建立以下模型:
TotalCost=C0,1*FN+C1,0*FP(1)
其中FN和FP分別為假負(fù)實例數(shù)和假正實例數(shù)。
1.2.2組合分類器誤分類策略
將誤分類策略分別引入到基礎(chǔ)分類器和組合分類器中,但是在大部分的誤分類研究中,主要是使用單一的分類器進(jìn)行誤分類建模,在上述給出的單一誤分類器中,從某種程度來說也改變了其建模過程中的一些步驟,因此可能與不引入誤分類策略后分類正確率有所出入。為此,使用組合分類模式來降低個體分類器在引入誤分類策略時所帶來的誤差,同時使用基于誤分類策略的組合分類模式,也能達(dá)到基礎(chǔ)分類器和組合分類器誤分類效果的疊加。
本文使用的基礎(chǔ)分類器有C45決策樹和SVM,使用的組合分類器有Adaboost與Bagging。其中Adaboost擁有誤分類策略,而Bagging盡管自身沒有誤分類策略,但是可以使用帶有誤分類策略的基礎(chǔ)分類器來達(dá)到其誤分類的效果。
2算法驗證
本節(jié)著重根據(jù)上文提到的各種方法對乳腺癌數(shù)據(jù)進(jìn)行建模實驗,從而構(gòu)建出基于誤分類代價的診斷預(yù)測系統(tǒng)。因篇幅所限,本文只列出了一部分。
2.1N-交叉驗證
交叉驗證是數(shù)據(jù)挖掘?qū)嶒炛谐S玫姆椒?。在N交叉驗證[56]中,將數(shù)據(jù)集隨機(jī)劃分為N份,并進(jìn)行N次實驗。在每一次實驗中,選取與之前不同的一份作為驗證集,剩余N1份作為建立模型使用的訓(xùn)練集。
在本文的實驗中會頻繁用到N交叉驗證,例如在特征選擇的時候,需要經(jīng)過N交叉驗證來確定特征屬性的重要程度;在建立預(yù)測診斷模型的時候,需要使用N交叉驗證來評估預(yù)測的準(zhǔn)確性和總誤分類代價。
2.2評估標(biāo)準(zhǔn)
乳腺腫瘤良惡性診斷是一個分類問題,目前成熟的分類模型評估方式有:正確率、召回率、精確度、AUC、ROC曲線、混淆矩陣等。在混淆矩陣的基礎(chǔ)上,可以得到以上多個評估度量值。其中正確率(Acc)和錯誤率(Err)是使用最廣泛的兩個基礎(chǔ)度量標(biāo)準(zhǔn),其公式如下:
除了基本的正確率和錯誤率之外,由于本文重點考察的是基于代價敏感的乳腺腫瘤良惡性診斷。在前文的描述中也提到,一個惡性乳腺癌患者被診斷為良性所付出的代價遠(yuǎn)比一個良性乳腺腫瘤患者被診斷為惡性所付出的代價要高得多。所以本文所做研究是,除預(yù)測結(jié)果基本保持在一個比較高的水準(zhǔn)之外,還需要預(yù)測的代價盡可能地小。下面給出基本準(zhǔn)則去判斷實驗評估指標(biāo),即預(yù)測產(chǎn)生的錯誤總代價(TotalCost)。
表2給出了乳腺癌預(yù)測的代價矩陣,其中如果本身為良性乳腺腫瘤而預(yù)測為良性,由于預(yù)測是正確的,因此不會產(chǎn)生代價,惡性乳腺腫瘤預(yù)測為惡性也是同樣的道理。而如果本身是良性乳腺腫瘤被診斷為惡性的話,其花費(fèi)的代價是C0,1,如果本身是惡性乳腺腫瘤而被診斷為良性的話,其花費(fèi)的代價為C1,0,其中C1,0>C0,1。由此可以得到式(4):
TotalCost=FN*C0,1+FP*C1,0(4)表2代價矩陣預(yù)測正類(預(yù)測良性)預(yù)測負(fù)類(預(yù)測惡性)實際正類(實際良性)0C0,1實際負(fù)類(實際惡性)C1,00
本文希望達(dá)到的目標(biāo)是:在保持正確率不會有太大下降的情況下,降低總的誤分類代價。
2.3誤分類組合建模實驗
在組合不同誤分類代價策略時,基本分類器均具有其誤分類代價策略,可以進(jìn)行對比試驗,而組合分類器只有Adaboost具有誤分類策略,可考慮將基礎(chǔ)誤分類與Bagging組合分類器,而Adaboost可對比采用誤分類策略與不采用誤分類策略的效果,并同時與基礎(chǔ)分類器的誤分類策略進(jìn)行整合。
為了看出誤分類策略的效果,需要設(shè)計對比試驗,下面針對每一個基礎(chǔ)分類器設(shè)計了幾組對比試驗。表3給出了需要對比的實驗,以證實在建模過程中確實有誤分類策略的效果。
本文采用的誤分類矩陣為0101000,使用的數(shù)據(jù)集為乳腺腫瘤疾病良惡性診斷集,有兩個類型,0表示良性,1表示惡性,根據(jù)前文對于良惡性誤分類代價的分析判斷,得cost(1,0)=10,cost(0,1)=100。
本文所采用的數(shù)據(jù)挖掘的基礎(chǔ)程序來自Weka3.6。懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis,Weka)是一款免費(fèi)的、非商業(yè)化的挖掘工具,基于Java環(huán)境的開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。源代碼可在其官方網(wǎng)站下載,其中的C45基礎(chǔ)算法也來自該官網(wǎng)。
SVM則采用LIBSVM的Java版本,LIBSVM是臺灣大學(xué)林智仁等人開發(fā)設(shè)計的一個簡單、易于使用和快速有效的SVM模式識別與回歸軟件包,不但提供了編譯好的可在Windows操作系統(tǒng)上執(zhí)行的文件,還提供了源代碼,方便改進(jìn)、修改以及在其他操作系統(tǒng)上應(yīng)用。
(1) C45算法結(jié)果分析
首先展示Adaboost+C45算法的結(jié)果,以便與后期結(jié)果進(jìn)行對照。
(2) SVM算法結(jié)果分析
SVM在此問題上有很好的處理效果。這里可以對其進(jìn)行分析比較,研究其在誤分類代價的情況下的處理效果。本文采用的是LIBSVM的Java版本,其中一些參數(shù)均為默認(rèn)值,其中核函數(shù)采用的是RBF核函數(shù)。
圖1、圖2分別給出了正確率、總代價曲線,表4給出了不采取誤分類策略的Adaboost+SVM的最高評估值。
從實驗結(jié)果可以看出,盡管Adaboost+SVM組合模式的正確率非常高,但是其代價也不低,主要原因在于其高誤分類代價的個數(shù)比較多。而采用SVM的誤分類策略組合模式可能可以做到既擁有比較高的分類正確率,又能減少其高代價誤分類的個數(shù),從而降低總的誤分類代價。
從對比實驗可以看出,SVM在誤分類代價策略效果下表現(xiàn)得比決策樹都要好一些。其相對較高的正確率是一個重要原因,從SVM和決策樹兩者的表現(xiàn)來看,SVM構(gòu)建模型的分類正確率遠(yuǎn)高于決策樹,因而被誤分類的個數(shù)要小于決策樹;另一原因是在采用了誤分類代價策略之后,惡性乳腺腫瘤被診斷為良性的個數(shù)比不采用誤分類策略時減少了,所以總的誤分類的代價才會減少。
實驗結(jié)果表明,大部分實驗都達(dá)到了其降低總誤分類代價的目的,而且能保持比較高的正確率:Adaboost與SVM的誤分類組合分類算法不僅正確率達(dá)到了98.23%,而且將總誤分類代價從600左右降到了330。
3結(jié)論
本文結(jié)合傳統(tǒng)的基礎(chǔ)分類算法,運(yùn)用組合分類模式進(jìn)行診斷預(yù)測,并針對乳腺癌樣例的特征屬性采取了降維的處理,旨在降低建模過程的成本和對樣例進(jìn)行預(yù)測時的成本,并希望清除噪聲屬性。同時,也將代價敏感的概念引入到乳腺癌診斷過程中。在建模過程中,將誤分類代價策略和基礎(chǔ)分類模式、組合分類模式Bagging和Adaboost進(jìn)行整合修改,以便能在保持較高正確率的情況下,降低總的誤分類代價。設(shè)計了對比試驗,以便能得出最優(yōu)的組合分類模式;在此基礎(chǔ)上采用粒子群算法,以最低誤分類代價為評估標(biāo)準(zhǔn),采用上述組合實驗中的最佳組合分類方法,選擇出最穩(wěn)定的低誤分類代價的特征屬性和相關(guān)參數(shù)值。
參考文獻(xiàn)
?。?] The Women’s Health Resource .What is breast cancer[EB/OL].(2013-06-10)[2016-07-28].http://www.imaginis.com/general informationonbreastcancer/whatisbreastcancer2.
[2] UCI Machine Learning Repository. Wisconsin breast cancer dataset[EB/OL]. (20120630)[2016-07-28]http://archive.ics.uci.edu/ml/datasets.html-format=&task=cla&att=&area=&numAtt=&numIns=&type=&sort=.
?。?] 姚旭.特征選擇方法綜述[J].控制與決策.2012,127(2):35-40.
?。?] TURNEY P D. Types of cost in inductive concept learning[C]. Workship on CostSensitive Learning at ICML, 2000:15-21.
?。?] DUPRET, G. KODA, M. Theory and methodology: boostrap resampling for unbalanced data in supervised learning[J]. Eropean Journal of Operational Research,2001,134(1), 141-156.
?。?] GOOD,P.I. Resampling methods: a practical guide to data analysis (3rd Edition)[M]. Birkhauser, 2006.