摘 要: 乳腺癌是危害女性生命的一種惡性腫瘤。目前,在乳腺癌治療方面,新輔助化療獲得了良好的成果,使眾多女性恢復了健康。支持向量機在實際應用中有著良好的泛化和學習能力,并在商業(yè)、經(jīng)濟以及醫(yī)療等領域有所應用。采用決策樹分類器和支持向量機分類器,結合乳腺癌新輔助化療隨訪記錄數(shù)據(jù),預測乳腺癌患者新輔助化療的預后狀態(tài),實驗結果表明使用支持向量機的效果好于使用決策樹的效果,在支持向量機中使用徑向基核函數(shù)時獲得了最高的準確率,達到了84.08%,由此可見,該分類方法可能成為一種乳腺癌新輔助化療的預后狀態(tài)的有效預測工具。
關鍵詞: 乳腺癌;新輔助化療;預后;支持向量機;分類
0 引言
女性的乳房是其美麗的代言,是母性的傳承,同時也是疾病的侵擾對象。乳腺癌是女性最常見的惡性腫瘤之一,發(fā)病率正在逐年上升,且趨于年輕化,是危害女性健康的主要殺手[1]。我國乳腺癌疾病也有著不好的趨勢,其發(fā)病率和死亡率正在逐年攀升。由于受中國傳統(tǒng)因素的影響,婦女很少去醫(yī)院定期檢查,羞于關注乳房的健康,女性一旦發(fā)現(xiàn)患有乳腺腫瘤,多數(shù)已經(jīng)開始轉移。由于患者的體質(zhì)不同,各項指標亦不相同,如何在患者進行新輔助化療之前預測到患者的化療療效,使能進行化療的患者得到最大的受益,就變得尤為重要。本文將依據(jù)患者隨訪記錄信息,通過數(shù)據(jù)挖掘技術,對患者化療療效進行預測,為乳腺癌患者的治療提供可靠的幫助。
1 研究現(xiàn)狀
伴隨著社會經(jīng)濟水平的逐漸提高,乳腺癌逐漸被人們重視起來,國內(nèi)外學者和醫(yī)療工作者對計算機輔助治療做了大量的研究工作,并取得了一定的研究成果。然而伴隨著研究人員對乳腺癌的深入鉆研,大量的研究數(shù)據(jù)不斷涌現(xiàn),臨床病例每一位患者都有著大量的檢測、治療和預后數(shù)據(jù)?;颊叩尼t(yī)療數(shù)據(jù)信息量很大,相互之間聯(lián)系復雜,想要提取有用的信息數(shù)據(jù),進而從信息中提取出有用的知識更是難上加難。目前我國人民思想比較傳統(tǒng),乳腺癌治療與預測相對落后,計算機醫(yī)療輔助治療遠遠不如發(fā)達國家,為此,需要進一步提升我國的醫(yī)療水平。
2 支持向量機原理
支持向量機是一個被大量使用的分類技術。其具有堅實的統(tǒng)計學理論基礎,在商業(yè)領域、經(jīng)濟領域以及醫(yī)療領域等具有很好的應用效果。支持向量機分為兩種模型,第一種是線性可分,第二種是線性不可分,第一種模型其實是第二種模型的特例[2]。
提高線性分類器的學習能力是通過核函數(shù)實現(xiàn)的。采用將數(shù)據(jù)映射高維空間的辦法,使線性不可分變?yōu)榭煞?。常用的核函?shù)有以下幾種:
?。?)線性核函數(shù)
在實際應用中,核函數(shù)的選擇尤為重要,對于同一數(shù)據(jù),不同的核函數(shù)所得到的分類準確率大不相同,所以核函數(shù)的優(yōu)選在支持向量機分類中顯得尤為重要。
3 應用實例
3.1 數(shù)據(jù)預處理
本文所用數(shù)據(jù)來源于吉林大學附屬醫(yī)院,該數(shù)據(jù)集是依據(jù)乳腺癌化療隨訪記錄表所獲,包含2009年~2013年所有數(shù)據(jù)。經(jīng)過與醫(yī)生的共同探討,從眾多數(shù)據(jù)中選取了245名患者隨訪記錄,其中180個是具有良好治療效果的記錄,65個是治療效果不理想的記錄。在新輔助化療治療下有良好效果的乳腺癌患者被定義為正樣本,在新輔助化療治療下效果不理想的患者,則定義為負樣本。所屬的分類標簽分別制定為+1和-1。每個樣本對應一個患者的醫(yī)療特征,其中每一維的特征都是根據(jù)有經(jīng)驗的醫(yī)生從中提取,是能夠表現(xiàn)出其病情的重要特征。
考慮到支持向量機處理的數(shù)據(jù)都是實數(shù),本文對非數(shù)值屬性進行了轉換。轉換后的數(shù)據(jù)同樣適用于本文將要對比的決策樹算法。比如患者特征中Echogenic Halo特征包含的特征值為3個,分別為Yes,No,Unknown,則對應的數(shù)值分別為1,2,3,但是為了防止較大數(shù)值獲得最大權重,采取了如下所示的編碼機制:
Yes(1,0,0)
No(0,1,0)
Unknown(0,0,1)
3.2 分類結果
為了使分類效果得到更好的評估,引入靈敏度(Sen)、特異度(Spe)和準確率(Q)來評價本文所使用分類器的性能,分別給出評價指標的公式如式(5)~式(7)[3]。
其中TP是指在工作集中實際是正樣本,預測結果為正樣本的數(shù)目;FN是指在工作集中實際是正樣本,預測結果為負樣本的數(shù)目;TN是指在工作集中實際是負樣本,預測結果為負樣本的數(shù)目;FP是在工作集中實際是負樣本,預測結果為正樣本的數(shù)目[4]。
本文中所使用的數(shù)據(jù)均來自醫(yī)院真實數(shù)據(jù),正負樣本不均衡,為了更好地評價分類器的性能,故而引入Matthews相關系數(shù)MCC。計算公式如下:
MCC的取值范圍在[-1,1]之間,取值越小說明該分類器性能越不好,反之則分類效果越好。
本文使用決策樹C4.5算法和支持向量機算法,并結合五次交叉驗證方法來進行乳腺癌新輔助化療預后狀態(tài)的預測。預測效果如表1所示。由表1得知,使用支持向量機比使用C4.5分類效果要好。本文還分別對比了支持向量機的三種核函數(shù),所體現(xiàn)的準確率均高于決策樹的73.47%。從中可以看出,對于本數(shù)據(jù)來說,支持向量機分類效果要明顯好于決策樹。據(jù)表中數(shù)據(jù)顯示,靈敏度明顯高于特異度,說明正樣本學習效果比負樣本學習效果要好。
本文分別對比了支持向量機的三種核函數(shù),對于本實驗中所使用的該乳腺癌患者數(shù)據(jù),其準確率均高于75%。支持向量機的最佳準確率為84.08%,是使用徑向基核函數(shù)得到的,明顯高于其他兩種。由此得知,對于同一數(shù)據(jù)集而言,核函數(shù)不一樣,其準確率也不一樣。想要得到高效的分類效果,必須選擇合適的核函數(shù)[5]。
本文所使用的數(shù)據(jù)集,數(shù)目有限,眾多數(shù)據(jù)中能夠起到支持向量的數(shù)據(jù)不夠充分。通過增加訓練數(shù)據(jù),可找到更多的支持向量,進而提高分類的準確率,所以本文所采用的支持向量機方法有望成為新輔助乳腺癌患者預后預測的有效工具。
4 結論
本文使用兩種分類算法,并對其結果進行了對比,從實驗結果中可以看到,支持向量機在處理乳腺癌新輔助化療預后狀態(tài)預測方面的分類效果好于決策樹分類效果。分別比較了支持向量機三種核函數(shù),從結果數(shù)據(jù)中可以看出,使用徑向基核函數(shù)可使分類器獲得最佳分類效果。所以在使用支持向量機進行分類的同時,選擇哪一種核函數(shù)是至關重要的。支持向量機應用于乳腺癌治療,會給乳腺癌患者帶來很大的幫助,使乳腺癌的治療越來越高效,降低死亡率,增加保乳機會,使患者早日脫離疾病的折磨,恢復健康。
參考文獻
[1] 臧丹丹,崔穎,師建國,等.中國西部地區(qū)乳腺癌診斷年齡的抽樣分析及中美對比研究[J].現(xiàn)代腫瘤醫(yī)學,2010,18(3):571-573.
[2] 王平,王文劍.基于時序核函數(shù)的支持向量回歸機[J].計算機輔助工程,2006,15(3):35-38.
[3] 袁前飛,蔡從中,肖漢光,等.基于支持向量機的乳腺癌預后狀態(tài)預測和療效評估[J].北京生物醫(yī)學工程,2007,26(4):372-376.
[4] 馬勝祥,馬建慶,楊明.基于核函數(shù)擬合的非平衡數(shù)據(jù)分類方法[J].計算機應用與軟件,2010,27(4):177-179.
[5] 崔炳德.支持向量機分類器遙感圖像分類研究[J].計算機工程與應用,2011,47(27):189-191.