《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計應(yīng)用 > 一種改進(jìn)的少數(shù)類樣本識別方法
一種改進(jìn)的少數(shù)類樣本識別方法
來源:微型機(jī)與應(yīng)用2012年第18期
董 璇,蔡立軍
(西北工業(yè)大學(xué) 理學(xué)院,陜西 西安710129)
摘要: 非均衡數(shù)據(jù)集的分類過程中,產(chǎn)生了向多數(shù)類偏斜、少數(shù)類識別率較低的問題。為了提高少數(shù)類的分類精度,提出了一種S-SMO-Boost方法。該方法基于Adaboost提升算法迭代過程中錯分少數(shù)類樣本,構(gòu)造虛擬樣本,以加強(qiáng)對易錯分樣本的訓(xùn)練;其中構(gòu)造樣本利用空間插值方法,即在錯分少數(shù)類樣本周圍構(gòu)造超幾何體,在該超幾何體內(nèi)部空間隨機(jī)插值產(chǎn)生有效虛擬樣本。在實(shí)際數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,S-SMO-Boost方法提高了非均衡數(shù)據(jù)集的分類性能。
Abstract:
Key words :

摘  要: 非均衡數(shù)據(jù)集的分類過程中,產(chǎn)生了向多數(shù)類偏斜、少數(shù)類識別率較低的問題。為了提高少數(shù)類的分類精度,提出了一種S-SMO-Boost方法。該方法基于Adaboost提升算法迭代過程中錯分少數(shù)類樣本,構(gòu)造虛擬樣本,以加強(qiáng)對易錯分樣本的訓(xùn)練;其中構(gòu)造樣本利用空間插值方法,即在錯分少數(shù)類樣本周圍構(gòu)造超幾何體,在該超幾何體內(nèi)部空間隨機(jī)插值產(chǎn)生有效虛擬樣本。在實(shí)際數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,S-SMO-Boost方法提高了非均衡數(shù)據(jù)集的分類性能。
關(guān)鍵詞: 非均衡數(shù)據(jù)集;超幾何體;樣本生成;提升算法

    非均衡數(shù)據(jù)集的分類問題是模式識別和機(jī)器學(xué)習(xí)的研究熱點(diǎn)。所謂非均衡數(shù)據(jù)集是指數(shù)據(jù)集合中,某些類的數(shù)據(jù)樣本較多,而其他類數(shù)據(jù)樣本較少[1]。樣本較少的為少數(shù)類,樣本較多的為多數(shù)類。非均衡數(shù)據(jù)集分類問題可應(yīng)用于風(fēng)險管理、網(wǎng)絡(luò)入侵檢測、銀行預(yù)測、醫(yī)療診斷等領(lǐng)域。例如,醫(yī)生疾病診斷中錯將癌癥病人診斷為正常人,損失會很大。這種情況下少數(shù)類樣本卻是人們更加關(guān)注的。針對該特點(diǎn),傳統(tǒng)的分類算法不再適用,有必要尋求好的分類方法使其在類別不均衡條件下,提高對少數(shù)類的識別率。
    目前,解決非均衡數(shù)據(jù)集分類問題主要通過兩種途徑:算法層面方法和數(shù)據(jù)層面方法。算法層面方法主要是對已有分類算法進(jìn)行改進(jìn)或提出新的算法,如李亞軍等[2]提出的改進(jìn)的Adaboost算法與SVM的組合分類器。數(shù)據(jù)層面的解決辦法有欠抽樣方法,隨機(jī)去掉部分多數(shù)類樣本使不同類別樣本數(shù)量均衡,此方法缺點(diǎn)是丟失了多數(shù)類的一些重要信息,造成分類性能降低。改進(jìn)的欠抽樣方法有托梅克聯(lián)系對(Tomek Link)[3]方法、壓縮最近鄰法(CNN)[4]。簡單的過抽樣方法隨機(jī)復(fù)制少數(shù)類樣本的缺點(diǎn)是易導(dǎo)致過學(xué)習(xí)。Chawla 等[5]提出了SMOTE(Synthetic Minority Over-sampling Technique)方法,人工合成少數(shù)類樣本,但是生成樣本范圍受到極大限制。本文提出了S-SMO-Boost方法,利用Adaboost提升算法,每次迭代不僅僅增大錯分樣本權(quán)值,還從迭代過程中抽取錯分少數(shù)類樣本,并對該部分樣本進(jìn)行過抽樣,過抽樣過程采用SMOTE的改進(jìn)方法——空間插值法,增強(qiáng)對錯分少數(shù)類樣本的訓(xùn)練,以訓(xùn)練出一個強(qiáng)分類器,提高分類性能。



    空間插值法的基本思想如下:
    (1)對少數(shù)類樣本pi,利用歐式空間距離公式求其k(k=5)近鄰。
    (2)利用該少數(shù)類及其k近鄰構(gòu)造超幾何體(三維空間中為四面體),在該超幾何體內(nèi)隨機(jī)插值,產(chǎn)生虛擬少數(shù)類樣本,相比SMOTE方法,生成樣本范圍變大。對于存在多數(shù)類近鄰的少數(shù)類,更容易被錯分,故在分類過程中貢獻(xiàn)較大,因此構(gòu)造部分邊界虛擬少數(shù)類樣本。圖3表示利用空間插值法在超幾何體內(nèi)隨機(jī)產(chǎn)生虛擬少數(shù)類樣本。

 



其中,TP與TN分別表示正確分類的少數(shù)類與多數(shù)類數(shù)量,F(xiàn)P與FN分別表示錯分為少數(shù)類與多數(shù)類的樣本數(shù)量。G-mean值中TP/(TP+TN)指少數(shù)類精確度,TN/(TN+FP)指多數(shù)類精確度,只有兩者的值都大時,幾何均值才會大,因此幾何均值能合理地評價非均衡數(shù)據(jù)集的整體分類性能。F-value值中Recall=TP/(TP+FN)與Precision=TP/(TP+FP)分別表示少數(shù)類查全率和查準(zhǔn)率,兩者值都大時F-value值才會大,因此F-value值能正確反映少數(shù)類的分類性能。
    圖5表示分別用四種方法對4個數(shù)據(jù)集分類時得到的少數(shù)類F-value值。同種方法得到的F-value值點(diǎn)用線連起可清晰顯示,利用S-SMO-Boost方法得到的F-value值相比其他方法均有一定程度的提高。

    表2對不同方法,分別比較了4個數(shù)據(jù)集的G-mean值,由實(shí)驗(yàn)結(jié)果可知,直接用J48進(jìn)行分類得到的值最小,因?yàn)閿?shù)據(jù)集嚴(yán)重不均衡。相比SMOTE方法,S-SMOTE在少數(shù)類鄰域空間內(nèi)插值產(chǎn)生有效虛擬樣本,并加強(qiáng)靠近邊界少數(shù)類樣本的訓(xùn)練,故分類性能相對較好。S-SMO-Boost將空間插值法融入提升算法,在迭代過程中利用錯分樣本產(chǎn)生虛擬樣本,增強(qiáng)對錯分少數(shù)類樣本的訓(xùn)練,且增大錯分樣本的權(quán)值,加大迭代中作訓(xùn)練集的概率,并將弱分類器組合成強(qiáng)分類器。由表2知,用S-SMO-Boost方法得到的G-mean值最大,提高了非均衡數(shù)據(jù)集的整體分類性能。
    為了解決非均衡數(shù)據(jù)集中少數(shù)類識別率較低的問題,本文提出了S-SMO-Boost 方法,利用空間插值方法,產(chǎn)生有效虛擬樣本,并將其與提升算法融合,加強(qiáng)對錯分少數(shù)類樣本的訓(xùn)練。經(jīng)實(shí)驗(yàn)驗(yàn)證,該方法提高了少數(shù)類識別率和數(shù)據(jù)集整體分類性能。
參考文獻(xiàn)
[1] WEISS G.Mining with rarity:an unifying framework[J].Sigkdd Explorations,2004,6(7):7-19.
[2] 李亞軍,劉曉霞,陳平.改進(jìn)的AdaBoost算法與SVM的組合分類器[J].計算機(jī)工程與應(yīng)用,2008,44(32):140-142.
[3] TOMEK I.Two modi-cations of CNN[J].IEEE Transactions on Systems Man and Communications,1976,SMC-6:769-772.
[4] MANNILA,LIU,MOTODA.Adavances in instance selection for instance-based leaning algorithms[J].Data Mining and Knowledge Discovery,2002(6):153-172.
[5] CHAWLA N,BOWYER K,HALL L,et al.SMOTE:synthetic minority over-sampling echnique[J].Journal of Artificial Intelligence Research,2002(16):321-357.
[6] BLAKE C,MERZ C.UCI repository of machine learning databases[DB/OL].1998.http://archive.ics.uci.edu/ml/.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。