《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 業(yè)界動(dòng)態(tài) > 一種基于屬性加權(quán)的代價(jià)敏感支持向量機(jī)算法

一種基于屬性加權(quán)的代價(jià)敏感支持向量機(jī)算法

2009-07-29
作者:戴元紅, 陳鴻昶, 胡海龍

??? 摘 要: 針對(duì)實(shí)際中存在的各類(lèi)別樣本錯(cuò)分造成不同危害程度的分類(lèi)問(wèn)題,提出了一種基于屬性加權(quán)的代價(jià)敏感支持向量機(jī)分類(lèi)算法,即在計(jì)算各個(gè)樣本特征屬性對(duì)分類(lèi)的重要度之后,對(duì)相應(yīng)的屬性進(jìn)行重要度加權(quán),所得的數(shù)據(jù)用于訓(xùn)練和測(cè)試代價(jià)敏感支持向量機(jī)。數(shù)值實(shí)驗(yàn)的結(jié)果表明,該方法提高了誤分代價(jià)高的類(lèi)別的分類(lèi)精度,同時(shí)屬性重要度的引入提高了分類(lèi)器的整體分類(lèi)性能。該方法對(duì)錯(cuò)分代價(jià)不對(duì)稱的數(shù)據(jù)分類(lèi)問(wèn)題具有重要的現(xiàn)實(shí)意義。
  關(guān)鍵詞: 屬性加權(quán); 支持向量機(jī); 代價(jià)敏感支持向量機(jī)

?

  SVM算法是一種專(zhuān)門(mén)研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論,它能夠解決漸進(jìn)理論所難于解決的過(guò)擬合、局部極小和泛化能力差等問(wèn)題。這一新的機(jī)器學(xué)習(xí)方法表現(xiàn)出很多優(yōu)于已有方法的性能,迅速引起各領(lǐng)域的關(guān)注和研究,并成功地引入到很多領(lǐng)域的應(yīng)用中,取得了大量的應(yīng)用研究成果。
  在SVM算法的研究中,提高它的分類(lèi)能力是所有研究的宗旨和目的,很多學(xué)者提出了改進(jìn)的支持向量機(jī)方法:給每一類(lèi)樣本賦以不同權(quán)值的加權(quán)支持向量機(jī)算法WSVM(Weighted SVM)[1-2],對(duì)類(lèi)別差異造成的影響進(jìn)行相應(yīng)的補(bǔ)償,提高了小類(lèi)別樣本的分類(lèi)精度,但影響了整體的分類(lèi)性能;將模糊學(xué)引入了支持向量機(jī),提出了模糊支持向量機(jī)算法FSVM(Fuzzy SVM)[3-4],減少野值和噪聲的影響;利用樣本的屬性重要度的支持向量機(jī)方法[5],給各個(gè)屬性設(shè)定相應(yīng)的權(quán)值,提高了分類(lèi)的精度。
  針對(duì)實(shí)際應(yīng)用中各類(lèi)別樣本錯(cuò)分所造成的不同程度危害,提出了代價(jià)敏感支持向量機(jī)算法[6],該方法對(duì)支持向量機(jī)算法進(jìn)行改進(jìn),將分類(lèi)代價(jià)考慮進(jìn)去,使得分類(lèi)結(jié)果的代價(jià)最小,該方法對(duì)錯(cuò)分代價(jià)不對(duì)稱的數(shù)據(jù)分類(lèi)問(wèn)題具有重要的現(xiàn)實(shí)意義,如網(wǎng)絡(luò)故障、網(wǎng)絡(luò)安全等。
1 支持向量機(jī)
  支持向量機(jī)的基本思想是對(duì)于給定的樣本集(xi,yi),xi∈Rn,yi∈{+1,-1},i=1,…,l,其中xi是n維空間中的向量,yi是xi所屬類(lèi)的類(lèi)別標(biāo)識(shí),尋找將兩類(lèi)數(shù)據(jù)正確分開(kāi)并使分類(lèi)間隔最大的超平面,該超平面稱為最優(yōu)超平面,分類(lèi)情況如圖1所示。

?


  為了尋找最優(yōu)超平面,需要求解下面的二次規(guī)劃問(wèn)題:


  ???????????????????????????
其中,i>+b=0為所要求解的超平面,w是超平面的法向量,b是超平面的偏移量,C是懲罰因子,(w,xi)表示w和xi的點(diǎn)集,為了較準(zhǔn)確地將兩類(lèi)數(shù)據(jù)分開(kāi),使用映射Φ:X→H將x從輸入空間X映射到一高維的特征空間H。為便于計(jì)算,選擇一個(gè)核函數(shù)k(xi,xj)=<Φ(xi),Φ(xj)>用于特征空間中點(diǎn)積的運(yùn)算。其Lagrange表達(dá)式為: 

    

  這是由Vapnik提出的第一種支持向量機(jī),也被稱為C-SVM或標(biāo)準(zhǔn)支持向量機(jī)。
2 代價(jià)敏感支持向量機(jī)
  考慮兩類(lèi)的分類(lèi)問(wèn)題,類(lèi)別分別為C+和C-,假定C+的錯(cuò)分代價(jià)大于C-的錯(cuò)分代價(jià)。為了解決分類(lèi)中的代價(jià)不對(duì)稱問(wèn)題,將分類(lèi)算法SVM進(jìn)行改造,基本思想就是對(duì)C+錯(cuò)分、C-錯(cuò)分兩種錯(cuò)誤分別引入不同的代價(jià)函數(shù)。這種方法等價(jià)于對(duì)誤分代價(jià)高的類(lèi)使用更大的拉格朗日算子αi,從而使分類(lèi)平面遠(yuǎn)離C+,而靠近C-,使得未知數(shù)據(jù)被劃分為C+的概率更大,從而減小了分類(lèi)中因錯(cuò)分引起的損失。
  在支持向量機(jī)(SVM)中,原始問(wèn)題為:
  

  在訓(xùn)練過(guò)程中使用C+>C-,得到的分類(lèi)器的決策平面靠近類(lèi)別C-,使測(cè)試樣本更多地落在C+的區(qū)域中,從而減小C+類(lèi)的樣本錯(cuò)分的可能性,但也加大了C-類(lèi)樣本被錯(cuò)分的可能性。因此需尋找合適的參數(shù),使得兩類(lèi)樣本的分類(lèi)結(jié)果都盡可能地達(dá)到最優(yōu)。設(shè)兩類(lèi)樣本的約束值的比值為:
  s=C+/C-
  s值通常使用窮舉的方法來(lái)確定,先固定C-的值為C,搜索最佳參數(shù)C+的值,使得分類(lèi)的錯(cuò)誤代價(jià)最小。
  代價(jià)敏感支持向量機(jī)的主要思想就是通過(guò)改變兩類(lèi)的懲罰因子C+和C-的比值,使得分類(lèi)面向遠(yuǎn)離錯(cuò)分代價(jià)高的一類(lèi)的方向移動(dòng),從而使得樣本更大可能地被分為這一類(lèi),降低分類(lèi)錯(cuò)誤代價(jià),但提高某一類(lèi)樣本的分類(lèi)正確率總是以犧牲另一類(lèi)的分類(lèi)正確率為代價(jià)的。
3 屬性的權(quán)值
  樣本屬性重要性的度量是屬性相關(guān)分析的主要內(nèi)容,在模糊集和粗糙集理論方面有許多的研究。這里介紹常用的基于信息熵的屬性權(quán)值的計(jì)算方法[6]。
  設(shè)有數(shù)據(jù)樣本集合S,該樣本集有m個(gè)不同的屬性值和n個(gè)不同的類(lèi)別,分別定義為Ai(i=1,…,m)和Cj(j=1,…,n),si為Ci中的樣本數(shù)。根據(jù)概率分布和聯(lián)合概率分布以及信息論中熵和條件熵的定義,對(duì)于一個(gè)給定的樣本分類(lèi)問(wèn)題所需的期望信息由下式給出:
  
  式中 pi是樣本屬于Cj的概率,其中 pi=si/s。
  設(shè)屬性A有v個(gè)不同值{a1,a2,…,av},屬性A可將樣本集S劃分為v個(gè)子集{s1,s2,…,sv},其中Sj為在屬性A上具有值ai,設(shè)sij為子集Sj中類(lèi)Ci的樣本數(shù)。根據(jù)A的這種劃分的期望信息為:
    

  式中pij=sij/|sj|,|sj|是sj中樣本屬于類(lèi)Ci的概率。
  在屬性A上該劃分獲得的信息增益為:
  δ=H(C)-E(A)
  根據(jù)上面的計(jì)算得到每個(gè)屬性的權(quán)重系數(shù)為:
  
  從分析中知道,該權(quán)重系數(shù)反應(yīng)了樣本中各個(gè)屬性的重要程度,權(quán)重系數(shù)值越大則該屬性越重要,對(duì)分類(lèi)的貢獻(xiàn)越大。
在確定了樣本屬性重要度后,就可以構(gòu)造基于樣本屬性重要度的代價(jià)敏感支持向量機(jī)。
4 實(shí)驗(yàn)結(jié)果
  本文利用MATLAB軟件進(jìn)行模擬實(shí)驗(yàn),對(duì)+1類(lèi)和-1類(lèi)的分類(lèi)性能進(jìn)行比較,在三維空間中引入兩類(lèi)不同的樣本:正類(lèi)和負(fù)類(lèi),并引入了一定數(shù)量的噪聲和野值數(shù)據(jù)。為了驗(yàn)證所提算法的有效性,利用所提算法進(jìn)行了一系列比較實(shí)驗(yàn)。在實(shí)驗(yàn)中,模擬用的訓(xùn)練樣本和測(cè)試樣本均隨機(jī)產(chǎn)生,樣本數(shù)據(jù)情況如表1所示。


  在實(shí)驗(yàn)中考慮正類(lèi)的錯(cuò)分代價(jià)大于負(fù)類(lèi)的錯(cuò)分代價(jià),分別用C-SVM、Cost-sensitive SVM和屬性加權(quán)的Cost-sensitive SVM進(jìn)行性能測(cè)試,表2所示為分類(lèi)準(zhǔn)確率的比較。由表2可見(jiàn)代價(jià)敏感支持向量機(jī)分類(lèi)算法提高了錯(cuò)分代價(jià)高的類(lèi)別的分類(lèi)精度,在進(jìn)行屬性加權(quán)后,總體的分類(lèi)精度也得到了提高。


  本文在對(duì)支持向量機(jī)分析的基礎(chǔ)上,提出了對(duì)樣本屬性加權(quán)型的代價(jià)敏感加權(quán)支持向量機(jī)。數(shù)值實(shí)驗(yàn)的結(jié)果表明,該方法能夠提高錯(cuò)分代價(jià)敏感的類(lèi)別的分類(lèi)精度,同時(shí)整體的分類(lèi)性能也得到了提高。但是如何確定代價(jià)系數(shù)仍然是一個(gè)需要解決的問(wèn)題,也是筆者下一步要研究的方向。


參考文獻(xiàn)
[1]?范昕煒,杜樹(shù)新,吳鐵軍.可補(bǔ)償類(lèi)別差異的加權(quán)支持向量機(jī)算法[J].中國(guó)圖像圖形學(xué)報(bào),2003,8(7):1037-1042.
[2]?賈銀山,賈傳熒. 一種加權(quán)支持向量機(jī)分類(lèi)算法[J].計(jì)算機(jī)工程,2005,10(5):35-39.
[3]?LIN C F, WANG S D. Fuzzy support vector machine [J].?IEEE Trans. On Neural Networks, 2002, 13(2):464-471.
[4]?陳小娟, 劉三陽(yáng). 一種新的模糊支持向量機(jī)算法[J].西安文理學(xué)院學(xué)報(bào):自然科學(xué)版,2008,11(1):1-4.
[5]?汪延華,田盛豐. 樣本屬性重要度的支持向量機(jī)方法[J]. 北京交通大學(xué)學(xué)報(bào),2007,10(5):43-46.
[6]?趙靖.基于SVM算法的垃圾郵件過(guò)濾研究與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2005.

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。