《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 解決方案 > 一種屬性相關(guān)性的加權(quán)貝葉斯分類算法研究

一種屬性相關(guān)性的加權(quán)貝葉斯分類算法研究

2011-08-02
作者:鄭 默,劉瓊蓀
來源:來源:微型機與應(yīng)用2011年第7期

摘  要: 根據(jù)Rough Set屬性重要度理論,構(gòu)建了基于互信息的屬性子集重要度,提出屬性相關(guān)性的加權(quán)樸素貝葉斯分類算法,該算法同時放寬了樸素貝葉斯算法屬性獨立性、屬性重要性相同的假設(shè)。通過在UCI部分?jǐn)?shù)據(jù)集上進行仿真實驗,與基于屬性相關(guān)性分析的貝葉斯(CB)和加權(quán)樸素貝葉斯(WNB)兩種算法做比較,證明了該算法的有效性。
關(guān)鍵詞: 樸素貝葉斯;屬性重要度;屬性相關(guān);分類

 分類是數(shù)據(jù)挖掘中一類非常重要的問題,分類算法的核心是構(gòu)造能快速、有效處理大數(shù)據(jù)容量、高精確度的分類器。在眾多分類算法和理論中,樸素貝葉斯NB(Naive Bayes)由于計算高效、高精確度,并具有堅實的理論基礎(chǔ)而得到了廣泛應(yīng)用。NB分類基于一個簡單的假定:在給定分類特征條件下屬性值之間具有獨立性,且每個條件屬性對類變量(決策屬性)的重要度是相同的。然而,在實際問題中,這些假設(shè)往往不能滿足。為了保持NB的計算既簡單,又能提高其分類性能,參考文獻[1]提出了一種基于屬性相關(guān)性分析的貝葉斯分類模型CB(Correlated Bayes),放寬了屬性獨立性的假設(shè),當(dāng)屬性間存在相關(guān)性時較好地提高了分類性能,但是該模型假定每個屬性相對于決策屬性重要性相同,當(dāng)屬性相對于決策屬性的重要性不相同時,分類效果并沒有提高;參考文獻[2-4]中提出了根據(jù)屬性的重要性賦予屬性權(quán)值的加權(quán)樸素貝葉斯WNB(Weighted Naive Bayes)模型,允許屬性之間重要度不相同,較之NB模型獲得較好的分類效果,但該模型仍基于屬性類條件獨立假設(shè),當(dāng)屬性間存在相關(guān)性時分類效果并不好。綜上,上述方法均只側(cè)重改進NB方法的某單一假設(shè),并未同時放寬兩個假設(shè),現(xiàn)實中數(shù)據(jù)也常常不能同時滿足兩個假設(shè)。
 本文在CB模型和WNB模型的基礎(chǔ)上,以互信息作為度量條件屬性相對于決策屬性的重要度,提出了集合重要度的概念,并賦予各屬性子集權(quán)值,同時考慮屬性子集內(nèi)部屬性間的相關(guān)性,提出屬性相關(guān)性的加權(quán)貝葉斯分類算法(WCB),以達(dá)到提高NB的分類性能的目的。

 





2.3 WCB模型的構(gòu)造步驟
 (1)對訓(xùn)練樣本進行缺失處理和離散化處理。
 (2)分類器的構(gòu)造。
?、賿呙栌?xùn)練樣本集,統(tǒng)計訓(xùn)練集中,類別Ci的個數(shù)di和類Ci中屬性Ak取值為aik的實例個數(shù)dik,構(gòu)成統(tǒng)計表;
?、趯τ?xùn)練屬性集進行聚類,并由式(9)計算屬性子集Ej的權(quán)重wj;
 ③計算所有的先驗概率P(Ci)=di/d,由式(2)和式(11)計算條件概率P(Ej|Ci),形成概率表;
?、苁?2)中,選擇控制參數(shù)β∈[0,0.3],取步長h=0.01,選取訓(xùn)練效果最優(yōu)的β值構(gòu)建分類器;
 (3)分類,對于樣本X,調(diào)用概率表和構(gòu)建好的分類器,得出分類結(jié)果。
3 實驗分析
 為了驗證WCB算法的分類效果,本文選用UCI[6]機器學(xué)習(xí)庫中的8個數(shù)據(jù)集進行算法測試,以分類正確率作為算法優(yōu)劣的主要評價指標(biāo)。在相同的試驗環(huán)境下,利用MATLAB編程分別實現(xiàn)了WNB算法、CB算法和本文提出的WCB算法。數(shù)據(jù)集中連續(xù)屬性進行離散化處理。由于Letter-Recognition、kr-vs-kp和MushRoom數(shù)據(jù)集樣本容量或?qū)傩詡€數(shù)較多,一次測試需要較長時間,采用分割數(shù)據(jù)集的方法進行測試,取2/3的數(shù)據(jù)作為訓(xùn)練集,1/3數(shù)據(jù)作為測試集。其余數(shù)據(jù)集均采用10折交叉驗證,取10次的平均值作為實驗的測試結(jié)果。實驗結(jié)果如表1所示。

 仿真實驗表明,WCB算法在大部分?jǐn)?shù)據(jù)集上分類正確率高于CB算法和WNB算法,由于本文構(gòu)造的WCB算法兼顧了不同的屬性相關(guān)性和屬性重要性,更能反映真實情況,并克服了CB算法和WNB算法的不足。因為本算法既要調(diào)用屬性集合重要度子函數(shù),又要選取控制參數(shù)β,所以算法運行的時間比CB算法和WNB算法稍長。當(dāng)屬性子集重要度wj均為1時,WCB算法即為CB算法;當(dāng)向量相關(guān)度系數(shù)CorrEr均為1時,WCB算法則為WNB算法。因此,本文提出的算法不會比二者分類效果差。
 實驗都采用了UCI標(biāo)準(zhǔn)數(shù)據(jù)集,因此實驗結(jié)果具有一定的可比性。
 本文提出的WCB算法放寬了NB的兩個假設(shè),同時考慮屬性相關(guān)性和屬性重要性,進一步擴展了現(xiàn)有貝葉斯分類算法,有效地提高了分類效果。同時本文提出一種屬性集合重要度的計算方法,隨著屬性相關(guān)性和屬性重要度研究的發(fā)展,還可以使用其他度量屬性相關(guān)性或?qū)傩灾匾缘姆椒?,尋找分類效果更好的WCB算法是今后的研究方向。
參考文獻
[1] 章舜仲,王樹梅,黃河燕,等.基于屬性相關(guān)性分析的貝葉斯模型[J].情報學(xué)報,2007,24(2):58-65.
[2] HARRY Z, SHENG S L. Learning weighted naive bayes with accurate ranking[A]. Fourth IEEE International Conference on Data Mining (I CDMπ 04)[C]. Brighton, UK.2004:567-570.
[3] 鄧維斌,黃蜀江,周玉敏.基于條件信息熵的自主式樸素貝葉斯分類算法[J].計算機應(yīng)用,2007,27(4):888-891.
[4] 鄧維斌,王國胤,王燕.基于Rough Set的加權(quán)樸素貝葉斯分類算法[J].計算機科學(xué),2007,34(2):204-206.
[5] 曾黃麟.粗集理論及其應(yīng)用(修訂版)[M].重慶:重慶大學(xué)出版社,1998.
[6] NEWMAN D J, HETTICH S, BLAKE C L, et al. UCI repository of machine learning databases [EB/OL]. http://www.ics.uci.edu/mlearn/MLRepository. html, 1998.   

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。