123,123

一种属性相关性的加权贝叶斯分类算法研究

日期： 2011-08-02

作者：郑默，刘琼荪

來(lái)源：来源：微型机与应用2011年第7期

關(guān)鍵詞： 软件朴素贝叶斯属性重要度属性相关分类

摘要： 根據(jù)Rough Set屬性重要度理論，構(gòu)建了基于互信息的屬性子集重要度，提出屬性相關(guān)性的加權(quán)樸素貝葉斯分類算法，該算法同時(shí)放寬了樸素貝葉斯算法屬性獨(dú)立性、屬性重要性相同的假設(shè)。通過(guò)在UCI部分?jǐn)?shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn)，與基于屬性相關(guān)性分析的貝葉斯(CB)和加權(quán)樸素貝葉斯(WNB)兩種算法做比較，證明了該算法的有效性。
關(guān)鍵詞： 樸素貝葉斯；屬性重要度；屬性相關(guān)；分類

　分類是數(shù)據(jù)挖掘中一類非常重要的問(wèn)題，分類算法的核心是構(gòu)造能快速、有效處理大數(shù)據(jù)容量、高精確度的分類器。在眾多分類算法和理論中，樸素貝葉斯NB(Naive Bayes)由于計(jì)算高效、高精確度，并具有堅(jiān)實(shí)的理論基礎(chǔ)而得到了廣泛應(yīng)用。NB分類基于一個(gè)簡(jiǎn)單的假定：在給定分類特征條件下屬性值之間具有獨(dú)立性，且每個(gè)條件屬性對(duì)類變量(決策屬性)的重要度是相同的。然而，在實(shí)際問(wèn)題中，這些假設(shè)往往不能滿足。為了保持NB的計(jì)算既簡(jiǎn)單，又能提高其分類性能，參考文獻(xiàn)[1]提出了一種基于屬性相關(guān)性分析的貝葉斯分類模型CB(Correlated Bayes)，放寬了屬性獨(dú)立性的假設(shè)，當(dāng)屬性間存在相關(guān)性時(shí)較好地提高了分類性能，但是該模型假定每個(gè)屬性相對(duì)于決策屬性重要性相同，當(dāng)屬性相對(duì)于決策屬性的重要性不相同時(shí)，分類效果并沒(méi)有提高；參考文獻(xiàn)[2-4]中提出了根據(jù)屬性的重要性賦予屬性權(quán)值的加權(quán)樸素貝葉斯WNB(Weighted Naive Bayes)模型，允許屬性之間重要度不相同，較之NB模型獲得較好的分類效果，但該模型仍基于屬性類條件獨(dú)立假設(shè)，當(dāng)屬性間存在相關(guān)性時(shí)分類效果并不好。綜上，上述方法均只側(cè)重改進(jìn)NB方法的某單一假設(shè)，并未同時(shí)放寬兩個(gè)假設(shè)，現(xiàn)實(shí)中數(shù)據(jù)也常常不能同時(shí)滿足兩個(gè)假設(shè)。
　本文在CB模型和WNB模型的基礎(chǔ)上，以互信息作為度量條件屬性相對(duì)于決策屬性的重要度，提出了集合重要度的概念，并賦予各屬性子集權(quán)值，同時(shí)考慮屬性子集內(nèi)部屬性間的相關(guān)性，提出屬性相關(guān)性的加權(quán)貝葉斯分類算法(WCB)，以達(dá)到提高NB的分類性能的目的。

2.3 WCB模型的構(gòu)造步驟
　(1)對(duì)訓(xùn)練樣本進(jìn)行缺失處理和離散化處理。
　(2)分類器的構(gòu)造。
?、賿呙栌?xùn)練樣本集，統(tǒng)計(jì)訓(xùn)練集中，類別Ci的個(gè)數(shù)di和類Ci中屬性Ak取值為aik的實(shí)例個(gè)數(shù)dik，構(gòu)成統(tǒng)計(jì)表；
?、趯?duì)訓(xùn)練屬性集進(jìn)行聚類，并由式(9)計(jì)算屬性子集Ej的權(quán)重wj；
　③計(jì)算所有的先驗(yàn)概率P(Ci)=di/d，由式(2)和式(11)計(jì)算條件概率P(Ej|Ci)，形成概率表；
　④式(2)中，選擇控制參數(shù)β∈[0，0.3]，取步長(zhǎng)h=0.01，選取訓(xùn)練效果最優(yōu)的β值構(gòu)建分類器；
　(3)分類，對(duì)于樣本X，調(diào)用概率表和構(gòu)建好的分類器，得出分類結(jié)果。
3 實(shí)驗(yàn)分析
　為了驗(yàn)證WCB算法的分類效果，本文選用UCI[6]機(jī)器學(xué)習(xí)庫(kù)中的8個(gè)數(shù)據(jù)集進(jìn)行算法測(cè)試，以分類正確率作為算法優(yōu)劣的主要評(píng)價(jià)指標(biāo)。在相同的試驗(yàn)環(huán)境下，利用MATLAB編程分別實(shí)現(xiàn)了WNB算法、CB算法和本文提出的WCB算法。數(shù)據(jù)集中連續(xù)屬性進(jìn)行離散化處理。由于Letter-Recognition、kr-vs-kp和MushRoom數(shù)據(jù)集樣本容量或?qū)傩詡€(gè)數(shù)較多，一次測(cè)試需要較長(zhǎng)時(shí)間，采用分割數(shù)據(jù)集的方法進(jìn)行測(cè)試，取2/3的數(shù)據(jù)作為訓(xùn)練集，1/3數(shù)據(jù)作為測(cè)試集。其余數(shù)據(jù)集均采用10折交叉驗(yàn)證，取10次的平均值作為實(shí)驗(yàn)的測(cè)試結(jié)果。實(shí)驗(yàn)結(jié)果如表1所示。

　仿真實(shí)驗(yàn)表明，WCB算法在大部分?jǐn)?shù)據(jù)集上分類正確率高于CB算法和WNB算法，由于本文構(gòu)造的WCB算法兼顧了不同的屬性相關(guān)性和屬性重要性，更能反映真實(shí)情況，并克服了CB算法和WNB算法的不足。因?yàn)楸舅惴纫{(diào)用屬性集合重要度子函數(shù)，又要選取控制參數(shù)β，所以算法運(yùn)行的時(shí)間比CB算法和WNB算法稍長(zhǎng)。當(dāng)屬性子集重要度wj均為1時(shí)，WCB算法即為CB算法；當(dāng)向量相關(guān)度系數(shù)Corr_Er均為1時(shí)，WCB算法則為WNB算法。因此，本文提出的算法不會(huì)比二者分類效果差。
　實(shí)驗(yàn)都采用了UCI標(biāo)準(zhǔn)數(shù)據(jù)集，因此實(shí)驗(yàn)結(jié)果具有一定的可比性。
　本文提出的WCB算法放寬了NB的兩個(gè)假設(shè)，同時(shí)考慮屬性相關(guān)性和屬性重要性，進(jìn)一步擴(kuò)展了現(xiàn)有貝葉斯分類算法，有效地提高了分類效果。同時(shí)本文提出一種屬性集合重要度的計(jì)算方法，隨著屬性相關(guān)性和屬性重要度研究的發(fā)展，還可以使用其他度量屬性相關(guān)性或?qū)傩灾匾缘姆椒?，尋找分類效果更好的WCB算法是今后的研究方向。
參考文獻(xiàn)
[1] 章舜仲，王樹(shù)梅，黃河燕，等.基于屬性相關(guān)性分析的貝葉斯模型[J].情報(bào)學(xué)報(bào)，2007，24(2)：58-65.
[2] HARRY Z， SHENG S L. Learning weighted naive bayes with accurate ranking[A]. Fourth IEEE International Conference on Data Mining (I CDMπ 04)[C]. Brighton， UK.2004：567-570.
[3] 鄧維斌，黃蜀江，周玉敏.基于條件信息熵的自主式樸素貝葉斯分類算法[J].計(jì)算機(jī)應(yīng)用，2007，27(4)：888-891.
[4] 鄧維斌，王國(guó)胤，王燕.基于Rough Set的加權(quán)樸素貝葉斯分類算法[J].計(jì)算機(jī)科學(xué)，2007，34(2)：204-206.
[5] 曾黃麟.粗集理論及其應(yīng)用(修訂版)[M].重慶：重慶大學(xué)出版社，1998.
[6] NEWMAN D J， HETTICH S， BLAKE C L， et al. UCI repository of machine learning databases [EB/OL]. http：//www.ics.uci.edu/mlearn/MLRepository. html， 1998.

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

一种属性相关性的加权贝叶斯分类算法研究

日期： 2011-08-02

作者：郑 默，刘琼荪

來(lái)源：来源：微型机与应用2011年第7期

相關(guān)內(nèi)容

作者：郑默，刘琼荪