123,123

决策树ID3算法研究及其优化

来源:微型机与应用2010年第21期

武献宇1，王建芬2，谢金龙1

(1.湖南现代物流职业技术学院，湖南长沙 410131；2.长沙医学院，湖南长沙 410131)

摘要： 重点研究了经典的、具有较大影响力的决策树分类算法——ID3算法，并对其性能优劣作了比较分析。就ID3算法两个较为明显的缺陷进行了探讨，提出了优化算法。

關(guān)鍵詞： 数据挖掘分类决策树信息增益

Abstract：

Key words :

摘要： 重點(diǎn)研究了經(jīng)典的、具有較大影響力的決策樹(shù)分類(lèi)算法——ID3算法，并對(duì)其性能優(yōu)劣作了比較分析。就ID3算法兩個(gè)較為明顯的缺陷進(jìn)行了探討，提出了優(yōu)化算法。
關(guān)鍵詞： 數(shù)據(jù)挖掘；分類(lèi)；決策樹(shù)；信息增益

分類(lèi)是一種非常重要的數(shù)據(jù)挖掘方法，也是數(shù)據(jù)挖掘領(lǐng)域中被廣泛研究的課題。決策樹(shù)分類(lèi)方法是一種重要的分類(lèi)方法，它是以信息論為基礎(chǔ)對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的一種數(shù)據(jù)挖掘方法。決策樹(shù)生成后成為一個(gè)類(lèi)似流程圖的樹(shù)形結(jié)構(gòu)，其中樹(shù)的每個(gè)內(nèi)部結(jié)點(diǎn)代表一個(gè)屬性的測(cè)試，分枝代表測(cè)試結(jié)果，葉結(jié)點(diǎn)則代表一個(gè)類(lèi)或類(lèi)的分布，最終可生成一組規(guī)則。相對(duì)其他數(shù)據(jù)挖掘方法而言，決策樹(shù)分類(lèi)方法因簡(jiǎn)單、直觀(guān)、準(zhǔn)確率高且應(yīng)用價(jià)值高等優(yōu)點(diǎn)在數(shù)據(jù)挖掘及數(shù)據(jù)分析中得到了廣泛應(yīng)用。
1 決策樹(shù)分類(lèi)過(guò)程
決策樹(shù)的分類(lèi)過(guò)程也就是決策樹(shù)分類(lèi)模型(簡(jiǎn)稱(chēng)決策樹(shù))的生成過(guò)程，如圖1所示。從圖中可知決策樹(shù)分類(lèi)的建立過(guò)程與用決策樹(shù)分類(lèi)模型進(jìn)行預(yù)測(cè)的過(guò)程實(shí)際上是一種歸納-演繹過(guò)程。其中，由已分類(lèi)數(shù)據(jù)得到?jīng)Q策樹(shù)分類(lèi)模型的過(guò)程稱(chēng)歸納過(guò)程，用決策樹(shù)分類(lèi)模型對(duì)未分類(lèi)數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程稱(chēng)為演繹過(guò)程。需要強(qiáng)調(diào)的是：由訓(xùn)練集得到分類(lèi)模型必須經(jīng)過(guò)測(cè)試集測(cè)試達(dá)到一定要求才能用于預(yù)測(cè)。

    信息增益是不確定性的消除，也就是接收端所獲得的信息量。
2.2 ID3算法多值偏向性分析
    首先，設(shè)A是某訓(xùn)練樣本集的一個(gè)屬性，它的取值為A1，A2，…，An，創(chuàng)建另外一個(gè)新屬性A′，它與屬性A唯一的區(qū)別：其中一個(gè)已知值A(chǔ)n分解為兩個(gè)值A(chǔ)′n和A′n+1，其余值和A中的完全一樣，假設(shè)原來(lái)n個(gè)值已經(jīng)提供足夠的信息使分類(lèi)正確進(jìn)行，很明顯，則屬性A′相對(duì)于A(yíng)沒(méi)有任何作用。但如果按照Qulnina的標(biāo)準(zhǔn)，屬性A′應(yīng)當(dāng)優(yōu)先于屬性A選取。
    綜上所知，把ID3算法分別作用在屬性A和屬性A′上，如果屬性選取標(biāo)準(zhǔn)在屬性A′上的取值恒大于在屬性A上的取值，則說(shuō)明該算法在建樹(shù)過(guò)程中具有多值偏向；如果屬性選取標(biāo)準(zhǔn)在屬性A′上的取值與在屬性A上的取值沒(méi)有確定的大小關(guān)系，則說(shuō)明該決策樹(shù)算法在建樹(shù)過(guò)程中不具有多值偏向性。
2.3 ID3算法的缺點(diǎn)
    (1)ID3算法往往偏向于選擇取值較多的屬性，而在很多情況下取值較多的屬性并不總是最重要的屬性，即按照使熵值最小的原則被ID3算法列為應(yīng)該首先判斷的屬性在現(xiàn)實(shí)情況中卻并不一定非常重要。例如:在銀行客戶(hù)分析中，姓名屬性取值多，卻不能從中得到任何信息。
    (2)ID3算法不能處理具有連續(xù)值的屬性，也不能處理具有缺失數(shù)據(jù)的屬性。
    (3)用互信息作為選擇屬性的標(biāo)準(zhǔn)存在一個(gè)假設(shè)，即訓(xùn)練子集中的正、反例的比例應(yīng)與實(shí)際問(wèn)題領(lǐng)域中正、反例的比例一致。一般情況很難保證這兩者的比例一致，這樣計(jì)算訓(xùn)練集的互信息就會(huì)存在偏差。
    (4)在建造決策樹(shù)時(shí)，每個(gè)結(jié)點(diǎn)僅含一個(gè)屬性，是一種單變?cè)乃惴?，致使生成的決策樹(shù)結(jié)點(diǎn)之間的相關(guān)性不夠強(qiáng)。雖然在一棵樹(shù)上連在一起，但聯(lián)系還是松散的。
    (5)ID3算法雖然理論清晰，但計(jì)算比較復(fù)雜，在學(xué)習(xí)和訓(xùn)練數(shù)據(jù)集的過(guò)程中機(jī)器內(nèi)存占用率比較大，耗費(fèi)資源。
    決策樹(shù)ID3算法是一個(gè)很有實(shí)用價(jià)值的示例學(xué)習(xí)算法，它的基礎(chǔ)理論清晰，算法比較簡(jiǎn)單，學(xué)習(xí)能力較強(qiáng)，適于處理大規(guī)模的學(xué)習(xí)問(wèn)題，是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域中的一個(gè)很好的范例，為后來(lái)各學(xué)者提出優(yōu)化算法奠定了理論基礎(chǔ)。表1是一個(gè)經(jīng)典的訓(xùn)練集。
     由ID3算法遞歸建樹(shù)得到一棵決策樹(shù)如圖2所示。

3 ID3算法優(yōu)化的探討
    ID3算法在選擇分裂屬性時(shí)，往往偏向于選擇取值較多的屬性，然而在很多情況下取值較多的屬性并不總是最重要的屬性，這會(huì)造成生成的決策樹(shù)的預(yù)測(cè)結(jié)果與實(shí)際偏離較大，針對(duì)這一弊端，本文提出以下改進(jìn)思路：
    (1)引入分支信息熵的概念。對(duì)于所有屬性，任取屬性Ａ，計(jì)算Ａ屬性的各分支子集的信息熵，在每個(gè)分支子集中找出最小信息熵，并計(jì)算其和，比較大小，選擇其最小值作為待選擇的最優(yōu)屬性。
    (2)引入屬性?xún)?yōu)先的概念。不同的屬性對(duì)于分類(lèi)或決策有著不同的重要程度，這種重要程度可在輔助知識(shí)的基礎(chǔ)上事先加以假設(shè)，給每個(gè)屬性都賦予一個(gè)權(quán)值，其大小為(0，1)中的某個(gè)值。通過(guò)屬性?xún)?yōu)先法，降低非重要屬性的標(biāo)注，提高重要屬性的標(biāo)注。
4 實(shí)例分析
    仍以表1為例，分別計(jì)算其H(A)的值。在此通過(guò)反復(fù)測(cè)試，天氣的屬性?xún)?yōu)先權(quán)值為0.95，風(fēng)的屬性?xún)?yōu)先權(quán)值為0.35，其余兩個(gè)的屬性?xún)?yōu)先權(quán)值都為0。

(1)確定根結(jié)點(diǎn)
選取天氣屬性作為測(cè)試屬性，天氣為多云時(shí)，信息熵為：

根據(jù)算法步驟(6)，選擇值H(A)為最小的作為候選屬性，所以此時(shí)應(yīng)選擇濕度作為根結(jié)點(diǎn)。在24個(gè)訓(xùn)練集中對(duì)濕度的2個(gè)取值進(jìn)行分枝，2個(gè)分枝對(duì)應(yīng)2個(gè)子集，分別為：

    通過(guò)比較ID3算法和本文所提出的組合優(yōu)化算法所生成的決策樹(shù)可知，組合優(yōu)化算法的改進(jìn)為：
    (1)從本實(shí)例所生成的決策樹(shù)的形態(tài)來(lái)看，改進(jìn)后的算法生成的是一棵二叉樹(shù)，而ID3算法生成的是多叉樹(shù)，簡(jiǎn)化了決策問(wèn)題處理的復(fù)雜度。
    (2)引入了分支信息熵和屬性?xún)?yōu)先的概念，用條件熵、分支信息熵與屬性?xún)?yōu)先三者相結(jié)合來(lái)選擇分裂屬性。從本實(shí)例來(lái)看，根結(jié)點(diǎn)選擇濕度而未選擇屬性值最多的天氣，所以本優(yōu)化算法確實(shí)能克服傳統(tǒng)ID3算法的多值偏向性。
參考文獻(xiàn)
[1] 安淑芝.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京：清華大學(xué)出版社，2005：104-107.
[2] 史忠植.知識(shí)發(fā)現(xiàn)[M].北京：清華大學(xué)出版社，2002：23-37.
[3] 徐潔磐.數(shù)據(jù)倉(cāng)庫(kù)與決策支持系統(tǒng)[M].北京：科學(xué)出版社，2005：77-86.
[4] 路紅梅.基于決策樹(shù)的經(jīng)典算法綜述[J].宿州學(xué)院學(xué)報(bào)，2007(4)：91-95.
[5] 韓慧.數(shù)據(jù)挖掘中決策樹(shù)算法的最新進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究，2004(12)：5-8.
[6] KANTARDZIC M. Data mining concepts， models， methods， and algorithms[M]. 北京：清華大學(xué)出版社，2003：120-136.
[7] OLARU C， WEHENKEL L. A complete fuzzy decision tree technique[J]. Fuzzy Sets and Systems， 2003，138(2)：221-254.
[8] AITKENHEAD M J. Aco-evolving decision tree classification method[J]. Expert System with Application， 2008(34)：18-25.
[9] Norio Takeoka. Subjective probability over a subjective decision tree[J]. Journal of Economic Theory， 2007(136):536-571.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容