《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于C5.0決策樹算法的考試結(jié)果預(yù)測研究
基于C5.0決策樹算法的考試結(jié)果預(yù)測研究
潘峰
(國家稅務(wù)總局稅務(wù)干部進(jìn)修學(xué)院,江蘇 揚(yáng)州 225007)
摘要: 隨著終身學(xué)習(xí)體系的逐步構(gòu)建,基于互聯(lián)網(wǎng)的遠(yuǎn)程學(xué)習(xí)模式應(yīng)用不斷普及,各種網(wǎng)絡(luò)學(xué)習(xí)平臺也不斷累積大量的學(xué)員學(xué)習(xí)和考試方面的數(shù)據(jù)。采用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進(jìn)行分析,可以充分挖掘網(wǎng)絡(luò)學(xué)習(xí)平臺存量數(shù)據(jù)的價(jià)值?;贑5.0決策樹算法,采用軟件工具對研究數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)了影響考試結(jié)果的諸多因素及其重要性,可以針對如何改善學(xué)習(xí)方法、提升學(xué)習(xí)效果、改善平臺的服務(wù)模式等提出很好的改進(jìn)建議。
Abstract:
Key words :

  潘峰

 ?。▏叶悇?wù)總局稅務(wù)干部進(jìn)修學(xué)院,江蘇 揚(yáng)州 225007)

  摘要:隨著終身學(xué)習(xí)體系的逐步構(gòu)建,基于互聯(lián)網(wǎng)的遠(yuǎn)程學(xué)習(xí)模式應(yīng)用不斷普及,各種網(wǎng)絡(luò)學(xué)習(xí)平臺也不斷累積大量的學(xué)員學(xué)習(xí)和考試方面的數(shù)據(jù)。采用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進(jìn)行分析,可以充分挖掘網(wǎng)絡(luò)學(xué)習(xí)平臺存量數(shù)據(jù)的價(jià)值?;贑5.0決策樹算法,采用軟件工具對研究數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)了影響考試結(jié)果的諸多因素及其重要性,可以針對如何改善學(xué)習(xí)方法、提升學(xué)習(xí)效果、改善平臺的服務(wù)模式等提出很好的改進(jìn)建議。

  關(guān)鍵詞:決策樹;考試結(jié)果;預(yù)測

1網(wǎng)絡(luò)學(xué)習(xí)與考試

  基于Internet的網(wǎng)絡(luò)學(xué)習(xí)是目前比較流行的遠(yuǎn)程學(xué)習(xí)模式,它打破了傳統(tǒng)學(xué)習(xí)的時(shí)空環(huán)境限制,有利于構(gòu)建終身學(xué)習(xí)體系。網(wǎng)絡(luò)學(xué)習(xí)平臺的學(xué)習(xí)內(nèi)容以Web頁面的形式呈現(xiàn),具有費(fèi)用低廉、資源更新快、交互性強(qiáng)等特點(diǎn),學(xué)員可以隨時(shí)隨地安排自己的學(xué)習(xí)時(shí)間,提高學(xué)習(xí)效率。

  網(wǎng)絡(luò)學(xué)習(xí)平臺除了提供在線學(xué)習(xí)功能,往往還提供隨堂練習(xí)、課程作業(yè)、課程考試等考試功能。對學(xué)習(xí)者學(xué)習(xí)狀況的評估將直接影響他們對網(wǎng)絡(luò)學(xué)習(xí)的態(tài)度、積極性和效果[1]?!皩W(xué)而時(shí)習(xí)之”,通過網(wǎng)絡(luò)學(xué)習(xí)平臺的考試功能進(jìn)行自我練習(xí)(考試)、參加有組織的考試可以有效促進(jìn)學(xué)員學(xué)習(xí),提高學(xué)習(xí)效果和針對性。

2決策樹與C5.0算法

  決策樹的分析結(jié)果形似一棵倒置的樹,所以稱為決策樹。決策樹算法是一種逼近離散函數(shù)值的方法[2],它通過構(gòu)造決策樹來發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)涵的分類規(guī)則。決策樹構(gòu)造的輸入是一組帶有類別標(biāo)記的例子,構(gòu)造的結(jié)果是一棵二叉樹或多叉樹[3],由上到下依次為根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)。決策樹通過對訓(xùn)練樣本的學(xué)習(xí)建立分類規(guī)則,依據(jù)此規(guī)則實(shí)現(xiàn)對新樣本的分類,屬于有監(jiān)督的學(xué)習(xí)方法[4]。

  決策樹的類別包括分類決策樹和回歸決策樹,其中,分類決策樹目標(biāo)變量為分類型數(shù)值,其輸出變量的眾數(shù)就是分類結(jié)果。決策樹的分類過程是基于邏輯的,每一個(gè)葉節(jié)點(diǎn)都對應(yīng)于一條布爾規(guī)則。樹的生長過程(即建立決策樹的過程)就是把數(shù)據(jù)不斷進(jìn)行切分的過程,每一次切分力求分成的各組之間的差異最明顯。各種決策樹算法使用了不同的剪枝策略,它們的主要區(qū)別是對這種“差異”明顯程度的衡量方式。

  決策樹的構(gòu)建過程是一個(gè)遞歸的過程,所以需要確定停止條件。最直觀的方式是當(dāng)每個(gè)子節(jié)點(diǎn)只有一種類型的記錄時(shí)停止,但往往會(huì)導(dǎo)致過度擬合(樹的節(jié)點(diǎn)太多)。另一種方法是設(shè)置當(dāng)前節(jié)點(diǎn)中的記錄數(shù)最小閾值,將置信度最大的分類作為當(dāng)前葉節(jié)點(diǎn)的分類。

  作為一種分類決策樹模型算法,C5.0可以生成決策樹或規(guī)則集。C5.0算法基于信息增益度分裂方式,第一次拆分確定樣本子集,然后根據(jù)另一個(gè)字段再次拆分,這一過程重復(fù)進(jìn)行直到樣本子集不能被拆分為止[4]。C5.0算法以信息熵的下降速度(能夠帶來最大信息增益的變量)作為確定最佳分支變量和分割閾值的依據(jù)。熵是對樣本不確定性的一種度量[5]。一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。

3C5.0決策樹算法在考試結(jié)果預(yù)測中的應(yīng)用

  3.1數(shù)據(jù)挖掘工具

  SPSS Clementine是SPSS公司收購取得的數(shù)據(jù)挖掘工具。SPSS Clementine 12.0結(jié)合商業(yè)技術(shù)可以快速建立預(yù)測性模型,幫助用戶改進(jìn)決策過程。Clementine廣泛支持Kmeans模型、C5.0決策樹、神經(jīng)網(wǎng)絡(luò)等各種預(yù)測模型。

  3.2數(shù)據(jù)準(zhǔn)備

  本文研究的數(shù)據(jù)對象為某網(wǎng)絡(luò)學(xué)習(xí)平臺導(dǎo)出的2015年課程學(xué)習(xí)和課程考試情況數(shù)據(jù)(學(xué)員學(xué)習(xí)課程與考試結(jié)果);數(shù)據(jù)格式為“課程學(xué)習(xí)與考試情況”Excel表;操作系統(tǒng)采用Windows 7 Professional 32 bit;硬件配置:內(nèi)存為4 GB。

  該學(xué)習(xí)平臺目前擁有注冊學(xué)員近2 000人,提供標(biāo)準(zhǔn)格式課件點(diǎn)播服務(wù),還提供課程同步模擬考試服務(wù)。“課程學(xué)習(xí)與考試情況”表記錄了用戶學(xué)習(xí)過的課程的次數(shù)、時(shí)間,還記錄了該課程同步模擬考試的結(jié)果,具體字段為“所屬部門”、“用戶名”、“姓名”、“課程名稱”、“考核狀況”、“學(xué)習(xí)次數(shù)”、“學(xué)習(xí)總時(shí)長”,記錄共有18 476條。部分示例如表1所示。

005.jpg

  3.3數(shù)據(jù)處理

001.jpg

  通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整、完善,可以使得建立的模型更簡單、準(zhǔn)確[6]。

  為了構(gòu)造新的衍生特征信息,這里增加一個(gè)輸入字段,使用WPS 表格10.1軟件增加“次平均學(xué)習(xí)時(shí)長”列,列值為使用公式計(jì)算學(xué)習(xí)總時(shí)長/學(xué)習(xí)次數(shù)的結(jié)果。

002.jpg

  由于直接使用表格文件,這里無需添加本地?cái)?shù)據(jù)源,在Clementine軟件中直接添加Excel“源”節(jié)點(diǎn),命名為“學(xué)習(xí)考核情況”,導(dǎo)入對應(yīng)的數(shù)據(jù)文件和工作表。在“過濾”中配置字段篩選,縮小處理范圍,清除無用字段(如“所屬部門”、“用戶名”、“姓名”字段),如圖1所示。預(yù)處理后的總數(shù)據(jù)記錄數(shù)不變(圖1字段過濾數(shù)據(jù)格式如表2所示)。添加“類型”節(jié)點(diǎn)設(shè)置各字段“數(shù)據(jù)類型”和“方向”,“考核狀況”對應(yīng)“標(biāo)志”類型,“學(xué)習(xí)次數(shù)”對應(yīng)“集”類型,“次平均學(xué)習(xí)時(shí)長”對應(yīng)“范圍”類型,如圖2所示。

006.jpg

  通過“重新分類”節(jié)點(diǎn)對學(xué)習(xí)次數(shù)進(jìn)行規(guī)范化分類,這里根據(jù)數(shù)據(jù)密度分為“1+”、“5+”、“10+”、“30+”,分別代表1≤學(xué)習(xí)次數(shù)圖2數(shù)據(jù)類型≤4、5≤學(xué)習(xí)次數(shù)≤9、10≤學(xué)習(xí)次數(shù)≤29、學(xué)習(xí)次數(shù)≧30,生成新字段名“學(xué)習(xí)總次數(shù)分段”。

  3.4利用C5.0決策樹算法進(jìn)行數(shù)據(jù)挖掘

  繼續(xù)添加一個(gè)C5.0節(jié)點(diǎn),對數(shù)據(jù)進(jìn)行挖掘,配置目標(biāo)字段“考核情況”,輸入字段為“學(xué)習(xí)總次數(shù)分段”、“次平均學(xué)習(xí)時(shí)長”,“模型”中配置選擇使用分區(qū)數(shù)據(jù),輸出類型為“決策樹”,選擇“組符號”(使用分箱法檢查當(dāng)前分組變量的各類別能否合并,如果可以先合并再分枝,此方法得到的決策樹相對精簡),修剪嚴(yán)重性(置信度)設(shè)置為75%,子分支最小記錄數(shù)為200。

003.jpg

  Clementine從讀入數(shù)據(jù)到結(jié)果顯示的數(shù)據(jù)挖掘全過程,是以流程圖的形式顯示在數(shù)據(jù)流程區(qū)內(nèi)的,如圖3所示。每個(gè)節(jié)點(diǎn)規(guī)定了數(shù)據(jù)的不同操作,箭頭表示數(shù)據(jù)流向,各種操作組合起來就形成了通向目標(biāo)的路徑。將前面的節(jié)點(diǎn)相連接,執(zhí)行結(jié)果“考核結(jié)果”會(huì)出現(xiàn)在軟件主界面右上角管理器“模型”中,瀏覽這個(gè)模型可以看到數(shù)據(jù)圖3Clementine數(shù)據(jù)流程區(qū)

  挖掘結(jié)果。需要注意的是,可以對各節(jié)點(diǎn)添加輸出節(jié)點(diǎn)“表”觀察各節(jié)點(diǎn)數(shù)據(jù)情況(可以將模型結(jié)果添加進(jìn)數(shù)據(jù)流程區(qū)并輸出)。

  針對實(shí)驗(yàn)數(shù)據(jù)執(zhí)行決策樹模型“考核結(jié)果”,生成規(guī)則集(如圖4所示)和決策樹模型(如圖5所示)。

004.jpg

  3.5考試結(jié)果預(yù)測模型解讀

  次平均學(xué)習(xí)時(shí)長≤0.17小時(shí)的學(xué)員,“未通過”考試的可能性為88.4%;次平均學(xué)習(xí)時(shí)長>0.17小時(shí)的學(xué)員,通過考試的可能性為81.4%。次平均學(xué)習(xí)時(shí)長≦0.17小時(shí)且學(xué)習(xí)次數(shù)低于5次的學(xué)員,“未通過”考試的可能性為96%;次平均學(xué)習(xí)時(shí)長>0.17小時(shí)且學(xué)習(xí)次數(shù)超過5次的學(xué)員,通過考試的可能性為97.8%。在決定考試是否通過的因素中,“次平均學(xué)習(xí)時(shí)長”最重要,其次是“學(xué)習(xí)次數(shù)”。從實(shí)際經(jīng)驗(yàn)角度看,每次學(xué)習(xí)時(shí)間較長且學(xué)習(xí)次數(shù)較多的學(xué)員,通過考試的概率可能會(huì)較大。根據(jù)該網(wǎng)絡(luò)學(xué)習(xí)平臺的課程學(xué)習(xí)和考試數(shù)據(jù),并使用較為先進(jìn)的Clementine數(shù)據(jù)挖掘軟件構(gòu)建的C5.0決策樹模型,量化反映了網(wǎng)絡(luò)學(xué)習(xí)和考試的這一現(xiàn)象;又由于軟件建模時(shí)采用分區(qū)數(shù)據(jù),提高了模型在不同樣本集上的穩(wěn)健性,因此獲得的預(yù)測模式較為可信。

  各類網(wǎng)絡(luò)學(xué)習(xí)平臺可以參考此模型更好地指導(dǎo)學(xué)員在線學(xué)習(xí),有針對性地提出學(xué)習(xí)建議,如提醒學(xué)員上網(wǎng)學(xué)習(xí)和學(xué)習(xí)次數(shù)等;也可以進(jìn)一步針對學(xué)員進(jìn)行聚類分析,深度定制課件資源和服務(wù)內(nèi)容,如開發(fā)移動(dòng)客戶端,提高用戶訪問平臺的便捷性等。

4結(jié)論

  隨著網(wǎng)絡(luò)學(xué)習(xí)平臺的發(fā)展和提升,為更好地貼近用戶需求,深化學(xué)習(xí)效果,應(yīng)當(dāng)關(guān)注業(yè)務(wù)提升需求,充分挖掘海量的學(xué)習(xí)和考試數(shù)據(jù),研究并發(fā)現(xiàn)決定學(xué)習(xí)效果的關(guān)鍵因素。C5.0算法在面對輸入字段較多的問題時(shí)比較穩(wěn)健,也易于理解,同時(shí)也擅長處理非數(shù)值型數(shù)據(jù),可以在網(wǎng)絡(luò)學(xué)習(xí)平臺關(guān)鍵問題預(yù)測中發(fā)揮更大的作用。

參考文獻(xiàn)

 ?。?] 岳偉.建構(gòu)主義學(xué)習(xí)理論指導(dǎo)下的自學(xué)考試網(wǎng)絡(luò)助學(xué)策略設(shè)計(jì)[J].考試研究,2015(1):915.

  [2] 張軍.數(shù)據(jù)挖掘中自我學(xué)習(xí)算法研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(11):171,173.

 ?。?] 陳承斌.基于決策樹算法分析惡意網(wǎng)絡(luò)攻擊和入侵[J].信息與電腦(理論版),2010(7):15.

  [4] 陳春茶.數(shù)據(jù)挖掘技術(shù)在移動(dòng)商務(wù)客戶價(jià)值識別中的應(yīng)用研究[D].昆明:云南大學(xué),2012.

 ?。?] 宋海霞,嚴(yán)馨,于正濤,等.基于半監(jiān)督主動(dòng)學(xué)習(xí)的虛假評論檢測[J].昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,40(5):5965.

 ?。?] 張線媚.數(shù)據(jù)挖掘在電信行業(yè)客戶流失預(yù)測中的應(yīng)用[J].微型機(jī)與應(yīng)用,2015,34(15):99102.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。