《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 一種改進(jìn)的面向移動(dòng)數(shù)據(jù)安全檢測(cè)的文本分類模型
一種改進(jìn)的面向移動(dòng)數(shù)據(jù)安全檢測(cè)的文本分類模型
2017年微型機(jī)與應(yīng)用第8期
馮曉榮,林軍,麥松濤
工業(yè)和信息化部電子第五研究所 軟件質(zhì)量工程研究中心,廣東 廣州 510610
摘要: 隨著移動(dòng)互聯(lián)網(wǎng)應(yīng)用的不斷普及,移動(dòng)終端承載了大量的數(shù)據(jù)交互業(yè)務(wù)與應(yīng)用,移動(dòng)數(shù)據(jù)的安全問(wèn)題日益凸顯?;贑4.5決策樹(shù)算法對(duì)移動(dòng)數(shù)據(jù)進(jìn)行文本分類檢測(cè),實(shí)現(xiàn)惡意代碼分析。傳統(tǒng)的C4.5文本分類模型中,測(cè)試屬性選擇未考慮屬性之間的影響,因此提出了一種改進(jìn)的基于Boosting算法的C4.5決策樹(shù)文本分類模型。該模型在衡量被測(cè)屬性最優(yōu)弱假設(shè)的重要性時(shí),引入Boosting的權(quán)重系數(shù),每次迭代計(jì)算結(jié)束后,自適應(yīng)調(diào)整權(quán)重值,在降低特征子集屬性冗余度的同時(shí),提高了分類模型的魯棒性。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的文本分類模型在檢測(cè)率和分類準(zhǔn)確率上均有一定程度的提高。
Abstract:
Key words :

  馮曉榮,林軍,麥松濤

 ?。üI(yè)和信息化部電子第五研究所 軟件質(zhì)量工程研究中心,廣東 廣州 510610)

        摘要:隨著移動(dòng)互聯(lián)網(wǎng)應(yīng)用的不斷普及,移動(dòng)終端承載了大量的數(shù)據(jù)交互業(yè)務(wù)與應(yīng)用,移動(dòng)數(shù)據(jù)的安全問(wèn)題日益凸顯?;?a class="innerlink" href="http://ihrv.cn/tags/C4.5決策樹(shù)" title="C4.5決策樹(shù)" target="_blank">C4.5決策樹(shù)算法對(duì)移動(dòng)數(shù)據(jù)進(jìn)行文本分類檢測(cè),實(shí)現(xiàn)惡意代碼分析。傳統(tǒng)的C4.5文本分類模型中,測(cè)試屬性選擇未考慮屬性之間的影響,因此提出了一種改進(jìn)的基于Boosting算法的C4.5決策樹(shù)文本分類模型。該模型在衡量被測(cè)屬性最優(yōu)弱假設(shè)的重要性時(shí),引入Boosting的權(quán)重系數(shù),每次迭代計(jì)算結(jié)束后,自適應(yīng)調(diào)整權(quán)重值,在降低特征子集屬性冗余度的同時(shí),提高了分類模型的魯棒性。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的文本分類模型在檢測(cè)率和分類準(zhǔn)確率上均有一定程度的提高。

  關(guān)鍵詞:惡意代碼;文本分類;C4.5決策樹(shù);Boosting算法

  中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.1674-7720.2017.08.001

  引用格式:馮曉榮,林軍,麥松濤.一種改進(jìn)的面向移動(dòng)數(shù)據(jù)安全檢測(cè)的文本分類模型[J].微型機(jī)與應(yīng)用,2017,36(8):1-4.

0引言

  *基金項(xiàng)目:廣東省省級(jí)科技計(jì)劃項(xiàng)目(2015A030401023)近年來(lái),隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)技術(shù)的迅猛發(fā)展,全球數(shù)據(jù)量呈現(xiàn)爆發(fā)式增長(zhǎng)。由于移動(dòng)終端承載了大量的數(shù)據(jù)交互業(yè)務(wù)與應(yīng)用,移動(dòng)數(shù)據(jù)的安全問(wèn)題日益凸顯,移動(dòng)終端設(shè)備也成為攻擊者的主要目標(biāo)之一。如何在海量數(shù)據(jù)中對(duì)安全威脅進(jìn)行快速識(shí)別與分類,成為當(dāng)前信息安全研究亟待解決的問(wèn)題。

  移動(dòng)終端是大量互聯(lián)應(yīng)用與服務(wù)的承載體,目前主要通過(guò)對(duì)移動(dòng)終端設(shè)備安全能力檢測(cè)及移動(dòng)應(yīng)用程序的惡意行為檢測(cè)來(lái)實(shí)現(xiàn)數(shù)據(jù)安全保障。然而,這些安全防護(hù)方法都存在較大的局限性,基于移動(dòng)終端設(shè)備的安全能力檢測(cè)一般局限于移動(dòng)終端系統(tǒng)本身,而移動(dòng)應(yīng)用程序的檢測(cè)主要采用病毒庫(kù)的特征匹配,需要隨時(shí)更新病毒庫(kù),無(wú)法滿足移動(dòng)大數(shù)據(jù)應(yīng)用的多樣性和實(shí)時(shí)動(dòng)態(tài)特性。

  在移動(dòng)互聯(lián)網(wǎng)應(yīng)用背景下,針對(duì)移動(dòng)數(shù)據(jù)應(yīng)用的主要攻擊是面向移動(dòng)終端設(shè)備,包括竊取移動(dòng)終端上的信息、遠(yuǎn)程控制移動(dòng)設(shè)備等,其中,大量惡意攻擊行為通過(guò)HTTP請(qǐng)求實(shí)現(xiàn)。例如,在移動(dòng)終端通過(guò)HTTP訪問(wèn)請(qǐng)求注入SQL語(yǔ)句惡意代碼,實(shí)現(xiàn)DNS欺騙、ARP欺騙,竊取用戶敏感信息。在服務(wù)器端通過(guò)HTTP傳遞請(qǐng)求內(nèi)容的方式將用戶敏感信息上傳至服務(wù)器,泄露大量隱私數(shù)據(jù)。

  在大數(shù)據(jù)應(yīng)用環(huán)境下移動(dòng)終端數(shù)據(jù)的信息安全檢測(cè)中,機(jī)器學(xué)習(xí)主要應(yīng)用于解決數(shù)據(jù)分類問(wèn)題、知識(shí)表示及規(guī)則提取、搜索問(wèn)題和增強(qiáng)學(xué)習(xí)等方面。其中,利用機(jī)器學(xué)習(xí)技術(shù)解決數(shù)據(jù)的分類,區(qū)分異常數(shù)據(jù)和正常數(shù)據(jù),為移動(dòng)大數(shù)據(jù)的分析提供前提條件。

  本文根據(jù)已有的參考文獻(xiàn)中提出的主流文本分類算法的特征[1],結(jié)合移動(dòng)數(shù)據(jù)的特性,綜合考慮各種算法在移動(dòng)數(shù)據(jù)分析中的優(yōu)缺點(diǎn)和局限性,提出了一種基于AdaBoost思想的改進(jìn)型C4.5決策樹(shù)文本分類模型,通過(guò)對(duì)HTTP請(qǐng)求數(shù)據(jù)的特征屬性進(jìn)行選擇、特征向量化,形成訓(xùn)練樣本和測(cè)試樣本,輸入到分類算法中進(jìn)行模型訓(xùn)練、文本分類和結(jié)果驗(yàn)證,從查準(zhǔn)率、誤檢率和準(zhǔn)確率三個(gè)方面進(jìn)行比較分析,為今后的文本分析研究提供理論基礎(chǔ)。

1C4.5決策樹(shù)算法

  1.1特征提取

  在機(jī)器識(shí)別分類算法實(shí)現(xiàn)中,數(shù)據(jù)特征向量化是前提條件。對(duì)于一個(gè)特征集F={f1,f2…,fn},描述特征子集的二進(jìn)制向量為S={S1,S2…,Sn},其中Si∈{0,1},i=1,2,…,n。Si=1表示第i個(gè)特征被選擇,Si=0表示第i 個(gè)特征未被選擇[2]。由于特征集中包含很多冗余特征與不相關(guān)特征,導(dǎo)致數(shù)據(jù)屬性的維度增加,提高了數(shù)據(jù)計(jì)算的時(shí)間復(fù)雜度和空間復(fù)雜度,降低了分類模型的泛化能力。通過(guò)過(guò)濾的方法進(jìn)行特征選擇,選擇出與類別相關(guān)性最大且具有最小冗余特征的子集,從而達(dá)到最優(yōu)分類效果。

  1.2C4.5決策樹(shù)基本原理

  基于機(jī)器學(xué)習(xí)的文本分類方法是將數(shù)據(jù)根據(jù)預(yù)先定義的類別,按照一定的規(guī)則進(jìn)行自動(dòng)化分類,實(shí)現(xiàn)數(shù)據(jù)挖掘。在移動(dòng)互聯(lián)網(wǎng)環(huán)境下,使用文本分類算法對(duì)移動(dòng)數(shù)據(jù)進(jìn)行安全檢測(cè),將移動(dòng)終端本身及移動(dòng)應(yīng)用的安全威脅進(jìn)行有效分類,能夠自適應(yīng)地學(xué)習(xí)正常數(shù)據(jù)和異常數(shù)據(jù)行為模式,從而涵蓋更大的安全檢測(cè)范圍,具有重要的研究意義。

  在機(jī)器學(xué)習(xí)中,決策樹(shù)作為一個(gè)分類預(yù)測(cè)模型,代表對(duì)象屬性與對(duì)象值之間的映射關(guān)系。樹(shù)中的每個(gè)節(jié)點(diǎn)代表某個(gè)對(duì)象,每個(gè)分叉路徑代表某個(gè)可能的屬性值,每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象值,基于數(shù)據(jù)產(chǎn)生決策樹(shù)的機(jī)器學(xué)習(xí)方法依托于分類、訓(xùn)練上的預(yù)測(cè)樹(shù),根據(jù)已知預(yù)測(cè)歸類未知數(shù)據(jù)。決策樹(shù)是一種多級(jí)分類的思想,目前已有的算法包括ID3、C4.5、CART算法等[3]。ID3是決策樹(shù)基礎(chǔ)算法,自頂向下地貪婪搜索遍歷可能的決策樹(shù)空間構(gòu)造決策樹(shù),使用統(tǒng)計(jì)測(cè)試確定每一個(gè)實(shí)例單獨(dú)分類訓(xùn)練樣例的能力,分類能力最好的屬性作為判定樹(shù)根節(jié)點(diǎn)的測(cè)試屬性。基于C4.5決策樹(shù)算法建立在ID3算法的基礎(chǔ)上,用信息增益率選擇特征屬性,解決多值偏向問(wèn)題。在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝,完成對(duì)連續(xù)屬性的離散化處理以及對(duì)不完整屬性的處理能力和產(chǎn)生規(guī)則等功能。

  根據(jù)已有的ID3算法,基于信息增益的基本原理,C4.5算法通過(guò)計(jì)算信息增益率,選取信息增益比最高的屬性作為樣本的測(cè)試屬性,創(chuàng)建一個(gè)節(jié)點(diǎn)并為每個(gè)屬性創(chuàng)建分支劃分樣本[4]。

2改進(jìn)的安全檢測(cè)文本分類模型

  2.1C4.5決策樹(shù)改進(jìn)算法

  C4.5決策樹(shù)算法根據(jù)信息增益率選擇屬性,從一個(gè)無(wú)次序、無(wú)規(guī)則的實(shí)例中歸納一組采用樹(shù)形結(jié)構(gòu)表示的分類規(guī)則。信息增益率為信息增益和分割信息量的比值,信息增益越大,則類屬性對(duì)該屬性的依賴性越大,因此,該屬性作為測(cè)試屬性的期望值越大。

  假設(shè)以屬性A的值為基準(zhǔn)對(duì)樣本分割,訓(xùn)練數(shù)據(jù)D用分裂信息SplitInfo作為初始信息量劃分成對(duì)應(yīng)于屬性A的有m個(gè)輸出的m個(gè)劃分信息。屬性A具有n個(gè)不同的取值{a1,a2,…,an},如果用屬性A將樣本集S劃分為{S1,S2,…,Sn}共n個(gè)子集,則屬性A對(duì)S進(jìn)行劃分的信息增益率為:

  @FU]I0J971)1G4{O6AQ}][Y.png

  最佳屬性子集能夠?qū)Ψ诸愵A(yù)測(cè)產(chǎn)生最好的效果,子集中的屬性與類屬性關(guān)聯(lián)度最大,同時(shí)屬性之間的冗余度相對(duì)較小。C4.5算法考慮了屬性與類屬性的關(guān)聯(lián)度,但是屬性之間的關(guān)系尚未考慮。特別是對(duì)于數(shù)據(jù)屬性及其取值較多的情況,不同屬性之間可能存在一定的聯(lián)系,若屬性之間的關(guān)聯(lián)度過(guò)高,屬性的冗余度過(guò)大,則會(huì)影響屬性子集的有效性,導(dǎo)致系統(tǒng)魯棒性較差。

  在該改進(jìn)的算法模型中,將屬性與其他屬性之間的關(guān)聯(lián)度引入屬性A的信息增益率度量。屬性A與其他屬性之間的信息增益如式(3)所示:

  21KOIV@2AU65@BD__XBX6`9.png

  其中,Gain(AF)為其他屬性對(duì)屬性A的信息增益之和,表示屬性A與其他屬性的關(guān)聯(lián)度;F是不包含屬性A的非類屬性集合;f是非類屬性且f∈F。式(4)表示其他屬性對(duì)屬性A的信息增益平均值。

  }1JKV0S{4O7@WV4T$[]2]GR.png

  在已有的信息增益率的基礎(chǔ)上,通過(guò)引入其他屬性對(duì)被選屬性信息增益的均值,降低其他屬性與備選屬性之間的冗余度。改進(jìn)后的信息增益率如式(5)所示,其中,w是權(quán)重系數(shù)。

  MNDQD7WP`S7RV1$L3PBJ%5G.png

  在改進(jìn)的信息增益率計(jì)算過(guò)程中,若備選屬性A與其他屬性的關(guān)聯(lián)度較差,其他屬性對(duì)屬性A的信息增益平均值較低,該屬性的信息增益率會(huì)增加,則被選定作為類屬性的子屬性的可能性會(huì)更大。

  對(duì)于權(quán)重系數(shù)w,在形成的初始訓(xùn)練序列后,基于AdaBoost思想,對(duì)每個(gè)訓(xùn)練樣本賦予相同的初始權(quán)重,在迭代遞歸過(guò)程中動(dòng)態(tài)調(diào)整權(quán)重系數(shù),根據(jù)權(quán)重系數(shù)構(gòu)造訓(xùn)練集。權(quán)重系數(shù)w衡量備選屬性最優(yōu)弱假設(shè)的重要性,在每次迭代計(jì)算結(jié)束后,對(duì)分類錯(cuò)誤的樣本增加權(quán)重,使得在下一次迭代中更關(guān)注分類錯(cuò)誤的樣本,利用不同的訓(xùn)練集構(gòu)造多個(gè)分類模型,通過(guò)綜合打分得到優(yōu)化的分類結(jié)果。在降低特征子集屬性冗余度的同時(shí),提高了分類模型的魯棒性。

  權(quán)重系數(shù)的確定及樣本訓(xùn)練過(guò)程如下:

  輸入:訓(xùn)練數(shù)據(jù)集T,樣本數(shù)n,迭代次數(shù)m;

  輸出:決策樹(shù)序列G(x);

  訓(xùn)練流程如下:

  訓(xùn)練序列為 Ti,權(quán)重系數(shù)Dm表示在第m輪迭代開(kāi)始前訓(xùn)練數(shù)據(jù)的概率分布,wmi表示第i個(gè)樣本的權(quán)值,∑Ni=1wmi=1。

  (1)初始化訓(xùn)練數(shù)據(jù)的權(quán)重:

  D1={w11,w12,…,w1N}(6)

  其中,

  w1i=1N,i=1,2,…,N(7)

  (2)對(duì)于m=1,2,…,M,使用具有權(quán)值分布Dm的訓(xùn)練數(shù)據(jù)集基于改進(jìn)的C4.5決策樹(shù)進(jìn)行學(xué)習(xí),得到弱分類器。

  (3)計(jì)算Gm(Ti)在訓(xùn)練數(shù)據(jù)集上的分類誤差率:

  0{HTO}~I]NC244%95RS~ZQ8.png

 ?。?)更新訓(xùn)練數(shù)據(jù)的權(quán)值分布:

  D)ZD%DVN}Q@AF`VSCHBANEK.png

  (6)將m個(gè)弱分類器進(jìn)行線性組合,得到最終分類器:

  KGK4KDRD8~M7K50{EZ5]4MW.png

  2.2改進(jìn)的安全檢測(cè)文本分類模型

001.jpg

  針對(duì)HTTP請(qǐng)求的移動(dòng)數(shù)據(jù)安全檢測(cè)文本分類模型如圖1所示,檢測(cè)流程包括以下幾個(gè)步驟:

  (1)以每個(gè)請(qǐng)求數(shù)據(jù)包為文本單位,將已分類的數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù);

  (2)數(shù)據(jù)特征選擇及數(shù)據(jù)特征向量化,轉(zhuǎn)化為可供機(jī)器學(xué)習(xí)的訓(xùn)練樣本和測(cè)試樣本;

  (3)利用訓(xùn)練數(shù)據(jù)集對(duì)改進(jìn)的文本分類算法模型進(jìn)行訓(xùn)練,建立分類模型,輸入測(cè)試數(shù)據(jù),輸出檢測(cè)數(shù)據(jù)類別。

3實(shí)驗(yàn)與結(jié)果分析

  3.1實(shí)驗(yàn)數(shù)據(jù)集

  文中采用HTTP請(qǐng)求進(jìn)行模型驗(yàn)證分析。在移動(dòng)互聯(lián)網(wǎng)應(yīng)用環(huán)境中,通過(guò)HTTP請(qǐng)求實(shí)現(xiàn)Web攻擊是一種常見(jiàn)的攻擊方式,包括SQL注入、跨站腳本攻擊、Cookie篡改等惡意行為特征[56]。HTTP請(qǐng)求分為正常和異常兩個(gè)類別,根據(jù)HTTP請(qǐng)求的數(shù)據(jù)格式和惡意特征分析,從數(shù)據(jù)結(jié)構(gòu)、長(zhǎng)度、字符等方面提取大量特征,使用基于相關(guān)的屬性選擇算法(CFS)對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行屬性選擇,再使用本文提出的改進(jìn)的文本分類算法選擇屬性子集,對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行分類,比較分類結(jié)果的正確率。

  原始數(shù)據(jù)為CSIC2010的原始數(shù)據(jù)包,保留有效TCP數(shù)據(jù)包,過(guò)濾得到HTTP請(qǐng)求數(shù)據(jù)。HTTP請(qǐng)求格式包含請(qǐng)求方法URL協(xié)議/版本、請(qǐng)求頭(Request Header)、請(qǐng)求正文等數(shù)據(jù)。將HTTP結(jié)構(gòu)化數(shù)據(jù)部分保存為特征文本,同時(shí),將請(qǐng)求內(nèi)容、path和Cookie等半結(jié)構(gòu)化的內(nèi)容進(jìn)行結(jié)構(gòu)化處理。已有研究基礎(chǔ)表明,請(qǐng)求內(nèi)容、訪問(wèn)路徑和Cookie一般是惡意特征集中表現(xiàn)位置[7]。參考KDDCUP1999數(shù)據(jù)集在安全檢測(cè)方面的特征要求[8],選取長(zhǎng)度、鍵值對(duì)數(shù)等有效信息保存為結(jié)構(gòu)化文本數(shù)據(jù)。為了提高分類效率,首先對(duì)文本數(shù)據(jù)進(jìn)行屬性選擇,屬性集搜索算法選用Bestfirst Search,屬性集評(píng)估算法選用CFS,提取HTTP請(qǐng)求的15個(gè)特征描述數(shù)據(jù)內(nèi)容。具體特征如表1所示。

002.jpg

        3.2評(píng)估策略

  將數(shù)據(jù)包劃分為正常數(shù)據(jù)和惡意數(shù)據(jù)兩類,數(shù)據(jù)向量特征化之后將目標(biāo)數(shù)據(jù)輸入到分類算法中進(jìn)行模型訓(xùn)練、分類測(cè)試和準(zhǔn)確率驗(yàn)證。實(shí)驗(yàn)平臺(tái)使用WEKA,迭代次數(shù)設(shè)為10次,建立10棵決策樹(shù),采用10折交叉驗(yàn)證。

  文本分類結(jié)果使用信息檢索中的查準(zhǔn)率(TP)、誤檢率(FP)和分類準(zhǔn)確率(ACC)來(lái)衡量改進(jìn)算法的效果[9]。

  其中:

  查準(zhǔn)率=正確分類的HTTP惡意請(qǐng)求個(gè)數(shù)/HTTP惡意請(qǐng)求總數(shù)

  誤檢率=正常HTTP請(qǐng)求被誤判為惡意請(qǐng)求的個(gè)數(shù)/正常HTTP請(qǐng)求總數(shù)

  分類準(zhǔn)確率=正確分類的樣本數(shù)/所有測(cè)試樣本數(shù)

  3.3結(jié)果分析

  實(shí)驗(yàn)數(shù)據(jù)采用CSIC2010數(shù)據(jù)集,選取36 878條正常HTTP請(qǐng)求和24 668條包含惡意代碼的異常HTTP請(qǐng)求。通過(guò)Bestfirst Search屬性集搜索算法和CFS屬性集評(píng)估算法,提取HTTP請(qǐng)求的15個(gè)特征描述數(shù)據(jù)內(nèi)容。在選擇的15個(gè)屬性集上分別選用C4.5決策樹(shù)算法和改進(jìn)的C4.5決策樹(shù)算法訓(xùn)練樣本數(shù)據(jù),建立分類模型。

  3.3.1小規(guī)模樣本測(cè)試

  為驗(yàn)證文中提出的改進(jìn)算法的分類效率,首先進(jìn)行小批量實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證,選擇樣本數(shù)據(jù)集包含正常HTTP請(qǐng)求500個(gè),異常HTTP請(qǐng)求500個(gè)。分類結(jié)果如表2所示。

003.jpg

  表2結(jié)果顯示,基于AdaBoost思想的C4.5決策樹(shù)分類模型適用于HTTP惡意請(qǐng)求檢測(cè),針對(duì)于傳統(tǒng)的C4.5檢測(cè)算法,檢測(cè)率和分類準(zhǔn)確率指標(biāo)均有所改善,其中,查準(zhǔn)率提高了1.9%,誤檢率降低了3.8%,分類準(zhǔn)確率提高了2.9%。由于改進(jìn)模型中增加了Boosting自適應(yīng)調(diào)整權(quán)值系數(shù)過(guò)程,導(dǎo)致分類時(shí)間增加了12.2 ms。

  3.3.2總體樣本測(cè)試

  采用上述方法選取所有異常樣本和正常樣本HTTP請(qǐng)求的屬性值,輸入算法模型,對(duì)比C4.5算法和改進(jìn)后的C4.5算法在數(shù)據(jù)集上的分類準(zhǔn)確率,結(jié)果如表3所示。

004.jpg

  表3結(jié)果顯示,改進(jìn)的C4.5文本分類模型查準(zhǔn)率提高了1.6%,誤檢率降低了0.8%,分類準(zhǔn)確率提高了1.7%,分類時(shí)間增加了45 ms。在保證分類時(shí)間影響較小的前提下提高了分類準(zhǔn)確度。

4結(jié)論

  針對(duì)移動(dòng)數(shù)據(jù)HTTP請(qǐng)求的惡意代碼特征,本文分析了傳統(tǒng)C4.5算法未考慮屬性間影響、屬性間冗余度較大、從而導(dǎo)致算法復(fù)雜度較高的問(wèn)題,提出了一種基于AdaBoost算法的C4.5文本分類模型,并對(duì)模型進(jìn)行優(yōu)化和改進(jìn)。通過(guò)對(duì)文本數(shù)據(jù)的特征屬性進(jìn)行選擇并通過(guò)特征向量化形成訓(xùn)練樣本和測(cè)試樣本,輸入到分類算法中進(jìn)行模型訓(xùn)練、文本分類和結(jié)果驗(yàn)證,從查準(zhǔn)率、誤檢率和準(zhǔn)確率三個(gè)方面進(jìn)行比較分析。實(shí)驗(yàn)結(jié)果證明,改進(jìn)的C4.5算法具有較好的分類效果,對(duì)今后移動(dòng)數(shù)據(jù)安全檢測(cè)研究中分類算法的選取具有一定的理論研究和應(yīng)用價(jià)值。

參考文獻(xiàn)

 ?。?] 張福永,齊德昱,胡鏡林. 基于C4.5決策樹(shù)的嵌入型惡意代碼檢測(cè)方法[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,39(5):68-72.

 ?。?] 陳祎荻,秦玉平, 基于機(jī)器學(xué)習(xí)的文本分類方法綜述[J]. 渤海大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010,31(2): 201-205.

 ?。?] 潘峰,基于C5.0決策樹(shù)算法的考試結(jié)果預(yù)測(cè)研究[J].微型機(jī)與應(yīng)用, 2016,35(8):72-74.

 ?。?] 程駿,王健.面向移動(dòng)數(shù)據(jù)安全檢測(cè)的文本分類算法比較研究[J]. 無(wú)線互聯(lián)科技, 2015(24):115-118.

 ?。?] 魏浩,丁要軍.一種基于屬性相關(guān)的C4.5決策樹(shù)改進(jìn)算法[J], 中北大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,35(4):402-406.

 ?。?] SCHULTZ M G, ESKIN E, ZADOK E, et al. Data mining methods for detection of new malicious executables[C].IEEE Symposium on Security and Privacy,2001:3849.

 ?。?] LA POLLA M, MARTINELLI F, SAGANDURRA D. A survey on security for mobile devices[J]. Communications Surveys & Tutorials, IEEE,2013,15(1):446471.

 ?。?] STOLFO S J,Wang Ke,Li Weijen.Towards stealthy malware detection[M].Malware detection.Heidelberg:SpringerVerlag,2007:231249.

 ?。?] GARCIA S,FERNANDEZ A,HERRERA F. Enchancing the effectiveness and interpretability of decision tree and rule induction classifiers with evolutionary training set selection over imbalanced problems [J]. Applied Soft Computing,2009,9(4):1304-1314.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。