123,123

基于多粒度级联森林优化算法的网络入侵检测模型研究

网络安全与数据治理

刘学朋，于东升，胡铁娜，李京儒，陈广勇，曲洁

公安部第三研究所网络安全等级保护中心

摘要： 针对大规模网络入侵方式层出不穷，为应对多形态下的网络安全威胁，提出一种基于多粒度级联森林优化算法的网络入侵检测模型。首先对原始数据进行预处理，然后融合Fisher Score算法对不同特征信息进行权重选择排序，最后将其排序后的特征信息送入级联森林的卷积层和森林层，对特征信息进行深度表达和分类，从而得到精准的分类结果。经KDD 99数据集进行验证，在不同测试集占比为90%、70%和30%三组实验情况下，分别实现了98.20%、99.00%、99.27%的分类精度。实验结果证明，所提算法能够准确识别多种网络攻击，为现有网络入侵检测提供有效区分依据。

關(guān)鍵詞： FisherScore 随机森林级联森林网络入侵

中圖分類號：TP391文獻(xiàn)標(biāo)識碼：ADOI:10.19358/j.issn.2097-1788.2024.11.002引用格式：劉學(xué)朋，于東升，胡鐵娜，等.基于多粒度級聯(lián)森林優(yōu)化算法的網(wǎng)絡(luò)入侵檢測模型研究［J］.網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2024，43（11）：7-12.

Research on network intrusion detection model based on multi-granularity cascaded forest optimization algorithm

Liu Xuepeng, Yu Dongsheng, Hu Tiena, Li Jingru, Chen Guangyong, Qu Jie

Network Security Level Protection Center of the Third Research Institute of the Ministry of Public Security

Abstract： To address the ever-evolving and diverse nature of large-scale network intrusions and the subsequent cybersecurity threats, this paper proposes a network intrusion detection model based on the Multi-Granularity Cascaded Forest (GCForest). The model initially preprocesses raw data, subsequently incorporates the Fisher Score algorithm to rank different feature information by their weights, and ultimately feeds the ranked feature information into the convolutional layer and forest layer of the cascaded forest for deep feature expression and classification, thereby achieving precise classification results. Validation using the KDD 99 dataset demonstrates that under three experimental scenarios with training set proportions of 90%, 70%, and 30%, the model achieves classification accuracies of 98.20%, 99.00%, and 99.27% respectively. The experimental results prove that the proposed algorithm in this paper can accurately identify various network attacks, providing an effective basis for distinguishing and detecting network intrusions in existing systems.

Key words : Fisher score; random forest; cascade forest; network intrusion

引言

隨著大數(shù)據(jù)和云計算等信息技術(shù)的不斷發(fā)展和應(yīng)用，網(wǎng)絡(luò)攻擊方式層出不窮，攻擊者往往對特定網(wǎng)絡(luò)進(jìn)行匿名攻擊,從而導(dǎo)致網(wǎng)絡(luò)崩潰［1-2］。網(wǎng)絡(luò)入侵檢測作為網(wǎng)絡(luò)安全的重要組成部分，它是根據(jù)網(wǎng)絡(luò)流量數(shù)據(jù)以及各種IDS數(shù)據(jù)判斷主機(jī)正常行為或異常行為，以便在網(wǎng)絡(luò)攻擊出現(xiàn)時做出相應(yīng)策略?，F(xiàn)有入侵檢測方式主要分為傳統(tǒng)機(jī)器學(xué)習(xí)和深神經(jīng)網(wǎng)絡(luò)，針對入侵檢測數(shù)據(jù)的高維因素，檢測算法的精度和效率成為了研究熱點。

傳統(tǒng)機(jī)器學(xué)習(xí)入侵檢測算法模型研究中，Lin等人［3］提出了一種融合了主成分分析與隨機(jī)森林技術(shù)的入侵檢測算法，該算法首先通過主成分分析算法對輸入的原始數(shù)據(jù)特征進(jìn)行高效降維處理，以去除冗余信息并保留關(guān)鍵特征，隨后采用隨機(jī)森林算法對這些降維后的特征進(jìn)行分類識別。這種結(jié)合策略顯著提升了檢測的準(zhǔn)確率，實現(xiàn)了對潛在入侵行為的有效甄別，但忽略了奇異值對特征表達(dá)影響因素，進(jìn)而造成誤檢、漏檢的出現(xiàn)。Wang等人［4］在應(yīng)對高維數(shù)據(jù)挑戰(zhàn)時，引入了One-R快速屬性選擇機(jī)制來優(yōu)化隨機(jī)森林模型。此方法不僅緩解了隨機(jī)森林在選擇屬性時因過度隨機(jī)性導(dǎo)致的效率瓶頸，還有效減少了誤檢與漏檢的發(fā)生，提升了系統(tǒng)性能。另一方面，Hu等人［5］則結(jié)合Snort的傳統(tǒng)機(jī)器學(xué)習(xí)能力與隨機(jī)森林的離群點檢測優(yōu)勢，設(shè)計了一種混合入侵檢測系統(tǒng)。該系統(tǒng)在保持高檢測率的同時，也實現(xiàn)了低誤報率，展現(xiàn)了良好的檢測效能。然而，值得關(guān)注的是，文獻(xiàn)［4-5］所提出的方法在特征處理上存在一定的局限性，它們未能充分考慮特征的物理含義，從而限制了通過正則化表達(dá)來進(jìn)一步篩選和優(yōu)化有效特征的可能性。

在深神經(jīng)網(wǎng)絡(luò)應(yīng)用于入侵檢測的領(lǐng)域研究中，Ren等人［6］創(chuàng)新性地結(jié)合了KNN算法預(yù)處理離散特征，并與多層次隨機(jī)森林模型相結(jié)合，成功在KDD CUP99數(shù)據(jù)集上高效識別出Probe、U2R、R2L等多種網(wǎng)絡(luò)攻擊類型。另一項研究中，Ren等人［7］則構(gòu)建了一個融合隨機(jī)森林與K均值算法的混合入侵檢測系統(tǒng)，該系統(tǒng)在提升檢測準(zhǔn)確性的同時，也保持了較低的誤檢率。然而，值得注意的是，無論是文獻(xiàn)［6］還是文獻(xiàn)［7］中的方法，均未充分重視數(shù)據(jù)中的冗余特征問題，它們主要聚焦于模型精度的提升，卻在一定程度上忽視了模型的魯棒性構(gòu)建。這意味著，盡管這些模型在特定數(shù)據(jù)集上表現(xiàn)出色，但在面對非特定或未知數(shù)據(jù)集時，可能會遭遇誤檢和錯檢的風(fēng)險增加。Gou等人［8］在研究中嘗試通過引入隨機(jī)性機(jī)制來減輕冗余特征對隨機(jī)森林模型檢測性能的負(fù)面影響，這一策略確實在一定程度上提升了模型的檢測效果。然而，這種隨機(jī)選擇特征的方法也伴隨著潛在的風(fēng)險，即有可能在減少冗余特征的同時，不經(jīng)意地削弱了有效特征的表達(dá)力，進(jìn)而對模型的最終檢測結(jié)果準(zhǔn)確性造成不利影響。

上述研究主要集中在模型檢測精度提升，但忽略了特征有效表達(dá)不充分和冗余特征干擾等問題。此外，針對入侵檢測真實場景下的數(shù)據(jù)集不平衡問題并未對訓(xùn)練數(shù)據(jù)占比進(jìn)行深入對比研究，不能有效衡量檢測模型是否具有較強(qiáng)魯棒性。

基于此，本文提出了一種多粒度級聯(lián)森林優(yōu)化算法的網(wǎng)絡(luò)入侵檢測模型，對源數(shù)據(jù)進(jìn)行歸一化預(yù)處理，避免奇異值特征在計算過程種造成誤差，然后通過Fisher Score法對特征進(jìn)行排序選擇，從而獲得特征子集，將特征子集作為特征數(shù)據(jù)傳輸給卷積層，利用卷積計算特性對其特征進(jìn)行深度挖掘，將挖掘信息通過級聯(lián)層森林對其分類，進(jìn)而有效識別復(fù)雜多變的網(wǎng)絡(luò)攻擊。實驗結(jié)果表明，本文算法在入侵檢測過程具有較高的準(zhǔn)精確率和較低的誤檢率，相對傳統(tǒng)算法有一定優(yōu)勢。

本文詳細(xì)內(nèi)容請下載：

http://ihrv.cn/resource/share/2000006222

作者信息：

劉學(xué)朋，于東升，胡鐵娜，李京儒，陳廣勇，曲潔

(公安部第三研究所網(wǎng)絡(luò)安全等級保護(hù)中心，北京100142)

Magazine.Subscription.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容