引言
隨著大數(shù)據(jù)和云計(jì)算等信息技術(shù)的不斷發(fā)展和應(yīng)用,網(wǎng)絡(luò)攻擊方式層出不窮,攻擊者往往對(duì)特定網(wǎng)絡(luò)進(jìn)行匿名攻擊,從而導(dǎo)致網(wǎng)絡(luò)崩潰[1-2]。網(wǎng)絡(luò)入侵檢測(cè)作為網(wǎng)絡(luò)安全的重要組成部分,它是根據(jù)網(wǎng)絡(luò)流量數(shù)據(jù)以及各種IDS數(shù)據(jù)判斷主機(jī)正常行為或異常行為,以便在網(wǎng)絡(luò)攻擊出現(xiàn)時(shí)做出相應(yīng)策略?,F(xiàn)有入侵檢測(cè)方式主要分為傳統(tǒng)機(jī)器學(xué)習(xí)和深神經(jīng)網(wǎng)絡(luò),針對(duì)入侵檢測(cè)數(shù)據(jù)的高維因素,檢測(cè)算法的精度和效率成為了研究熱點(diǎn)。
傳統(tǒng)機(jī)器學(xué)習(xí)入侵檢測(cè)算法模型研究中,Lin等人[3]提出了一種融合了主成分分析與隨機(jī)森林技術(shù)的入侵檢測(cè)算法,該算法首先通過(guò)主成分分析算法對(duì)輸入的原始數(shù)據(jù)特征進(jìn)行高效降維處理,以去除冗余信息并保留關(guān)鍵特征,隨后采用隨機(jī)森林算法對(duì)這些降維后的特征進(jìn)行分類識(shí)別。這種結(jié)合策略顯著提升了檢測(cè)的準(zhǔn)確率,實(shí)現(xiàn)了對(duì)潛在入侵行為的有效甄別,但忽略了奇異值對(duì)特征表達(dá)影響因素,進(jìn)而造成誤檢、漏檢的出現(xiàn)。Wang等人[4]在應(yīng)對(duì)高維數(shù)據(jù)挑戰(zhàn)時(shí),引入了One-R快速屬性選擇機(jī)制來(lái)優(yōu)化隨機(jī)森林模型。此方法不僅緩解了隨機(jī)森林在選擇屬性時(shí)因過(guò)度隨機(jī)性導(dǎo)致的效率瓶頸,還有效減少了誤檢與漏檢的發(fā)生,提升了系統(tǒng)性能。另一方面,Hu等人[5]則結(jié)合Snort的傳統(tǒng)機(jī)器學(xué)習(xí)能力與隨機(jī)森林的離群點(diǎn)檢測(cè)優(yōu)勢(shì),設(shè)計(jì)了一種混合入侵檢測(cè)系統(tǒng)。該系統(tǒng)在保持高檢測(cè)率的同時(shí),也實(shí)現(xiàn)了低誤報(bào)率,展現(xiàn)了良好的檢測(cè)效能。然而,值得關(guān)注的是,文獻(xiàn)[4-5]所提出的方法在特征處理上存在一定的局限性,它們未能充分考慮特征的物理含義,從而限制了通過(guò)正則化表達(dá)來(lái)進(jìn)一步篩選和優(yōu)化有效特征的可能性。
在深神經(jīng)網(wǎng)絡(luò)應(yīng)用于入侵檢測(cè)的領(lǐng)域研究中,Ren等人[6]創(chuàng)新性地結(jié)合了KNN算法預(yù)處理離散特征,并與多層次隨機(jī)森林模型相結(jié)合,成功在KDD CUP99數(shù)據(jù)集上高效識(shí)別出Probe、U2R、R2L等多種網(wǎng)絡(luò)攻擊類型。另一項(xiàng)研究中,Ren等人[7]則構(gòu)建了一個(gè)融合隨機(jī)森林與K均值算法的混合入侵檢測(cè)系統(tǒng),該系統(tǒng)在提升檢測(cè)準(zhǔn)確性的同時(shí),也保持了較低的誤檢率。然而,值得注意的是,無(wú)論是文獻(xiàn)[6]還是文獻(xiàn)[7]中的方法,均未充分重視數(shù)據(jù)中的冗余特征問(wèn)題,它們主要聚焦于模型精度的提升,卻在一定程度上忽視了模型的魯棒性構(gòu)建。這意味著,盡管這些模型在特定數(shù)據(jù)集上表現(xiàn)出色,但在面對(duì)非特定或未知數(shù)據(jù)集時(shí),可能會(huì)遭遇誤檢和錯(cuò)檢的風(fēng)險(xiǎn)增加。Gou等人[8]在研究中嘗試通過(guò)引入隨機(jī)性機(jī)制來(lái)減輕冗余特征對(duì)隨機(jī)森林模型檢測(cè)性能的負(fù)面影響,這一策略確實(shí)在一定程度上提升了模型的檢測(cè)效果。然而,這種隨機(jī)選擇特征的方法也伴隨著潛在的風(fēng)險(xiǎn),即有可能在減少冗余特征的同時(shí),不經(jīng)意地削弱了有效特征的表達(dá)力,進(jìn)而對(duì)模型的最終檢測(cè)結(jié)果準(zhǔn)確性造成不利影響。
上述研究主要集中在模型檢測(cè)精度提升,但忽略了特征有效表達(dá)不充分和冗余特征干擾等問(wèn)題。此外,針對(duì)入侵檢測(cè)真實(shí)場(chǎng)景下的數(shù)據(jù)集不平衡問(wèn)題并未對(duì)訓(xùn)練數(shù)據(jù)占比進(jìn)行深入對(duì)比研究,不能有效衡量檢測(cè)模型是否具有較強(qiáng)魯棒性。
基于此,本文提出了一種多粒度級(jí)聯(lián)森林優(yōu)化算法的網(wǎng)絡(luò)入侵檢測(cè)模型,對(duì)源數(shù)據(jù)進(jìn)行歸一化預(yù)處理,避免奇異值特征在計(jì)算過(guò)程種造成誤差,然后通過(guò)Fisher Score法對(duì)特征進(jìn)行排序選擇,從而獲得特征子集,將特征子集作為特征數(shù)據(jù)傳輸給卷積層,利用卷積計(jì)算特性對(duì)其特征進(jìn)行深度挖掘,將挖掘信息通過(guò)級(jí)聯(lián)層森林對(duì)其分類,進(jìn)而有效識(shí)別復(fù)雜多變的網(wǎng)絡(luò)攻擊。實(shí)驗(yàn)結(jié)果表明,本文算法在入侵檢測(cè)過(guò)程具有較高的準(zhǔn)精確率和較低的誤檢率,相對(duì)傳統(tǒng)算法有一定優(yōu)勢(shì)。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://ihrv.cn/resource/share/2000006222
作者信息:
劉學(xué)朋,于東升,胡鐵娜,李京儒,陳廣勇,曲潔
(公安部第三研究所網(wǎng)絡(luò)安全等級(jí)保護(hù)中心,北京100142)