引用格式:尤剛,徐蕾,李美鵬,等. 基于機(jī)器學(xué)習(xí)和規(guī)則的網(wǎng)絡(luò)異常流量檢測研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(2):1-9.
引言
在網(wǎng)絡(luò)安全領(lǐng)域,網(wǎng)絡(luò)異常流量檢測至關(guān)重要。當(dāng)前網(wǎng)絡(luò)異常流量檢測方法主要有基于機(jī)器學(xué)習(xí)、基于規(guī)則以及兩者混合的。
機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)方法依賴標(biāo)注好的數(shù)據(jù),在數(shù)據(jù)集質(zhì)量高時能實現(xiàn)較好的檢測效果。例如,Hu[1]等人提出了魯棒性的SVM算法,展現(xiàn)出對噪聲處理的強(qiáng)大能力,增強(qiáng)了模型的穩(wěn)定性;Kabir等人[2]提出了一個改進(jìn)的SVM方法LS-SVM,實驗結(jié)果證明該方法在準(zhǔn)確性和效率方面有了顯著提升。
機(jī)器學(xué)習(xí)中的半監(jiān)督學(xué)習(xí)介于監(jiān)督和無監(jiān)督之間,通過結(jié)合已標(biāo)注正例與未標(biāo)注數(shù)據(jù)訓(xùn)練模型,可實現(xiàn)較好分類性能。Jabbar等人[3]提出了一個以迭代的方式進(jìn)行聚類的半監(jiān)督學(xué)習(xí)器,實驗結(jié)果顯示該方法可以實現(xiàn)較高的準(zhǔn)確率和較低的誤報率。
機(jī)器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)算法不依賴標(biāo)注數(shù)據(jù)集,適應(yīng)性強(qiáng),但準(zhǔn)確性不如有監(jiān)督學(xué)習(xí),且誤報率較高。Syarif等人[4]研究對比了常用的聚類和有監(jiān)督學(xué)習(xí)方法,實驗結(jié)果顯示無監(jiān)督的聚類算法誤報率較高,約為20%。
基于規(guī)則的網(wǎng)絡(luò)異常流量檢測通過將專家定義的規(guī)則與流量進(jìn)行匹配來識別異常流量。Suricata是一個開源的網(wǎng)絡(luò)入侵檢測和阻止引擎,其在多方面表現(xiàn)出色,但存在無法檢測未知流量、實時性差等局限。
混合網(wǎng)絡(luò)異常流量檢測有串行和并行兩大方向。并行檢測中基于規(guī)則的工具和基于機(jī)器學(xué)習(xí)的分類器同步運(yùn)作。例如,Shah等人[5]提出了一個并行處理框架,將Snort與SVM同時運(yùn)作,實驗顯示該系統(tǒng)具有較好的檢測精度。串行檢測則順序運(yùn)用兩者。例如,Chiba[6]等人介紹了一種以Suricata和隔離森林算法為核心的檢測框架,其中Suricata作為初步過濾器,由隔離森林算法進(jìn)行進(jìn)一步的異常流量識別,實現(xiàn)了對未知攻擊的有效檢測。
考慮到系統(tǒng)的效率,本文選擇構(gòu)建串行的檢測系統(tǒng),即將基于機(jī)器學(xué)習(xí)的檢測方法作為第一道過濾器,將基于規(guī)則的工具作為第二道過濾器。然而,現(xiàn)行的流聚類算法存在準(zhǔn)確率較低的問題,導(dǎo)致過多可疑流量被傳遞至Suricata系統(tǒng);此外,Suricata存在無法識別未知異常流量的問題。本文對上述問題進(jìn)行了改進(jìn)研究:
(1)針對流聚類算法準(zhǔn)確率較低的問題,提出了一種可以動態(tài)確定半徑閾值的流聚類算法,并進(jìn)行了對比實驗;(2)針對Suricata系統(tǒng)僅能識別已知的異常流量問題,提出了基于Apriori的含有效負(fù)載約束的規(guī)則生成算法;(3)將基于規(guī)則的Suricata系統(tǒng)和基于機(jī)器學(xué)習(xí)的流聚類算法集成,并進(jìn)行了消融實驗[7]。
本文詳細(xì)內(nèi)容請下載:
http://ihrv.cn/resource/share/2000006336
作者信息:
尤剛1,徐蕾2,李美鵬1,劉文杰1,張鵬1,陸振奎2
(1.96941部隊,北京100085;
2.中國航天時代電子有限公司,北京100094)