文獻(xiàn)標(biāo)識(shí)碼: A、
DOI: 10.20044/j.csdg.2097-1788.2022.02.003
引用格式: 凌仕勇,龔錦紅. 基于SVM和Word2Vec的Web應(yīng)用入侵檢測系統(tǒng)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(2):13-19.
0 引言
隨著高校信息化的發(fā)展,高校應(yīng)用系統(tǒng)中積累了大量的師生、教學(xué)、科研、管理方面的業(yè)務(wù)數(shù)據(jù)。而隨著各業(yè)務(wù)系統(tǒng)的對(duì)外訪問,網(wǎng)絡(luò)安全問題日趨嚴(yán)重。目前,校園網(wǎng)安全運(yùn)維主要是通過網(wǎng)絡(luò)安全產(chǎn)品如防火墻、IDS、IPS等設(shè)備來實(shí)現(xiàn),總體效果不佳,一個(gè)重要的原因是忽視了日志在校園網(wǎng)管理中的作用。校園網(wǎng)中的網(wǎng)絡(luò)產(chǎn)品、服務(wù)器、應(yīng)用系統(tǒng)等軟硬件運(yùn)行過程中產(chǎn)生大量的日志,記錄了系統(tǒng)運(yùn)行,使用者、攻擊者的訪問行為,可以通過對(duì)這些日志的綜合分析和處理,有效解決校園網(wǎng)運(yùn)行中遇到的安全問題。
Web入侵檢測是針對(duì)Web應(yīng)用的一種入侵檢測技術(shù),通過對(duì)Web應(yīng)用的請(qǐng)求分析,檢測和識(shí)別Web攻擊行為。在已有研究中,周勇祿[1]使用Web日志中動(dòng)態(tài)頁面的參數(shù)值長度、字符分布等數(shù)據(jù),建立了基于統(tǒng)一異常的檢測模型。Estevez-Tapiador等[2]對(duì)日志URL進(jìn)行了劃分,對(duì)應(yīng)到馬爾科夫模型的不同狀態(tài),使用狀態(tài)轉(zhuǎn)移矩陣,根據(jù)模型達(dá)到終態(tài)的概率判斷日志的合法性。Le[3]將Web入侵的URL根據(jù)不同部分進(jìn)行切割,包括域名、路徑、參數(shù)等,并對(duì)每個(gè)部分進(jìn)行選定特征的提取。Ma[4]等人提取入侵URL中的host等特征,以此進(jìn)行Web應(yīng)用入侵威脅檢測。Kolar[5]等人則采用詞袋模型解決Web威脅入侵的檢測問題。
高校信息系統(tǒng)一般分散部署在各個(gè)服務(wù)器中,導(dǎo)致所產(chǎn)生的日志也比較分散。高凱[6]研究了大數(shù)據(jù)環(huán)境下,采用分布式數(shù)據(jù)流的四個(gè)子系統(tǒng):數(shù)據(jù)采集子系統(tǒng)、消息處理子系統(tǒng)、流式計(jì)算子系統(tǒng)和數(shù)據(jù)存儲(chǔ)子系統(tǒng),進(jìn)行用戶大規(guī)模日志安全分析。陳付梅等[7-9]介紹了大規(guī)模系統(tǒng)的日志模式提煉算法的優(yōu)化方法。上述研究從不同角度構(gòu)建了針對(duì)Web應(yīng)用的入侵檢測模型或系統(tǒng),但主要是通過對(duì)URL的分析,提取基于文本的統(tǒng)計(jì)特征,從而構(gòu)建分析模型,而沒有考慮到POST請(qǐng)求體的數(shù)據(jù),且在對(duì)文本數(shù)據(jù)的特征向量構(gòu)建上,主要以統(tǒng)計(jì)特征為主,較少考慮到文本本身的詞匯特性。本文主要針對(duì)數(shù)據(jù)中心產(chǎn)生的Web日志進(jìn)行研究,采用Word2Vec構(gòu)造特征向量,利用支持向量機(jī)進(jìn)行模型訓(xùn)練,并基于MapReduce并行計(jì)算模型,給出了一種海量數(shù)據(jù)異常入侵檢測算法。通過此系統(tǒng)對(duì)日志事件進(jìn)行并行挖掘分析,可以很好地發(fā)現(xiàn)安全攻擊事件,得出平臺(tái)整體的安全態(tài)勢,為數(shù)據(jù)中心正常運(yùn)轉(zhuǎn)提供安全保障。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000004853
作者信息:
凌仕勇1,龔錦紅2
(1.華東交通大學(xué) 網(wǎng)絡(luò)信息中心,江西 南昌330013;
2.華東交通大學(xué) 電氣與自動(dòng)化工程學(xué)院,江西 南昌330013)