文獻標(biāo)識碼: A、
DOI: 10.20044/j.csdg.2097-1788.2022.02.003
引用格式: 凌仕勇,龔錦紅. 基于SVM和Word2Vec的Web應(yīng)用入侵檢測系統(tǒng)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(2):13-19.
0 引言
隨著高校信息化的發(fā)展,高校應(yīng)用系統(tǒng)中積累了大量的師生、教學(xué)、科研、管理方面的業(yè)務(wù)數(shù)據(jù)。而隨著各業(yè)務(wù)系統(tǒng)的對外訪問,網(wǎng)絡(luò)安全問題日趨嚴重。目前,校園網(wǎng)安全運維主要是通過網(wǎng)絡(luò)安全產(chǎn)品如防火墻、IDS、IPS等設(shè)備來實現(xiàn),總體效果不佳,一個重要的原因是忽視了日志在校園網(wǎng)管理中的作用。校園網(wǎng)中的網(wǎng)絡(luò)產(chǎn)品、服務(wù)器、應(yīng)用系統(tǒng)等軟硬件運行過程中產(chǎn)生大量的日志,記錄了系統(tǒng)運行,使用者、攻擊者的訪問行為,可以通過對這些日志的綜合分析和處理,有效解決校園網(wǎng)運行中遇到的安全問題。
Web入侵檢測是針對Web應(yīng)用的一種入侵檢測技術(shù),通過對Web應(yīng)用的請求分析,檢測和識別Web攻擊行為。在已有研究中,周勇祿[1]使用Web日志中動態(tài)頁面的參數(shù)值長度、字符分布等數(shù)據(jù),建立了基于統(tǒng)一異常的檢測模型。Estevez-Tapiador等[2]對日志URL進行了劃分,對應(yīng)到馬爾科夫模型的不同狀態(tài),使用狀態(tài)轉(zhuǎn)移矩陣,根據(jù)模型達到終態(tài)的概率判斷日志的合法性。Le[3]將Web入侵的URL根據(jù)不同部分進行切割,包括域名、路徑、參數(shù)等,并對每個部分進行選定特征的提取。Ma[4]等人提取入侵URL中的host等特征,以此進行Web應(yīng)用入侵威脅檢測。Kolar[5]等人則采用詞袋模型解決Web威脅入侵的檢測問題。
高校信息系統(tǒng)一般分散部署在各個服務(wù)器中,導(dǎo)致所產(chǎn)生的日志也比較分散。高凱[6]研究了大數(shù)據(jù)環(huán)境下,采用分布式數(shù)據(jù)流的四個子系統(tǒng):數(shù)據(jù)采集子系統(tǒng)、消息處理子系統(tǒng)、流式計算子系統(tǒng)和數(shù)據(jù)存儲子系統(tǒng),進行用戶大規(guī)模日志安全分析。陳付梅等[7-9]介紹了大規(guī)模系統(tǒng)的日志模式提煉算法的優(yōu)化方法。上述研究從不同角度構(gòu)建了針對Web應(yīng)用的入侵檢測模型或系統(tǒng),但主要是通過對URL的分析,提取基于文本的統(tǒng)計特征,從而構(gòu)建分析模型,而沒有考慮到POST請求體的數(shù)據(jù),且在對文本數(shù)據(jù)的特征向量構(gòu)建上,主要以統(tǒng)計特征為主,較少考慮到文本本身的詞匯特性。本文主要針對數(shù)據(jù)中心產(chǎn)生的Web日志進行研究,采用Word2Vec構(gòu)造特征向量,利用支持向量機進行模型訓(xùn)練,并基于MapReduce并行計算模型,給出了一種海量數(shù)據(jù)異常入侵檢測算法。通過此系統(tǒng)對日志事件進行并行挖掘分析,可以很好地發(fā)現(xiàn)安全攻擊事件,得出平臺整體的安全態(tài)勢,為數(shù)據(jù)中心正常運轉(zhuǎn)提供安全保障。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000004853
作者信息:
凌仕勇1,龔錦紅2
(1.華東交通大學(xué) 網(wǎng)絡(luò)信息中心,江西 南昌330013;
2.華東交通大學(xué) 電氣與自動化工程學(xué)院,江西 南昌330013)