《電子技術應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 設計應用 > 一種新的基于數(shù)據(jù)挖掘技術的異常入侵檢測系統(tǒng)研究
一種新的基于數(shù)據(jù)挖掘技術的異常入侵檢測系統(tǒng)研究
來源:電子技術應用2010年第8期
曲 萍
唐山學院 計算機科學與技術系,河北 唐山063000
摘要: 為了解決異常入侵檢測系統(tǒng)中出現(xiàn)的噪音數(shù)據(jù)信息干擾、不完整信息挖掘和進攻模式不斷變化等問題,提出了一種新的基于數(shù)據(jù)挖掘技術的異常入侵檢測系統(tǒng)模型。該模型通過數(shù)據(jù)挖掘技術、相似度檢測、滑動窗口和動態(tài)更新規(guī)則庫的方法,有效地解決了數(shù)據(jù)純凈難度問題,提高了檢測效率,增加了信息檢測的預警率,實現(xiàn)了對檢測系統(tǒng)的實時更新。
中圖分類號: TP393
文獻標識碼: A
文章編號: 0258-7998(2010)08-0145-05
A new exception intrusion detection system based on data mining
QU Ping
Computer Science and Technology Department, Tangshan University, Tangshan 063000,China
Abstract: In order to solve the anomalies of intrusion detection system of noise interference, incomplete data information inference and attack mode changes, etc, this paper proposes a new exception intrusion detection system based on data mining model. Through the data mining technology, similarity detection, sliding window and dynamic update rules, this model effective method to solve the difficult problem, pure data to increase the detection efficiency, increase the detection rate of early warning information, realize the real-time updating detection system.
Key words : intrusion detection; data mining; sliding window; similarity detection; network security

    入侵檢測系統(tǒng)IDS(intrusion detection system)是用戶計算機主動安全防護的一種措施,它用于檢測未經(jīng)用戶授權直接進行計算機信息訪問的行為,它從系統(tǒng)內(nèi)部和各種網(wǎng)絡資源中主動采集信息,從中分析可能的異常入侵。根據(jù)入侵檢測方法,IDS分為異常檢測系統(tǒng)和誤用檢測系統(tǒng)兩大類。誤用檢測系統(tǒng)只能檢測出已知特征模式的攻擊,對未知特征模式的攻擊無法檢測。而異常檢測系統(tǒng)采用將系統(tǒng)當前的活動與過去行為模型進行比較的方法,能夠有效地對新的、未知的攻擊進行檢測[1-3]。參考文獻[4] 提出了基于強規(guī)則和弱規(guī)則的關聯(lián)規(guī)則挖掘方法來檢測異常操作較少和分布時間長等不易的網(wǎng)絡攻擊。同時建立以各屬性為節(jié)點的貝葉斯網(wǎng)絡作為異常判別器,進一步判別關聯(lián)規(guī)則挖掘中發(fā)現(xiàn)的可疑行為,提高了系統(tǒng)檢測的準確率。但是在數(shù)據(jù)訓練階段,根據(jù)數(shù)據(jù)挖掘的要求,需要對原始的無攻擊的純凈數(shù)據(jù)信息進行數(shù)據(jù)預處理,訓練成適合數(shù)據(jù)挖掘的數(shù)據(jù)記錄,而數(shù)據(jù)信息抓取過程中受到網(wǎng)絡實時更新等因素的影響無法避免數(shù)據(jù)噪音,進而影響數(shù)據(jù)信息本身的安全性,依此數(shù)據(jù)信息訓練的數(shù)據(jù)項集本身也就存在了安全隱患。參考文獻[5]采用變長序列模式匹配算法對程序歷史行為和當前行為進行比較,聯(lián)合使用多個窗長度和判決門限對程序行為進行判決,提高了檢測的準確率和靈活性。但由于網(wǎng)絡數(shù)據(jù)信息量不斷膨脹,多窗口長度和判決門限會增加計算機的運算量,造成數(shù)據(jù)擁塞,網(wǎng)絡負載加大。參考文獻[6]提出了一種基于時態(tài)知識模型和可變滑動窗口的實時模式提取算法,并在此基礎上,實現(xiàn)了基于規(guī)則的、層次化的智能入侵檢測原型系統(tǒng)。但在匹配算法中需要逐一遍歷,對于復雜數(shù)據(jù)信息實時性難以體現(xiàn)。參考文獻[7]提出了一種具有自主學習、自主完善功能的入侵監(jiān)測模型,可發(fā)現(xiàn)已知和未知的異常入侵活動。但該模型中評估指標不具備完善性,對短時間內(nèi)正常進程記錄監(jiān)管有限,從而更新的規(guī)則庫存在安全隱患。基于以上問題,本文提出了一種新的基于數(shù)據(jù)挖掘技術的異常入侵檢測系統(tǒng)ANEIDSDM(A New Exception Intrusion Detection System based on Data Mining)。
1 ANEIDSDM模型概述
    在ANEIDSDM模型中,數(shù)據(jù)信息E是否異常,由數(shù)據(jù)評估W決定。只有當數(shù)據(jù)評估通過數(shù)據(jù)信息異常檢測,滿足相似度、支持度和置信區(qū)閾值時,數(shù)據(jù)信息E才被認為是正常的數(shù)據(jù)信息,否則為異常。
 數(shù)據(jù)信息是分散地存儲于計算機和傳播于網(wǎng)絡中的,對于數(shù)據(jù)的采集是基于一定條件的,有基于主機的信息采集,也有基于網(wǎng)絡的信息采集和混合型的數(shù)據(jù)信息采集等[8]。當數(shù)據(jù)信息采集完成后,會經(jīng)過數(shù)據(jù)預處理,形成數(shù)據(jù)項集S,對S分類產(chǎn)生高頻繁集和低頻繁集。對于高頻繁數(shù)據(jù)項集進行模式分析,形成數(shù)據(jù)模式集O。每一種模式集都對應一種數(shù)據(jù)規(guī)則,對數(shù)據(jù)模式集的數(shù)據(jù)分析處理過程就是數(shù)據(jù)挖掘規(guī)則過程,數(shù)據(jù)規(guī)則集Q形成后,為了便于檢測,對其進行分類分析二次數(shù)據(jù)挖掘,形成分類規(guī)則集,最終形成規(guī)則庫K。經(jīng)過多次訓練后,數(shù)據(jù)采集的規(guī)則庫具有一定的記憶,當數(shù)據(jù)進行抓取時結(jié)合記憶庫和規(guī)則庫的雙重考核,數(shù)據(jù)信息更加安全可信。
 數(shù)據(jù)挖掘過程中對數(shù)據(jù)項集分析產(chǎn)生的數(shù)據(jù)模式可能有用,也可能是無關的。所以為了節(jié)約計算機存儲空間和數(shù)據(jù)挖掘速度,采取以某一主屬性為特征屬性的方式對數(shù)據(jù)信息E進行挖掘。當待測數(shù)據(jù)信息E進行攻擊時,啟動檢測系統(tǒng),快速對其數(shù)據(jù)信息進行分析,形成數(shù)據(jù)規(guī)則集V,對規(guī)則集V實行分類匹配,對比相似度,搜索與之相對應或相類似的規(guī)則庫對其規(guī)則集進行檢驗。若異常,則實行預警,否則以正常信息對待。當數(shù)據(jù)信息龐雜時,根據(jù)分類規(guī)則庫,可快捷對數(shù)據(jù)規(guī)則集實行查找匹配,快速對數(shù)據(jù)信息進行檢測。
 數(shù)據(jù)檢測時結(jié)合在線滑動窗口T,不僅對原始獲取數(shù)據(jù)信息進行實時檢測,而且對當前由用戶操作所引起的原始數(shù)據(jù)部分信息丟失、更改等現(xiàn)象具有一定的處理應變能力。當數(shù)據(jù)評估W完成后,評估結(jié)果存入決策列表L中,以供用戶決策。
 其思想有以下特點:(1)數(shù)據(jù)信息的采集結(jié)合主屬性產(chǎn)生高頻和低頻數(shù)據(jù)項集,減少了無關信息的處理過程。(2)采取關聯(lián)分析和分類分析二次挖掘,數(shù)據(jù)處理速度和數(shù)據(jù)挖掘質(zhì)量有明顯的提高。(3)在線檢測數(shù)據(jù)記錄匹配,實時性更高。(4)引入相似度匹配檢測思想,實現(xiàn)快速數(shù)據(jù)評估。
2 相關知識與定義
2.1數(shù)據(jù)挖掘

 數(shù)據(jù)挖掘(Data Mining)是指從大量數(shù)據(jù)信息中發(fā)現(xiàn)數(shù)據(jù)間的潛在規(guī)律,進而提取人們感興趣的和有用的知識的方法和技術,這些知識具有隱含性、未知性、異常性,但又是潛在的對系統(tǒng)安全檢測有用的信息[9]。數(shù)據(jù)挖掘過程一般由三個階段組成:數(shù)據(jù)準備階段(包括數(shù)據(jù)清理與集成、數(shù)據(jù)選擇與變換)、數(shù)據(jù)挖掘階段、評估與表示階段(結(jié)果表達與解釋)。數(shù)據(jù)挖掘的模式有關聯(lián)模式、分類模式、回歸模式、時間序列模式、聚類模式和序列模式六種[10]。與數(shù)據(jù)挖掘的模式相對應的數(shù)據(jù)挖掘算法有:關聯(lián)分析算法、數(shù)據(jù)分類算法、序列分析算法和聚類分析算法等。目前,應用于入侵檢測領域的數(shù)據(jù)挖掘算法主要是關聯(lián)分析算法、數(shù)據(jù)分類算法和序列分析算法。
    (1)數(shù)據(jù)預處理
 數(shù)據(jù)預處理模塊處理原始數(shù)據(jù)包,抽取對應的主特征屬性組成數(shù)據(jù)信息集,提供給數(shù)據(jù)挖掘模塊。由于數(shù)據(jù)連接過程需要傳送許多數(shù)據(jù)包,而這些數(shù)據(jù)包的基本屬性很多是重復的,所以對于TCP連接,從連接建立到連接終止過程中所有數(shù)據(jù)包的傳送抽象為一個連接事件,而對每一個連接事件建立一個與之相對應的數(shù)據(jù)項集。對無連接的UDP,可簡單地將每一個數(shù)據(jù)包抽象成一個連接事件。
   (2)關聯(lián)規(guī)則挖掘
 關聯(lián)規(guī)則是指對數(shù)據(jù)項集中各種數(shù)據(jù)模式的有代表性的數(shù)據(jù)之間知識規(guī)律的規(guī)則描述。在入侵檢測系統(tǒng)中,設定一個最小支持度和一個最小置信度來度量關聯(lián)規(guī)則的相關性,從已知的數(shù)據(jù)信息中產(chǎn)生關聯(lián)規(guī)則,保證其支持度和置信度大于用戶預先設定的最小支持度和最小置信度閾值。其過程為:①特征抽取與數(shù)據(jù)預處理。數(shù)據(jù)信息被采集后形成數(shù)據(jù)項集,每一個數(shù)據(jù)項集以一個主屬性為參考,對無關數(shù)據(jù)項集進行處理。②關聯(lián)規(guī)則挖掘分析。對數(shù)據(jù)模式中關聯(lián)規(guī)則的數(shù)據(jù)進行規(guī)則挖掘。③檢測入侵。將新產(chǎn)生的關聯(lián)規(guī)則添加到關聯(lián)規(guī)則庫中去,然后將用戶行為與關聯(lián)規(guī)則庫中的規(guī)則匹配來判斷是否入侵。常見的算法有Apriori算法和AprioriTid算法。
 (3)頻度分析
 頻度分析是指在一定時間窗口事件發(fā)生的頻度,它有高頻和低頻繁兩種[11]。①高頻挖掘:即數(shù)據(jù)項集的屬性集大于一定支持度和置信度,如DDOS攻擊,在高頻繁挖掘時就能檢測出這類攻擊。②低頻繁挖掘:即數(shù)據(jù)項集的屬性集支持度低于一定閾值而置信度大于一定閾值,如慢掃描過程在單位時間內(nèi)異常掃描較少,假如只檢查高頻數(shù)據(jù)項集,就會漏掉這類模式的攻擊。
 (4)數(shù)據(jù)分類分析
 數(shù)據(jù)分類的目的是提取數(shù)據(jù)庫中數(shù)據(jù)項的特征屬性,生成分類模型,把數(shù)據(jù)庫中的數(shù)據(jù)項映射到預先定義的類別中的一個,異常入侵檢測時它可以用數(shù)據(jù)規(guī)則集的形式表示[12]。數(shù)據(jù)分類的步驟如下:①訓練數(shù)據(jù)項集,將待測數(shù)據(jù)信息訓練成數(shù)據(jù)規(guī)則集。②分析數(shù)據(jù)規(guī)則集,提取主特征屬性。③根據(jù)標準數(shù)據(jù)規(guī)則庫中數(shù)據(jù)規(guī)則集對待測數(shù)據(jù)規(guī)則集進行分類。常用的分類算法有RIPPER、m3、C4.5、Near-neighbor和神經(jīng)網(wǎng)絡等。
2.2 基礎定義
 定義1 滑動窗口。在t時間內(nèi),數(shù)據(jù)匹配檢測的范圍。    設開始時間為t=nt0,則滑動窗口T的檢測范圍為t=T+nt0。其中,t0為步長,T為窗口大小,t為時間。一般T是固定值[13],為用戶默認,專家可根據(jù)系統(tǒng)安全等級設置其值大小。
 定義2 相似度。數(shù)據(jù)挖掘規(guī)則庫與系統(tǒng)檢測匹配規(guī)則庫的相似性度量值。
  
    定義3 數(shù)據(jù)評估。對數(shù)據(jù)規(guī)則是否符合系統(tǒng)安全的衡量。
    設數(shù)據(jù)評估為W,則W=[正常,異常],其評估過程為在滑動窗口T內(nèi)對規(guī)則庫Ki的相似匹配和檢測匹配。
2.3 ANEIDSDM定義
    本模型由一個10元組{E,S,O,Q,P,K,W,T,M,L}來表示。其中E表示數(shù)據(jù)信息,包含基于網(wǎng)絡流量,基于主機和混合型的數(shù)據(jù)信息。當獲取數(shù)據(jù)信息E后,對其形成主屬性為采集標準的數(shù)據(jù)項集S,如在時間、方向、端口號、主機IP地址等屬性中,以目的主機IP地址為主屬性,采集的所有數(shù)據(jù)記錄經(jīng)過數(shù)據(jù)去噪、預處理后形成數(shù)據(jù)項集。數(shù)據(jù)項集S經(jīng)過數(shù)據(jù)模式分析后形成數(shù)據(jù)模式集,用O來表示。每種數(shù)據(jù)模式都對應一種數(shù)據(jù)規(guī)則算法,經(jīng)過數(shù)據(jù)挖掘,形成數(shù)據(jù)規(guī)則集,用Q來表示。對數(shù)據(jù)挖掘的規(guī)則集進行分類分析,形成數(shù)據(jù)分類集,用P來表示。數(shù)據(jù)挖掘的結(jié)果最終形成規(guī)則庫K。數(shù)據(jù)挖掘完成后需要對數(shù)據(jù)挖掘結(jié)果進行數(shù)據(jù)評估,用W來表示。在數(shù)據(jù)評估過程中引入滑動窗口T和相似度M,數(shù)據(jù)評估結(jié)束后結(jié)果添加在決策列表L,提供給用戶。用戶響應后,規(guī)則庫K自動更新。
3 模型
 ANEIDSDM模型的框架如圖1所示。本框架由以下幾部分組成:(1)數(shù)據(jù)信息。數(shù)據(jù)信息既有基于網(wǎng)絡流量的,也有基于主機的,亦有混合型數(shù)據(jù)信息。(2)數(shù)據(jù)采集。數(shù)據(jù)采集包括數(shù)據(jù)獲取,數(shù)據(jù)去噪和數(shù)據(jù)預處理3個部分。數(shù)據(jù)信息的采集是數(shù)據(jù)挖掘的基礎階段,采集數(shù)據(jù)質(zhì)量的好壞直接影響到數(shù)據(jù)挖掘質(zhì)量的優(yōu)劣。(3)數(shù)據(jù)分析。數(shù)據(jù)采集后需要對其進行模式分析,根據(jù)模式分析的方式選取合適的規(guī)則庫算法,形成規(guī)則庫挖掘。對數(shù)據(jù)挖掘產(chǎn)生的規(guī)則庫進行二次挖掘,產(chǎn)生分類規(guī)則庫。(4)數(shù)據(jù)評估。對數(shù)據(jù)挖掘的結(jié)果需要進行數(shù)據(jù)評估,為了提高數(shù)據(jù)匹配算法的實時性和高效性,引入了在線滑動窗口和相似度匹配思想,對于數(shù)據(jù)挖掘產(chǎn)生的規(guī)則庫根據(jù)相似度匹配算法快速分類,然后通過滑動窗口在線對規(guī)則庫進行匹配檢測。(5)事件響應。對數(shù)據(jù)評估的結(jié)果進行決策,如果確定為異常數(shù)據(jù)記錄,則啟動預警系統(tǒng),更新規(guī)則庫。規(guī)則庫作為數(shù)據(jù)去噪和數(shù)據(jù)挖掘的一個參考衡量標準,可以提高數(shù)據(jù)純凈度和數(shù)據(jù)挖掘質(zhì)量。(6)用戶。用戶對事件響應有決策權,事件響應反映給用戶時,用戶可根據(jù)自己設置的系統(tǒng)安全等級選擇是否預警。

4 算法分析
    ANEIDSDM模型的算法流程圖如圖2所示。ANEIDSDM模型采用滑動窗口和相似度技術,窗口大小為T,步長為t0(t0<T),相似度為m,具體方案如下:

    (1)數(shù)據(jù)信息訓練算法
  輸入:數(shù)據(jù)信息E,滑動窗口T,時間t,相似度m,窗口個數(shù)k,步長t0。
  輸出:數(shù)據(jù)挖掘規(guī)則庫K。
   
  
    將數(shù)據(jù)規(guī)則集中重復度小于最小閾值的規(guī)則舍去,輸出規(guī)則庫K;
 (2)檢測階段的數(shù)據(jù)信息挖掘過程算法
 輸入:數(shù)據(jù)信息E,滑動窗口T,時間t,相似度m,窗口個數(shù)k,步長t0,數(shù)據(jù)挖掘規(guī)則庫K,待測數(shù)據(jù)規(guī)則為V。
       

    ⑤if W={異常}重復②、③、④ //對滑動時間窗口得到數(shù)據(jù)規(guī)則集進行數(shù)據(jù)評估;
    L=W  //每次檢測結(jié)果提交決策列表以供用戶決策;
5 實驗分析
    數(shù)據(jù)參考MIT林肯實驗的DARPA 1999年評測數(shù)據(jù)集。由于數(shù)據(jù)信息自身的復雜性,需要對數(shù)據(jù)信息進行多次訓練以降低數(shù)據(jù)噪音的影響。在本實驗中對ANEIDSDM算法進行模擬測試分為兩個階段:
    (1)為數(shù)據(jù)訓練階段:首先收集數(shù)據(jù)信息,依此數(shù)據(jù)信息對其抽取特征主屬性,挖掘高頻度數(shù)據(jù)項集和低頻數(shù)據(jù)項集,對高頻數(shù)據(jù)項集進行數(shù)據(jù)模式集,對數(shù)據(jù)模式集進行數(shù)據(jù)挖掘,形成數(shù)據(jù)規(guī)則集,最后對數(shù)據(jù)規(guī)則集進行分類,形成標準規(guī)則庫。實驗時分為3個階段收集,實現(xiàn)3次訓練,如表1所示。

    (2)數(shù)據(jù)模擬檢測階段:對待測數(shù)據(jù)信息進行數(shù)據(jù)規(guī)則集的挖掘,根據(jù)與標準規(guī)則庫中分類規(guī)則集的相似度對比,快速分類,通過在線滑動窗口和匹配檢測方法,對數(shù)據(jù)信息進行異常入侵檢測。若屬于異常信息,則進行預警。實驗時通過對7種常見攻擊類型的模式進行異常入侵檢測,如表2所示。

  通過模擬攻擊實驗表明,數(shù)據(jù)信息經(jīng)過ANEIDSDM入侵檢測能夠很好地檢測異常數(shù)據(jù)信息,其誤警率和檢測率都有了明顯的提高。本實驗同時可以有效地提高入侵檢測系統(tǒng)的檢測速度。
    本文針對現(xiàn)有異常入侵檢測系統(tǒng)存在的問題,建立了一種新的基于數(shù)據(jù)挖掘技術的異常入侵檢測系統(tǒng)模型。該模型包括數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)評估、事件響應等一系列檢測過程,利用多次訓練、滑動窗口、規(guī)則分類和相似度匹配思想,大大降低了系統(tǒng)的誤警率,提高了檢測速度,提升了檢測率,增強了網(wǎng)絡系統(tǒng)的安全性能。
參考文獻
[1]  VERWORD T,HUNT R. Intrusion detection techniques and approaches[J].Computer Communication,2002,25(15): 1356.1365.
[2]  LANE T. Machine learning techniques for the computer  security domain of anomaly detection[D]. Purdue University,2000.
[3]  MUKKAMALA S, SUNG A H,ABRAHAM A. Intrusion detection using all ensemble of intelligent paradigms[J].Journal of Network and Computer Application,2005,28(2):167-182.
[4]  呂志軍,袁衛(wèi)忠,仲海駿,等. 基于數(shù)據(jù)挖掘的異常入侵檢測系統(tǒng)研究[J].計算機科學,2004,31(10):61-65.
[5]  田新廣,李文法,段洣毅,等. 基于數(shù)據(jù)挖掘和變長序列模式匹配的程序行為異常檢測[J].信號處理,2008,24(4):521-555.
[6]  凌軍,曹陽,尹建華,等. 基于時態(tài)知識模型的網(wǎng)絡入侵檢測方法研究[J].計算機學報,2003,26(11):1591-1597.
[7]  楊向榮,宋擒豹,沈鈞毅,等. 基于數(shù)據(jù)挖掘的智能化入侵檢測系統(tǒng)[J].計算機工程,2001,27(9):17-102.
[8]  BARFORD P,HIINE J,PLONKA D,et al. A signal analysis of network traffic anomalies[J].Internet Measurement Workshop,2002,7:1-82.
[9]  YE N, LI Xiang Yatig,CHEN Qiang. Probabilistic techniques for intrusion detection based on computer audit data[J]. Man and Cybernetics,Part A,IEEE Transactions on 2001:31(4):266-274.
[10] YE N,EMRAN S M,CHEN Q, et a1. Multivariate statistical analysis of audit trails for host-based intrusion detection[J].IEEE Transactions on Computers,2002,51(7):810-820.
[11] OH S H,LEE W. A clustering based anomaly intrusion  detection for a host computer[J].IEICE Transactions on In.formation and Systems,2004,E87-D(8):2086-2094.
[12] HOFMEYR S A,F(xiàn)ORREST S,SOMAYAJI A. Intrusion detection using sequences of system calls[J]. Journal of  Computer Security,1998(6):151-180.
[13] LANE T,CARLA E B. An empirical study of two approaches to sequence learning for anomaly detection[J].Machine Learning,2003,51(1):73-107.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉(zhuǎn)載。