123,123,123

基于日志文件的数据挖掘机理分析与研究

2015年微型机与应用第18期

张如云

（徐州机电工程高等职业学校，江苏徐州 221011）

摘要： 介绍了数据挖掘的定义，分析了日志数据面临的挑战及对其进行挖掘的原因。讨论了日志数据挖掘的需求，归纳了对日志数据挖掘的具体内容，总结了日志数据挖掘的具体应用。该研究对加强企事业单位计算机信息系统安全具有较强的指导意义。

關(guān)鍵詞： 日志数据挖掘机理分析

Abstract：

Key words :

　　摘要：介紹了數(shù)據(jù)挖掘的定義，分析了日志數(shù)據(jù)面臨的挑戰(zhàn)及對其進行挖掘的原因。討論了日志數(shù)據(jù)挖掘的需求，歸納了對日志數(shù)據(jù)挖掘的具體內(nèi)容，總結(jié)了日志數(shù)據(jù)挖掘的具體應(yīng)用。該研究對加強企事業(yè)單位計算機信息系統(tǒng)安全具有較強的指導(dǎo)意義。

　　關(guān)鍵詞：日志；數(shù)據(jù)挖掘；機理；分析；研究

0 引言

　　所謂數(shù)據(jù)挖掘（也叫知識發(fā)現(xiàn)[1]），是指發(fā)現(xiàn)大量數(shù)據(jù)中有趣及有用模式和關(guān)系的過程，該領(lǐng)域結(jié)合了統(tǒng)計、人工智能和數(shù)據(jù)庫管理等知識，以方便對大數(shù)據(jù)進行分析。該定義可從如下4個方面進行理解：（1）數(shù)據(jù)挖掘處理的數(shù)據(jù)量非常大；（2）這些數(shù)據(jù)在計算機系統(tǒng)上以機器可讀的格式存在，是結(jié)構(gòu)化的數(shù)據(jù)；（3）利用數(shù)據(jù)可能會得出一些有用的結(jié)論，也可能無法得出結(jié)論；（4）要想獲得一些有用的結(jié)論，需對數(shù)據(jù)進行搜索或者分析。

　　對日志數(shù)據(jù)進行數(shù)據(jù)挖掘的目的[2]有兩個：（1）改進日志分析的質(zhì)量，提供更好的結(jié)論和預(yù)測能力；（2）提出不需要少有且昂貴的專業(yè)知識的高級和有效方法。通過對日志數(shù)據(jù)進行數(shù)據(jù)挖掘和其他高級自動化分析方法，可將大部分分析的負擔轉(zhuǎn)移到軟件和自動化系統(tǒng)上，遠離具備超常技能的分析人員。這樣的分析在過程的早期階段是重要的。在這種情況下，可定義數(shù)據(jù)挖掘過程的細節(jié)，然后讓技能水平較低的操作人員運行算法，并對結(jié)果采取行動，而不會降低效率。

1 日志數(shù)據(jù)面臨的挑戰(zhàn)

　　在理想的狀況下，大都希望減少人為工作量，提升自動化系統(tǒng)在日志分析中的重要性。而對日志進行數(shù)據(jù)挖掘[3]就是一種有效的方法，但日志分析會面臨如下挑戰(zhàn)。（1）數(shù)據(jù)過多：日志數(shù)據(jù)的體積很大，超出了分析系統(tǒng)和分析人員的能力，從而摧毀了獲得結(jié)論的可能性。確實，日志可能達到數(shù)GB，并擴大到數(shù)TB，因而就需要選擇專門工具來應(yīng)對這種“洪泛”。（2）數(shù)據(jù)不足：因為各種不同的原因，數(shù)據(jù)的關(guān)鍵部分易缺失，從而使日志分析超出了應(yīng)有的難度。（3）記錄各種各樣：需要分析太多不同和不相似的日志來源，才能得出真相。這個問題是因為缺乏統(tǒng)一的審計標準，大部分應(yīng)用程序的日志都采用創(chuàng)建者開發(fā)的格式，從而導(dǎo)致大量分析上的挑戰(zhàn)。（4）數(shù)據(jù)重復(fù)：不同的日志引用相同事件，沒有任何指示。這種情況往往因為不同日志源缺乏時間同步而變得更加復(fù)雜。

2 對日志進行數(shù)據(jù)挖掘的原因

　　雖然現(xiàn)已有很多技術(shù)可應(yīng)對日志數(shù)據(jù)的挑戰(zhàn)，但仍需對日志進行數(shù)據(jù)挖掘，其原因如下：（1）通過啟用更多類似人類的模式識別，只需要在分析的早期階段具備較高的專業(yè)知識，從而減少對高技能分析人員的依賴。（2）處理其他較為常規(guī)的方法，但對稀疏數(shù)據(jù)無法進行有效分析。（3）檢測其他無法發(fā)現(xiàn)的事實，日志數(shù)據(jù)挖掘能夠提高檢測入侵痕跡的效率。（4）將結(jié)論生成的負擔轉(zhuǎn)移到機器上，這樣，目前僅能由人類完成的任務(wù)也可實現(xiàn)自動化?？筛鶕?jù)結(jié)論采取的行動，從而避免為了解所發(fā)生的情況而絞盡腦汁。（5）嘗試預(yù)測問題，而不是尋找處理已發(fā)生情況的方法。雖然數(shù)據(jù)挖掘不提供對這類預(yù)測的保證，但確實比其他方法更接近目標。

3 日志數(shù)據(jù)挖掘的需求分析

　　日志數(shù)據(jù)挖掘的許多需求與重要的日志分析一樣，但有些附加因素可能會使日志數(shù)據(jù)更適合于挖掘，或?qū)⒖蛇x需求轉(zhuǎn)變?yōu)閺娭菩孕枨蟆?/p>

　　3.1 數(shù)據(jù)集中化

　　對于過濾和總結(jié)等常規(guī)日志分析來說，只關(guān)注一個位置是很好的，而對于日志挖掘這一點變得很關(guān)鍵，因為挖掘算法比任何分析人員處理的數(shù)據(jù)都要多得多。

　　3.2 規(guī)范化

　　如上所述，查看集中化的不同數(shù)據(jù)源需要統(tǒng)一的信息格式，這種格式并不是真正的標準，只是表現(xiàn)日志數(shù)據(jù)的統(tǒng)一方式。

　　3.3 關(guān)系存儲

　　關(guān)系數(shù)據(jù)存儲是不可缺少的。但是如果只進行監(jiān)督的分析和過濾，那這樣做就沒有什么價值。這種規(guī)范化可通過搜索日志中的公共字段實現(xiàn)。常見的字段包括：時間、來源、目標、協(xié)議、端口、用戶名、事件/攻擊類型、交換字節(jié)數(shù)等。因此，規(guī)范化和集中化數(shù)據(jù)可能受制于日志數(shù)據(jù)挖掘算法?，F(xiàn)在，應(yīng)做好準備研究應(yīng)用數(shù)據(jù)挖掘所要尋找的內(nèi)容。

4 對日志數(shù)據(jù)挖掘什么

　　數(shù)據(jù)挖掘方法在不確定所需搜索內(nèi)容時最有用。如何找到有趣的信息？系統(tǒng)管理員和安全分析人員覺得有趣和有幫助的信息有如下6種。

　　4.1 受感染的系統(tǒng)傳播惡意軟件

　　在許多情況下很明顯，每個安全管理員對受感染后在企業(yè)范圍甚至互聯(lián)網(wǎng)范圍內(nèi)傳播的系統(tǒng)都有著很大的興趣。盡管有防病毒軟件和其他專用解決方案，日志挖掘在跟蹤這種危害性極大的系統(tǒng)方面已經(jīng)被證明很有價值。

　　4.2 遭到入侵的系統(tǒng)

　　每個獲得認證的安全專家都應(yīng)該對了解攻擊者或惡意軟件已經(jīng)接管網(wǎng)絡(luò)中的一個或者多個系統(tǒng)感興趣。

　　4.3 成功的攻擊

　　如果攻擊者剛剛成功地在你的系統(tǒng)上打開缺口，婉轉(zhuǎn)地說，知道這一點可能“有趣”；雖然這與前一條相關(guān)，但是它通常指的是攻擊的早期階段，這時，攻擊從嘗試發(fā)展為成熟的入侵和對系統(tǒng)的利用。

　　4.4 內(nèi)部人員違規(guī)使用和知識產(chǎn)權(quán)竊取

　　懷有惡意的黑客和蠕蟲出盡了風(fēng)頭，而內(nèi)部網(wǎng)絡(luò)違規(guī)使用相比之下似乎顯得簡單。但是，內(nèi)部人員擁有這一王國的所有鑰匙，可能造成更加嚴重的破壞。更糟糕的是，檢測他們的攻擊比檢測普通的惡意軟件困難得多。

　　4.5 隱蔽通道/隱藏后門通信

　　除非“精于此道”，否則網(wǎng)絡(luò)中可能不會常用到隱蔽通道；因此，網(wǎng)絡(luò)安全管理人員很可能對了解這一情況很感興趣。

　　4.6 探查增加

　　雖然大部分敏感的政府網(wǎng)絡(luò)現(xiàn)在只將互聯(lián)網(wǎng)探查活動視為噪聲，但如果在日志中反映出這類活動增加，可看作是攻擊的前兆，因而也是有趣的。

　　雖然“拒絕服務(wù)檢測”總是遭到嘲笑，從某種意義上來說，這種檢測是通過注意到恰好沒有任何服務(wù)來進行的，但是系統(tǒng)管理員可能并沒有監(jiān)控所有系統(tǒng)的正常運行，這就是系統(tǒng)崩潰的主要原因。

　　以上列舉了一些希望通過挖掘日志發(fā)現(xiàn)的有趣事實。對計算機而言，“有趣”的準則很難定義，但用日志數(shù)據(jù)挖掘可做到，其典型應(yīng)用如下。

　?。?）探查：網(wǎng)絡(luò)探查和掃描總是在發(fā)生，用戶越來越能預(yù)料到它們。用戶應(yīng)該了解探查，但是不可能花費資源去尋找它們。與此同時，這類探查數(shù)量上的變化更可能成為有趣的信息。

　?。?）如果安全架構(gòu)很穩(wěn)固，就能夠預(yù)期到失敗的攻擊；這些攻擊的發(fā)生有各種原因。與探查類似，用戶應(yīng)該了解它們，但是不會花費資源去尋找它們。

　?。?）正常消息：日志充滿了表明某些例行過程完成和其他完全正常的事件的消息，這些記錄是用于審計和其他目的的，它們明顯不出人意料，信息安全管理者也不會去挖掘它們。但是，變化仍然很重要。常規(guī)的消息停止出現(xiàn)，或者開始表現(xiàn)出較高或者較低的頻率，這可能令人感興趣。

　?。?）被阻止的攻擊：這與失敗的攻擊類似，如果用戶的安全措施阻止了攻擊，即使這種攻擊是沒有想到的有趣攻擊，也不需要立刻采取行動。

　　（5）系統(tǒng)狀態(tài)更新：類似于正常事件，這些事件無法訴諸行動。同時，系統(tǒng)狀態(tài)更新在某些不尋常的時候發(fā)生可能很令人感興趣。

5 日志數(shù)據(jù)挖掘的具體應(yīng)用

　　日志數(shù)據(jù)挖掘主要有如下9個方面的應(yīng)用[4]。

　?。?）罕見的事物：由于某種原因，這并不常發(fā)生。如果發(fā)現(xiàn)以前沒有發(fā)生過的事件，它很可能是惡意的。因此，罕見事件是挖掘的主要候選。罕見的攻擊、罕見的系統(tǒng)消息以及幾乎從不登錄的用戶，都是值得檢測的。

　?。?）不同的事物：雖然不提倡“日志恐懼癥”，但是應(yīng)該注意和以往不同的事物。這是數(shù)據(jù)挖掘的基本方法起作用的地方。

　?。?）不相稱的事物：雖然與上一類緊密相關(guān)，但表現(xiàn)得“不相稱”的日志記錄必須加以挖掘，因為它們可能包含有趣的信息。

　?。?）古怪的事物：如果某些事物顯得古怪，可能是出現(xiàn)麻煩的象征。這與上面兩個類別有微妙的差別。要了解古怪的事情，如DNS系統(tǒng)連接到packetstorm.com，自動下載攻擊工具，不需要任何基線和預(yù)先的數(shù)據(jù)收集工作。

　　（5）向不尋常的方法發(fā)展的事物：分析人員和管理員可能發(fā)現(xiàn)，有些日志記錄完全改變了正常的通信方向。正如上例中所看到的，到服務(wù)器的連接完全合法，即使使用的是無害的端口，如TCP端口80，服務(wù)器向外連接也應(yīng)該引起重視。

　　（6）最常見的事物：雖然屬于總結(jié)和報告的范疇，嚴格說不屬于數(shù)據(jù)挖掘，但是“x大事件”對于尋找有趣的日志記錄及其模式仍然有用。畢竟，如果排名有所上升，例如傳輸帶寬最主要用途，它仍然是有趣的。

　?。?）最不常見的事物：類似于罕見事務(wù)，簡單地說，“發(fā)生次數(shù)最少的事情”，這是“x大事件”的“邪惡姐妹”，甚至比前者更有用。最不吸引人的系統(tǒng)往往成為未來攻擊和破壞的跳板。

　?。?）無趣事物的奇怪組合：這粗略地遵循下面的公式：“善”+“善”=“邪惡”。是的，一組完全正常的日志記錄也可能組成危險的事件。最簡單的實例是端口掃描，它看上去只是一組往往數(shù)量很大但無害的連接請求。

　?。?）其他無趣事物的統(tǒng)計：某些無趣事物的計數(shù)可能令人感興趣。而且，這種計數(shù)的變化往往更加重要。ICMP“ping”數(shù)據(jù)包的突然增多可能意味著拒絕服務(wù)，尤其是這種ICMP洪泛在沒有預(yù)警的情況下突然發(fā)生時。

　　以下列舉一個典型應(yīng)用來說明。假設(shè)發(fā)現(xiàn)了一個黑客事故，該事故涉及漏洞掃描器的授權(quán)使用。大部分公司都部署網(wǎng)絡(luò)IDS，但是許多公司并不理解采購這些設(shè)備的價值。這種情況發(fā)生的原因包括日志中的大量假陽性，它們削弱了人們對這些系統(tǒng)的信任?；谔卣鞯南到y(tǒng)為了實現(xiàn)NIDS的價值，可以使用日志挖掘方法，旨在從常規(guī)的噪聲和假警告中標記出真正的攻擊。注意，在這種情況下可能并不知道攻擊是否成功，只要了解攻擊者的存在和重點，并將攻擊與錯誤觸發(fā)IDS的無害事件區(qū)分開來即可。

　　當網(wǎng)絡(luò)基礎(chǔ)設(shè)施組件[5]或者被誤用的檢測系統(tǒng)記錄合法連接時，它們通常會在日志中生成少數(shù)特殊的事件類型。例如，通過防火墻的連接生成一個連接消息。即使掃描防火墻也可能為每個連接會話生成一個事件，以及一個用于整個掃描的事件類型。類似地，“假陽性”通常不與同一批主機之間的其他可疑活動相關(guān)，例如偵察性掃描或者其他攻擊。相反，假警告更可能會發(fā)生或者以大量互不相關(guān)的同類日志記錄類型的形式出現(xiàn)。這里，所指的“會話”是如下要素的獨特組合：源、目標、協(xié)議、源端口和目標端口。

　　因此，如果按照會話組織數(shù)據(jù)庫中收集的事件，并記錄每個會話中特殊事件的數(shù)量，往往與攻擊類型的數(shù)據(jù)相同，就有辦法區(qū)分真正的攻擊和合法流量及假警報。這種日志挖掘方法使用一種通用模式，以獲得潛在破壞性攻擊的證據(jù)及結(jié)果，但不能找出攻擊成功的標志，只是對其真假進行鑒定。

6 結(jié)論

　　數(shù)據(jù)挖掘?qū)θ罩痉治龇浅嵱?，日志?shù)據(jù)挖掘[6]是審核日志數(shù)據(jù)的一種新穎方法，在實際工作中非常有效。許多日志類型可從某種挖掘中獲得更有用的結(jié)果。雖然數(shù)據(jù)挖掘是一個復(fù)雜的領(lǐng)域，但針對日志進行的數(shù)據(jù)挖掘并不十分困難，可在許多環(huán)境中實現(xiàn)。尤其在需要高技能分析人員和很長時間的常見分析無效時，日志數(shù)據(jù)挖掘能夠提供更多幫助。其對企事業(yè)單位加強其網(wǎng)站的信息安全[7]會具有很大的幫助。

參考文獻

　　[1] 池云.Android平臺安全機制探析[J].微型機與應(yīng)用，2015，33（4）：1-3.

　　[2] 石杰.云計算環(huán)境下的數(shù)據(jù)挖掘應(yīng)用[J].微型機與應(yīng)用，2015，33（5）：13-15.

　　[3] 李玲.Web日志數(shù)據(jù)挖掘的個性化推薦系統(tǒng)的探析[J].科技風(fēng)，2014（18）：45.

　　[4] 柳勝國.網(wǎng)絡(luò)輿情中的具有影響力個體信息發(fā)現(xiàn)與WEB日志數(shù)據(jù)挖掘預(yù)處理技術(shù)[J].價值工程，2012（16）：186-187.

　　[5] 張玲.淺析WEB日志數(shù)據(jù)挖掘技術(shù)[J].今日科苑，2009（17）：106.

　　[6] 朱紅祥.基于Web日志數(shù)據(jù)挖掘的電子商務(wù)推薦系統(tǒng)[J].商場現(xiàn)代化，2008（28）：39-40.

　　[7] 李萬新.Web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用[J].中山大學(xué)學(xué)報，2007（5）：116-118.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容