123,123

基于自編碼器的日志異常檢測方法研究

網(wǎng)絡(luò)安全與數(shù)據(jù)治理

楊光1，雷玉芳2，王鵬2，孫強2，閆凱鑫1，朱燕1，潘號龍1，王旭仁3

1.中國科學(xué)院信息工程研究所； 2.中鐵(北京)信息技術(shù)服務(wù)有限公司；3.首都師范大學(xué)

摘要： 系統(tǒng)日志蘊含關(guān)鍵運行信息與問題線索，但隨系統(tǒng)規(guī)模擴(kuò)大，日志數(shù)據(jù)愈發(fā)龐大復(fù)雜，自動化異常檢測成為研究重點。當(dāng)前研究面臨日志數(shù)據(jù)不平衡、有標(biāo)簽數(shù)據(jù)稀少導(dǎo)致檢測精度不足的挑戰(zhàn)。為應(yīng)對挑戰(zhàn)，提出了多窗口LSTM自編碼器日志異常檢測方法，主要圍繞日志數(shù)據(jù)處理、自編碼模型和日志事件分類三個方面展開。該方法結(jié)合LSTM與自編碼器優(yōu)勢，并利用多窗口策略捕捉不同時間尺度上下文信息，針對時間敏感的日志提供了更有效的異常檢測方案。實驗結(jié)果表明，該方法在HDFS和BGL兩個公共數(shù)據(jù)集上均取得了較高的F1值，相比其他方法具有更好的異常檢測效果。

關(guān)鍵詞： 系統(tǒng)日志異常檢測深度學(xué)習(xí) 自編碼器

中圖分類號：TP393.08；TP309文獻(xiàn)標(biāo)識碼：ADOI:10.19358/j.issn.2097-1788.2025.12.003引用格式：楊光，雷玉芳，王鵬，等. 基于自編碼器的日志異常檢測方法研究［J］.網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2025，44（12）：16-25.

Research on log anomaly detection method based on autoencoder

Yang Guang1, Lei Yufang2, Wang Peng2, Sun Qiang2, Yan Kaixin1, Zhu Yan1, Pan Haolong1, Wang Xuren3

1. Institute of Information Engineering, Chinese Academy of Sciences;2. SinoRail (Beijing) Information Technology Service Co., Ltd.;3. Capital Normal University

Abstract： System logs contain key operational information and problem clues. However, as the system scale expands, log data becomes increasingly large and complex, making automated anomaly detection a research focus. Current studies face challenges such as imbalanced log data and insufficient labeled data, which lead to low detection accuracy. To address these challenges, a log anomaly detection method based on MultiWindow Long ShortTerm Memory (LSTM) Autoencoder is proposed, focusing on three aspects: log data processing, autoencoder model, and log event classification. This method combines the advantages of LSTM and autoencoder, and uses a multiwindow strategy to capture contextual information at different time scales, providing a more effective anomaly detection solution for timesensitive logs. Experimental results show that this method achieves high F1scores on two public datasets, Hadoop Distributed File System (HDFS) and Blue Gene/L (BGL), and exhibits better anomaly detection performance compared with other methods.

Key words : system logs; anomaly detection; deep learning; autoencoder

引言

在信息時代，大量的計算機(jī)和網(wǎng)絡(luò)系統(tǒng)被廣泛應(yīng)用于各行各業(yè)。幾乎所有的計算機(jī)系統(tǒng)都會在運行時將系統(tǒng)執(zhí)行期間發(fā)生的信息和異常事件附加到一個或多個特殊文件中——稱為系統(tǒng)日志、日志文件或簡稱為日志［1］。系統(tǒng)操作員需要根據(jù)日志中包含的意外和疑似不安全的系統(tǒng)活動痕跡，來及時采取行動，以防止或減少系統(tǒng)的損壞，并避免不利的級聯(lián)效應(yīng)［2］。在傳統(tǒng)的日志分析領(lǐng)域，開發(fā)人員往往依賴于其專業(yè)領(lǐng)域知識，通過手動檢查、編寫規(guī)則、統(tǒng)計學(xué)分析或聚類等手段，人工識別特征和建立規(guī)則。然而，隨著網(wǎng)絡(luò)安全形勢的演變，網(wǎng)絡(luò)入侵攻擊已逐漸從單一、直接、易于識別轉(zhuǎn)變?yōu)橛薪M織、有目的、長時間潛伏等更為復(fù)雜和隱蔽的形式，系統(tǒng)的應(yīng)用呈現(xiàn)規(guī)模化發(fā)展、分布式部署、高并行和冗余運行的特征，日志數(shù)據(jù)爆炸式增長［3］。面對大量的日志數(shù)據(jù)和隱蔽性高的攻擊手段，傳統(tǒng)檢測方法適用程度低。此外，由于日志異常事件通常是少數(shù)類別，這會導(dǎo)致類別分布的不平衡，從而影響異常檢測的精度。人工神經(jīng)網(wǎng)絡(luò)為解決上述問題提供了新的思路，在沒有人類干預(yù)的情況下自動化地提取特征和識別日志中的異常模式，為用戶提供了一種快速、可靠、準(zhǔn)確的方式來監(jiān)測系統(tǒng)的狀態(tài)和性能。自編碼器(Autoencoder)作為一種無監(jiān)督學(xué)習(xí)模型，因具有魯棒性強、可解釋性好的特點，不僅在圖像、文本等數(shù)據(jù)的降維和特征提取上有著廣泛的應(yīng)用，也在異常檢測上展現(xiàn)出巨大的潛力。在時間序列預(yù)測方面，長短期記憶網(wǎng)絡(luò)(Long ShortTerm Memory, LSTM)也展現(xiàn)出強大的實力，無論是金融市場的價格預(yù)測、氣象數(shù)據(jù)的趨勢分析，還是工業(yè)領(lǐng)域的故障預(yù)警，其能通過捕捉時序數(shù)據(jù)中的復(fù)雜模式，提供準(zhǔn)確的預(yù)測結(jié)果。因此，本文結(jié)合LSTM在序列數(shù)據(jù)處理上的優(yōu)勢與自編碼器在特征學(xué)習(xí)上的能力，使用多窗口策略捕捉日志數(shù)據(jù)中不同時間尺度的上下文信息，針對時間敏感的日志提供了更有效的異常檢測方案。

本文詳細(xì)內(nèi)容請下載：

http://ihrv.cn/resource/share/2000006895

作者信息：

楊光1，雷玉芳2，王鵬2，孫強2，閆凱鑫1，朱燕1，潘號龍1，王旭仁3

(1.中國科學(xué)院信息工程研究所，北京100085；

2.中鐵(北京)信息技術(shù)服務(wù)有限公司，北京100055；

3.首都師范大學(xué)，北京100048)

官方訂閱.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容