《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 设计应用 > 基于机器学习的恶意软件检测研究进展及挑战
基于机器学习的恶意软件检测研究进展及挑战
2020年信息技术与网络安全第11期
景鸿理1,黄 娜1,2,李建国1
1.北京天融信科技有限公司,北京100085;2.北京工业大学,北京100124
摘要: 由于恶意软件的数量日渐庞大,攻击手段不断更新,结合机器学习技术是恶意软件检测发展的一个新方向。先简要介绍恶意软件检测中的静态检测方法以及动态检测方法,总结基于机器学习的恶意软件检测一般流程,回顾了研究进展。通过使用Ember 2017和Ember 2018数据集,分析验证了结构化特征相关方法,包括随机森林(Random Forest,RF)、LightGBM、支持向量机(Support Vector Machine,SVM)、K-means以及卷积神经网络(Convolutional Neural Network,CNN)等算法模型;使用收集的2019年样本集分析验证了序列化特征相关方法,包括几种常见的深度学习算法模型。计算模型以在不同测试集上的准确率、精确率、召回率以及F1-值作为评估指标。根据实验结果分析讨论了各类方法的优缺点,着重验证分析了树模型的泛化能力,表明随着样本的不断演变,模型普遍存在退化问题,并指出进一步研究方向。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2020.11.006
引用格式: 景鴻理,黃娜,李建國(guó). 基于機(jī)器學(xué)習(xí)的惡意軟件檢測(cè)研究進(jìn)展及挑戰(zhàn)[J].信息技術(shù)與網(wǎng)絡(luò)安全,2020,39(11):38-44,68.
Research progress and challenges of malware detection method based on machine learning
Jing Hongli1,Huang Na1,2,Li Jianguo1
1.Beijing Topsec Science & Technology Inc.,Beijing 100085,China; 2.Beijing University of Technology,Beijing 100124,China
Abstract: Due to the increasing number of malware and the updated attack means, malware detection combined with machine learning technology is a new direction of its development. Firstly, this paper introduces the static detecting methods and dynamic detecting methods of malware briefly; summarizes the general process of malware detecting methods based on machine learning, and reviews the existing methods with research progress. Using the data sets of Ember 2017 and Ember 2018, the structural feature correlation methods, including RF(Random Forest), LightGBM, SVM(Support Vector Machine), K-means and CNN(Convolutional Neural Network), are analyzed and validated,and the 2019 sample set analysis is used to validate the serialization feature correlation method, including several common deep learning algorithm models. The accuracy, precision, recall and F1_score of the trained model on different testing data sets are calculated as evaluating metrics. According to the experimental results, the advantages and disadvantages of various methods are discussed in this paper, the generalization ability of the tree model is verified and analyzed emphatically. It is shown that the model generally has degradation problem with the continuous evolution of samples, and the further research direction is pointed out at last.
Key words : malware detection;static detection of malware;machine learning;LightGBM;random forest

0 引言

    惡意軟件是計(jì)算機(jī)與網(wǎng)絡(luò)領(lǐng)域不可避免的一項(xiàng)安全風(fēng)險(xiǎn),也是安全研究者聚焦的研究熱點(diǎn)之一。用戶的隱私數(shù)據(jù)、個(gè)人信息及財(cái)產(chǎn),都是惡意軟件攻擊的目標(biāo)[1]。惡意軟件自身的一些特性為檢測(cè)提供了可能性和有利條件,安全研究人員提出了很多檢測(cè)分析方法來遏制、打擊惡意軟件的發(fā)展勢(shì)頭。計(jì)算機(jī)技術(shù)高速發(fā)展,不僅為人們的日常生活和工作帶來了便利,也促使黑客的攻擊手段和技術(shù)不斷提高,使得惡意軟件變得更加多元化,而且利用無線網(wǎng)絡(luò)、局域網(wǎng)絡(luò)、可移動(dòng)設(shè)備等多種傳播渠道快速傳播,數(shù)量與日俱增,傳統(tǒng)的基于特征庫(kù)匹配等技術(shù)顯得效率不足[2]。因此,研究者逐漸趨向于使用機(jī)器學(xué)習(xí)技術(shù),來應(yīng)對(duì)惡意軟件難以預(yù)測(cè)的變種和日益龐大的數(shù)量[3]。

    目前已經(jīng)有許多機(jī)器學(xué)習(xí)技術(shù)和框架被研究提出,應(yīng)用于惡意軟件檢測(cè),起到了非常可觀的效果。根據(jù)SGANDURRA D等[4]在2016年的調(diào)研,使用機(jī)器學(xué)習(xí)技術(shù)的靜態(tài)檢測(cè)方法準(zhǔn)確率達(dá)到90%以上,動(dòng)態(tài)檢測(cè)方法準(zhǔn)確率能夠達(dá)到96%以上,經(jīng)過近幾年的繼續(xù)發(fā)展,此類方法的性能得到了進(jìn)一步提高?;跈C(jī)器學(xué)習(xí)技術(shù)建立智能化檢測(cè)模型,形成阻斷惡意軟件的一道防線,是技術(shù)突破與市場(chǎng)拓展的一個(gè)新方向,具有重要的研究意義和應(yīng)用價(jià)值。

    本文總結(jié)了基于機(jī)器學(xué)習(xí)的惡意軟件檢測(cè)方法的一般流程,回顧現(xiàn)有的研究成果;分別對(duì)結(jié)構(gòu)化特征相關(guān)方法以及序列化特征相關(guān)方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)合實(shí)驗(yàn)結(jié)果分析討論各類方法的適用場(chǎng)景以及面臨的挑戰(zhàn),最后指出進(jìn)一步研究方向。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003173




作者信息:

景鴻理1,黃  娜1,2,李建國(guó)1

(1.北京天融信科技有限公司,北京100085;2.北京工業(yè)大學(xué),北京100124)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容