文獻(xiàn)標(biāo)識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.001
引用格式: 申高寧,陳志翔,王輝,等. 基于擠壓激勵網(wǎng)絡(luò)的惡意代碼家族檢測方法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,41(6):1-9.
0 引言
在過去幾年里隨著互聯(lián)網(wǎng)的飛速發(fā)展,惡意代碼數(shù)量也呈爆發(fā)式增長。2020年瑞星“云安全”系統(tǒng)共截獲病毒樣本總量1.48億個[1],病毒感染次數(shù)為3.52億次,病毒總體數(shù)量比2019年同期上漲43.71%,惡意代碼已經(jīng)成為網(wǎng)絡(luò)安全的重要威脅之一[2]。惡意軟件作者經(jīng)常會重用代碼用來生成具有相似特征的其他惡意變體,而這些惡意變體通??梢詺w類為同一個惡意軟件家族。因此,識別惡意軟件家族的能力變得十分重要,通過對惡意代碼的分類,可以更好防范惡意代碼攻擊。
近年來,惡意軟件檢測分類出現(xiàn)了靜態(tài)分析和動態(tài)分析。靜態(tài)分析側(cè)重于統(tǒng)計(jì)特征,例如API調(diào)用、操作碼序列等。Wang[3]等人通過提取權(quán)限、硬件功能和接收者動作等122個特征,使用多種機(jī)器學(xué)習(xí)分類器進(jìn)行訓(xùn)練和測試,并使用隨機(jī)森林(Random Forest)分類器獲得較高的分類準(zhǔn)確率。動態(tài)分析則是使用虛擬的環(huán)境來分析惡意應(yīng)用程序的行為[4]。但是這些技術(shù)大多數(shù)需要提取大量特征,檢測效率不高,對特征的選擇需要一些專家知識,并且有一定的主觀性。
為了降低特征工程成本和領(lǐng)域?qū)<抑R,一些研究人員使用可視化方法來解決惡意軟件家族分類問題。例如,Nataraj等人[5]提出把惡意代碼二進(jìn)制文件轉(zhuǎn)化為灰度圖,然后利用k近鄰算法對惡意代碼進(jìn)行分類,這種方法相比于之前未轉(zhuǎn)換灰度圖,直接分類的方法準(zhǔn)確率有一定提高,但是該方法用GIST提取圖片特征需要耗費(fèi)大量時間,導(dǎo)致效率不高。
隨著深度學(xué)習(xí)在圖像分類領(lǐng)域的快速發(fā)展,有學(xué)者將深度學(xué)習(xí)引入到惡意代碼檢測領(lǐng)域。Choi等人[6]把惡意代碼二進(jìn)制文件轉(zhuǎn)化為灰度圖像,運(yùn)用深度學(xué)習(xí)的技術(shù),在12 000個樣本中達(dá)到了95.66%的準(zhǔn)確率。Su等人[7]用light-weight DL技術(shù)進(jìn)行惡意代碼家族分類,取得94.00%的成績,但是他們提出的網(wǎng)絡(luò)只對兩類家族進(jìn)行分類,有一定的局限性。Cui等人利用卷積神經(jīng)網(wǎng)絡(luò)在圖像分類的出色表現(xiàn),并分別利用蝙蝠算法[8]和NSGA-Ⅱ算法[9]處理惡意代碼樣本數(shù)量不均的問題,該方法準(zhǔn)確率明顯高于傳統(tǒng)機(jī)器學(xué)習(xí)方法,且算法復(fù)雜度較低。隨著更深網(wǎng)絡(luò)的提出,Rezende等人提出將VGG16網(wǎng)絡(luò)[10]以ResNet網(wǎng)絡(luò)[11]運(yùn)用在惡意代碼檢測分類上,該方法準(zhǔn)確率有所提升,但是參數(shù)量變得巨大,分類效率有待提升。
基于上述方法產(chǎn)生的問題,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)[12]的分類方法SE-CNN,實(shí)現(xiàn)惡意代碼家族分類。首先將惡意代碼的二進(jìn)制文件轉(zhuǎn)化成灰度圖得到灰度圖像數(shù)據(jù)集,然后構(gòu)建SE-CNN網(wǎng)絡(luò)模型對灰度圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,最后實(shí)現(xiàn)對惡意代碼的檢測分類。該方法采用CNN對灰度圖像自動提取特征,解決了特征提取慢且耗時的問題;通過結(jié)合SE模塊自適應(yīng)學(xué)習(xí)通道重要程度信息,并賦予特征通道權(quán)重,從而激勵有用特征信息,同時抑制無用信息,提升了模型分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,本文方法準(zhǔn)確率高于傳統(tǒng)機(jī)器學(xué)習(xí)方法,且參數(shù)量相較于先進(jìn)的深度學(xué)習(xí)方法更低。
本文詳細(xì)內(nèi)容請下載:http://ihrv.cn/resource/share/2000004527
作者信息:
申高寧1,2,陳志翔3,王 輝3,陳 姮1,2
(1.閩南師范大學(xué) 計(jì)算機(jī)學(xué)院,福建 漳州363000;
2.數(shù)據(jù)科學(xué)與智能應(yīng)用福建省高校重點(diǎn)實(shí)驗(yàn)室,福建 漳州363000;
3.閩南師范大學(xué) 物理與信息工程學(xué)院,福建 漳州363000)