123,123,123

基于挤压激励网络的恶意代码家族检测方法

信息技术与网络安全 6期

申高宁1，2，陈志翔3，王辉3，陈姮1，2

(1.闽南师范大学计算机学院，福建漳州363000； 2.数据科学与智能应用福建省高校重点实验室，福建漳州363000； 3.闽南师范大学物理与信息工程学院，福建漳州363000)

摘要： 恶意代码已经成为威胁网络安全的重要因素。基于机器学习的恶意代码检测方法已经取得较好的效果，但面对相似的恶意代码家族，往往效果不佳。对此，提出了一种基于挤压激励网络的检测算法，由卷积神经网络(Convolutional Neural Network，CNN)与挤压和激励(Squeeze-and-Excitation，SE)模块构成。CNN先快速提取恶意代码的图像特征，SE模块对多通道特征图进行全局平均池化，将全局信息压缩，然后通过全连接层自适应学习，并将每个通道特征图赋予不同的权重来表示不同的重要程度，指导激励或抑制特征信息。实验结果表明，该方法相对于传统机器学习方法有更好的检测效果，与深度学习算法相比检测效果也有一定的提升且参数量大大减少。

關(guān)鍵詞： 恶意代码机器学习卷积神经网络挤压和激励网络

中圖分類號(hào)： TP393
文獻(xiàn)標(biāo)識(shí)碼： A
DOI： 10.19358/j.issn.2096-5133.2022.06.001
引用格式：申高寧，陳志翔，王輝，等. 基于擠壓激勵(lì)網(wǎng)絡(luò)的惡意代碼家族檢測(cè)方法[J].信息技術(shù)與網(wǎng)絡(luò)安全，2022，41(6)：1-9.

A family detection method for malicious code based on squeezed-and-excitation networks

Shen Gaoning1，2，Chen Zhixiang3，Wang Hui3，Chen Heng1，2

(1.School of Computer Science，Minnan Normal University，Zhangzhou 363000，China； 2.Key Laboratory of Data Science and Intelligent Applications，Zhangzhou 363000，China； 3.School of Physics and Information Engineering，Minnan Normal University，Zhangzhou 363000，China)

Abstract： Malicious code has become an important factor threatening cyber security.Machine learning-based malicious code detection methods have achieved good results, but often poorly in the face of similar malicious code families. In this paper, a detection algorithm based on extrusion excitation network was proposed，which consists of Convolutional Neural Network(CNN) and squeeze-and-excitation(SE) module. Fristly，the CNN quickly extracts the image features of the malicious code, and the SE module carries out global average pooling of multi-channel feature map to compress the global information, then learns adaptively through the full connection layer, and weights each channel feature graph to represent different degrees of importance, guiding motivating or suppressing the feature information.The experimental results show that the proposed method has a better detection effect compared with the traditional machine learning methods, and the detection effect is improved and the number of parameters is greatly reduced compared with the deep learning algorithm.

Key words : malicious code；machine learning；convolutional neural network；squeeze and excitation network

0 引言

在過(guò)去幾年里隨著互聯(lián)網(wǎng)的飛速發(fā)展，惡意代碼數(shù)量也呈爆發(fā)式增長(zhǎng)。2020年瑞星“云安全”系統(tǒng)共截獲病毒樣本總量1.48億個(gè)[1]，病毒感染次數(shù)為3.52億次，病毒總體數(shù)量比2019年同期上漲43.71%，惡意代碼已經(jīng)成為網(wǎng)絡(luò)安全的重要威脅之一[2]。惡意軟件作者經(jīng)常會(huì)重用代碼用來(lái)生成具有相似特征的其他惡意變體，而這些惡意變體通?？梢詺w類為同一個(gè)惡意軟件家族。因此，識(shí)別惡意軟件家族的能力變得十分重要，通過(guò)對(duì)惡意代碼的分類，可以更好防范惡意代碼攻擊。

近年來(lái)，惡意軟件檢測(cè)分類出現(xiàn)了靜態(tài)分析和動(dòng)態(tài)分析。靜態(tài)分析側(cè)重于統(tǒng)計(jì)特征，例如API調(diào)用、操作碼序列等。Wang[3]等人通過(guò)提取權(quán)限、硬件功能和接收者動(dòng)作等122個(gè)特征，使用多種機(jī)器學(xué)習(xí)分類器進(jìn)行訓(xùn)練和測(cè)試，并使用隨機(jī)森林(Random Forest)分類器獲得較高的分類準(zhǔn)確率。動(dòng)態(tài)分析則是使用虛擬的環(huán)境來(lái)分析惡意應(yīng)用程序的行為[4]。但是這些技術(shù)大多數(shù)需要提取大量特征，檢測(cè)效率不高，對(duì)特征的選擇需要一些專家知識(shí)，并且有一定的主觀性。

為了降低特征工程成本和領(lǐng)域?qū)＜抑R(shí)，一些研究人員使用可視化方法來(lái)解決惡意軟件家族分類問(wèn)題。例如，Nataraj等人[5]提出把惡意代碼二進(jìn)制文件轉(zhuǎn)化為灰度圖，然后利用k近鄰算法對(duì)惡意代碼進(jìn)行分類，這種方法相比于之前未轉(zhuǎn)換灰度圖，直接分類的方法準(zhǔn)確率有一定提高，但是該方法用GIST提取圖片特征需要耗費(fèi)大量時(shí)間，導(dǎo)致效率不高。

隨著深度學(xué)習(xí)在圖像分類領(lǐng)域的快速發(fā)展，有學(xué)者將深度學(xué)習(xí)引入到惡意代碼檢測(cè)領(lǐng)域。Choi等人[6]把惡意代碼二進(jìn)制文件轉(zhuǎn)化為灰度圖像，運(yùn)用深度學(xué)習(xí)的技術(shù)，在12 000個(gè)樣本中達(dá)到了95.66%的準(zhǔn)確率。Su等人[7]用light-weight DL技術(shù)進(jìn)行惡意代碼家族分類，取得94.00%的成績(jī)，但是他們提出的網(wǎng)絡(luò)只對(duì)兩類家族進(jìn)行分類，有一定的局限性。Cui等人利用卷積神經(jīng)網(wǎng)絡(luò)在圖像分類的出色表現(xiàn)，并分別利用蝙蝠算法[8]和NSGA-Ⅱ算法[9]處理惡意代碼樣本數(shù)量不均的問(wèn)題，該方法準(zhǔn)確率明顯高于傳統(tǒng)機(jī)器學(xué)習(xí)方法，且算法復(fù)雜度較低。隨著更深網(wǎng)絡(luò)的提出，Rezende等人提出將VGG16網(wǎng)絡(luò)[10]以ResNet網(wǎng)絡(luò)[11]運(yùn)用在惡意代碼檢測(cè)分類上，該方法準(zhǔn)確率有所提升，但是參數(shù)量變得巨大，分類效率有待提升。

基于上述方法產(chǎn)生的問(wèn)題，本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)[12]的分類方法SE-CNN，實(shí)現(xiàn)惡意代碼家族分類。首先將惡意代碼的二進(jìn)制文件轉(zhuǎn)化成灰度圖得到灰度圖像數(shù)據(jù)集，然后構(gòu)建SE-CNN網(wǎng)絡(luò)模型對(duì)灰度圖像數(shù)據(jù)集進(jìn)行訓(xùn)練，最后實(shí)現(xiàn)對(duì)惡意代碼的檢測(cè)分類。該方法采用CNN對(duì)灰度圖像自動(dòng)提取特征，解決了特征提取慢且耗時(shí)的問(wèn)題；通過(guò)結(jié)合SE模塊自適應(yīng)學(xué)習(xí)通道重要程度信息，并賦予特征通道權(quán)重，從而激勵(lì)有用特征信息，同時(shí)抑制無(wú)用信息，提升了模型分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明，本文方法準(zhǔn)確率高于傳統(tǒng)機(jī)器學(xué)習(xí)方法，且參數(shù)量相較于先進(jìn)的深度學(xué)習(xí)方法更低。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://ihrv.cn/resource/share/2000004527

作者信息：

申高寧1，2，陳志翔3，王輝3，陳姮1，2

(1.閩南師范大學(xué) 計(jì)算機(jī)學(xué)院，福建漳州363000；

2.數(shù)據(jù)科學(xué)與智能應(yīng)用福建省高校重點(diǎn)實(shí)驗(yàn)室，福建漳州363000；

3.閩南師范大學(xué) 物理與信息工程學(xué)院，福建漳州363000)

微信圖片_20210517164139.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容