《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 業(yè)界動(dòng)態(tài) > 深度學(xué)習(xí)如何廣泛用于惡意軟件檢測(cè)和分類

深度學(xué)習(xí)如何廣泛用于惡意軟件檢測(cè)和分類

2021-11-02
來(lái)源:嘶吼專業(yè)版

  人工智能 (AI) 不斷發(fā)展,并在過(guò)去十年中取得了巨大進(jìn)步。深度學(xué)習(xí)(DL, Deep Learning)是機(jī)器學(xué)習(xí)(ML, Machine Learning)領(lǐng)域中一個(gè)新的研究方向,深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過(guò)程中獲得的信息對(duì)諸如文字,圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識(shí)別文字、圖像和聲音等數(shù)據(jù)。深度學(xué)習(xí)是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法,在語(yǔ)音和圖像識(shí)別方面取得的效果,遠(yuǎn)遠(yuǎn)超過(guò)先前相關(guān)技術(shù)。深度學(xué)習(xí)在搜索技術(shù),數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),機(jī)器翻譯,自然語(yǔ)言處理,多媒體學(xué)習(xí),語(yǔ)音,推薦和個(gè)性化技術(shù),以及其他相關(guān)領(lǐng)域都取得了很多成果。深度學(xué)習(xí)使機(jī)器模仿視聽(tīng)和思考等人類的活動(dòng),解決了很多復(fù)雜的模式識(shí)別難題,使得人工智能相關(guān)技術(shù)取得了很大進(jìn)步。目前深度學(xué)習(xí)已經(jīng)可以被應(yīng)用于圖像分割、預(yù)測(cè)任何基于氨基酸序列的蛋白質(zhì)的三維結(jié)構(gòu)、機(jī)器翻譯、語(yǔ)音識(shí)別。近年來(lái),深度學(xué)習(xí)已被應(yīng)用于惡意軟件分析。不同類型的深度學(xué)習(xí)算法,如卷積神經(jīng)網(wǎng)絡(luò) (CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)和前饋網(wǎng)絡(luò),已被應(yīng)用于使用字節(jié)序列、灰度圖像、結(jié)構(gòu)熵、API 的惡意軟件分析中的各種用例調(diào)用順序、HTTP 流量和網(wǎng)絡(luò)行為。

  大多數(shù)傳統(tǒng)的機(jī)器學(xué)習(xí)惡意軟件分類和檢測(cè)方法都依賴于手工制作的特征。這些特征是根據(jù)具有領(lǐng)域知識(shí)的專家選擇的。特征工程可能是一個(gè)非常耗時(shí)的過(guò)程,手工制作的特征可能無(wú)法很好地推廣到新型惡意軟件。在本文中,McAfee的研究人員簡(jiǎn)要介紹了如何將 CNN 應(yīng)用于原始字節(jié)以在現(xiàn)實(shí)世界數(shù)據(jù)中進(jìn)行惡意軟件檢測(cè)和分類。

  微信圖片_20211102140029.jpg

  CNN 上的原始字節(jié)

  應(yīng)用深度學(xué)習(xí)的動(dòng)機(jī)是在原始字節(jié)中識(shí)別新的模式。這項(xiàng)工作的新穎之處在于三個(gè)方面。首先,沒(méi)有特定領(lǐng)域的特征提取和預(yù)處理。其次,這是一種端到端的深度學(xué)習(xí)方法。它還可以執(zhí)行端到端分類。它還可以作為特征提取器進(jìn)行特征增強(qiáng)。最后,可解釋的人工智能(XAI)提供了對(duì)CNN決策的深入了解,并幫助人類識(shí)別不同惡意軟件家族的有趣模式。如圖1所示,輸入只有原始字節(jié)和標(biāo)簽。CNN通過(guò)表示學(xué)習(xí)來(lái)自動(dòng)學(xué)習(xí)特征并對(duì)惡意軟件進(jìn)行分類。

  微信圖片_20211102140032.jpg

  實(shí)驗(yàn)結(jié)果

  為了進(jìn)行惡意軟件檢測(cè)實(shí)驗(yàn),研究人員首先收集了 833000 個(gè)不同的二進(jìn)制樣本(污染 和 干凈的),跨越多個(gè)家族,編譯器和不同的“首次出現(xiàn)”時(shí)間周期。盡管他們確實(shí)使用了不同的包裝程序和混淆程序,但仍有大量來(lái)自普通家族的樣本。檢測(cè)時(shí),研究人員會(huì)在進(jìn)行完整性檢查以刪除損壞的、過(guò)大或過(guò)小的樣本。在滿足完整性檢查標(biāo)準(zhǔn)的樣本中,研究人員從這些樣本中提取原始字節(jié),并利用它們進(jìn)行多個(gè)實(shí)驗(yàn)。數(shù)據(jù)以80% / 20%的比例隨機(jī)分成訓(xùn)練集和測(cè)試集。研究人員利用這個(gè)數(shù)據(jù)集來(lái)進(jìn)行三個(gè)實(shí)驗(yàn)。

  在研究人員的第一個(gè)實(shí)驗(yàn)中,來(lái)自833000個(gè)樣本的原始字節(jié)被返回給CNN,在receiver operating curve (ROC)下面積的性能精度為0.9953。

  初始運(yùn)行的一個(gè)觀察結(jié)果是,在從83.3萬(wàn)個(gè)獨(dú)特樣本中提取原始字節(jié)后,研究人員確實(shí)發(fā)現(xiàn)了重復(fù)的原始字節(jié)條目。這主要是由于惡意軟件家族利用哈希分解作為一種多態(tài)性的方法。因此,在研究人員的第二個(gè)實(shí)驗(yàn)中,研究人員對(duì)提取的原始字節(jié)項(xiàng)進(jìn)行了重復(fù)數(shù)據(jù)刪除。這將原始字節(jié)輸入向量計(jì)數(shù)減少到262000個(gè)樣本,ROC下的試驗(yàn)面積為0.9920。

  在第三個(gè)實(shí)驗(yàn)中,研究人員嘗試了多家族惡意軟件分類。研究人員從原始集合中抽取了13萬(wàn)份樣本,并標(biāo)記了11個(gè)類別,第0個(gè)類別被歸類為Clean,其中1-9個(gè)是惡意軟件家族,第10個(gè)類別被歸類為Others。同樣,這11個(gè)桶包含了帶有不同包裝器和編譯器的樣本。研究人員對(duì)訓(xùn)練集和測(cè)試集進(jìn)行了另一次80 / 20%的隨機(jī)分割。本實(shí)驗(yàn)的測(cè)試精度為0.9700。一臺(tái)GPU的培訓(xùn)和測(cè)試時(shí)間為26分鐘。

  微信圖片_20211102140044.jpg

  可視化解釋(Visual Explanation)

  CNN訓(xùn)練前后使用T-SNE和PCA的可視化解釋

  為了理解CNN的訓(xùn)練過(guò)程,研究人員對(duì)CNN的訓(xùn)練進(jìn)行了可視化分析。圖 2 顯示了 CNN 訓(xùn)練前后的 t-Distributed Stochastic Neighbor Embedding (t-SNE) 和主成分分析 (PCA)。研究人員可以看到,經(jīng)過(guò)訓(xùn)練,CNN能夠提取有用的表示來(lái)捕獲不同類型惡意軟件的特征,如圖所示在不同的聚類中,大多數(shù)類別都進(jìn)行了很好地分離,這讓研究人員相信該算法作為多類分類器是有用的。

  然后研究人員執(zhí)行XAI來(lái)理解CNN的決定。下圖顯示了一個(gè) Fareit 樣本和一個(gè) Emotet 樣本的 XAI 熱圖。顏色越亮,對(duì)神經(jīng)網(wǎng)絡(luò)中的梯度激活做出貢獻(xiàn)的字節(jié)就越重要。因此,這些字節(jié)對(duì) CNN 的決策很重要。研究人員有興趣了解對(duì)決策產(chǎn)生重大影響的字節(jié),并手動(dòng)審查了一些樣本。

  微信圖片_20211102140048.jpg

  Fareit(左)和 Emotet(右)上的 XAI 熱圖

  微信圖片_20211102140058.jpg

  理解ML決策和XAI

  對(duì) CNN 預(yù)測(cè)的人工分析

  為了驗(yàn)證CNN是否能夠?qū)W習(xí)到新的模式,研究人員給CNN提供了一些之前從未見(jiàn)過(guò)的樣本,并請(qǐng)了一個(gè)人類專家來(lái)驗(yàn)證CNN對(duì)一些隨機(jī)樣本的決定。人工分析驗(yàn)證了 CNN 能夠正確識(shí)別許多惡意軟件家族。在某些情況下,它根據(jù)研究人員的內(nèi)部測(cè)試在前 15 名的防病毒供應(yīng)商之前準(zhǔn)確地識(shí)別了樣本。下圖顯示了屬于Nabucur家族的樣本子集,CNN正確地對(duì)其進(jìn)行了分類,盡管當(dāng)時(shí)沒(méi)有檢測(cè)到供應(yīng)商。同樣值得注意的是,研究人員的結(jié)果顯示,CNN目前能夠利用普通包裝器將惡意軟件樣本進(jìn)行分類。

  示例編譯器的域分析

  研究人員對(duì)相同的示例編譯器 VB 文件進(jìn)行了域分析。如上圖所示,CNN 能夠在其他供應(yīng)商之前識(shí)別出攻擊家族的兩個(gè)樣本。CNN 就兩個(gè)樣本與 MSMP/其他供應(yīng)商達(dá)成一致。在這個(gè)實(shí)驗(yàn)中,CNN 錯(cuò)誤地將一個(gè)樣本識(shí)別為 Clean。

  研究人員請(qǐng)了一位人類專家檢查XAI熱圖,并驗(yàn)證這些亮顏色的字節(jié)是否與惡意軟件家族分類有關(guān)。上圖顯示了屬于Sodinokibi家族的一個(gè)示例。XAI 標(biāo)識(shí)的字節(jié) (c3 8b 4d 08 03 d1 66 c1) 很有趣,因?yàn)樽止?jié)序列屬于 Tea 解密算法的一部分。這表明這些字節(jié)與惡意軟件分類相關(guān),這證實(shí)了CNN可以學(xué)習(xí)并幫助識(shí)別人類或其他自動(dòng)化可能忽略的有用模式,盡管這些實(shí)驗(yàn)是初步的,但它們表明了 CNN 在識(shí)別未知的感興趣模式方面的有效性。

  綜上所述,實(shí)驗(yàn)結(jié)果和可視化解釋表明CNN可以自動(dòng)學(xué)習(xí)PE原始字節(jié)表示,CNN原始字節(jié)模型可以執(zhí)行端到端惡意軟件分類。CNN 可以適用于特征增強(qiáng)的特征提取器。CNN 原始字節(jié)模型有可能先于其他供應(yīng)商識(shí)別威脅系列并識(shí)別新威脅。這些初步結(jié)果表明,CNN 可以成為幫助自動(dòng)化和人類研究人員進(jìn)行分析和分類的非常有用的工具。




電子技術(shù)圖片.png

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。