文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.11.003
引用格式: 俞遠(yuǎn)哲,王金雙,鄒霞. 基于文檔圖結(jié)構(gòu)的惡意PDF文檔檢測方法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(11):16-23.
0 引言
PDF(Portable Document Format)文檔的使用非常廣泛。隨著版本的更新?lián)Q代,PDF文檔包含的功能也變得多種多樣,但其中一些鮮為人知的功能(如文件嵌入、JavaScript代碼執(zhí)行、動(dòng)態(tài)表單等)越來越多地被不法分子利用,來實(shí)施惡意網(wǎng)絡(luò)攻擊行為[1]。APT(Advanced Persistent Threat)攻擊[2]常常構(gòu)造巧妙偽裝的惡意PDF文檔,通過釣魚郵件攻擊等手段誘騙受害者下載,從而侵入或破壞計(jì)算機(jī)系統(tǒng)。相比傳統(tǒng)的惡意可執(zhí)行程序,惡意文檔具有更強(qiáng)的迷惑性。
基于機(jī)器學(xué)習(xí)的檢測方法被研究人員廣為使用,主要可以分為靜態(tài)檢測、動(dòng)態(tài)檢測和動(dòng)靜結(jié)合檢測方法[3]。而現(xiàn)有的惡意文檔特征選擇方法大多依賴于專家的知識(shí)驅(qū)動(dòng),在惡意文檔的手動(dòng)分析期間進(jìn)行觀察來選擇特征集(如調(diào)用類對象的數(shù)量、文檔頁數(shù)或版本號(hào)等),或是通過數(shù)學(xué)統(tǒng)計(jì)分析將特征細(xì)化(如某類對象在所有對象中的占比)。由于特征可選取的范圍很大,如果僅僅根據(jù)經(jīng)驗(yàn)選取了一部分作為特征集,就會(huì)喪失文檔的部分信息,無法全面地表達(dá)文檔特性。
由于PDF文檔格式的復(fù)雜性,其邏輯結(jié)構(gòu)包含了大量的文檔語義。文獻(xiàn)[4]認(rèn)為通過對結(jié)構(gòu)屬性的綜合分析能夠解釋惡意和良性PDF文檔之間的顯著結(jié)構(gòu)差異。因此本文設(shè)計(jì)通過綜合分析文檔的邏輯結(jié)構(gòu),以文檔的結(jié)構(gòu)圖為特征進(jìn)行檢測,而不是獨(dú)立的結(jié)構(gòu)路徑。即使攻擊者知道哪些對象是成功檢測的關(guān)鍵,并可能針對性地修改某一特定路徑,但這樣就會(huì)破壞文檔的整體結(jié)構(gòu),因此逃避檢測的成本很高。
本文詳細(xì)內(nèi)容請下載:http://ihrv.cn/resource/share/2000003843
作者信息:
俞遠(yuǎn)哲,王金雙,鄒 霞
(陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京210007)