從頻域角度重新分析對抗樣本
信息技術(shù)與網(wǎng)絡安全 5期
丁 燁1,王 杰1,宛 齊1,廖 清2
(1.東莞理工學院 網(wǎng)絡空間安全學院,廣東 東莞523820; 2.哈爾濱工業(yè)大學(深圳) 計算機科學與技術(shù)學院,廣東 深圳518055)
摘要: 目前在空間域上關(guān)于對抗樣本的研究成果已經(jīng)相當成熟,但是在頻域上的相關(guān)工作卻是十分缺乏。從頻域的角度對對抗樣本進行深入的研究,發(fā)現(xiàn)對抗樣本在DCT域上表現(xiàn)出了高度可識別的偽影,并利用這些偽影信息訓練了一個基于頻域的對抗樣本檢測器CNN-DCT,結(jié)果表明,對于常見的對抗樣本在數(shù)據(jù)集CIFAR-10和SVHN上都能達到98%的檢測準確率。此外,針對對抗樣本在頻域上存在的偽影,也提出一種通用的改進算法IAA-DCT來解決。簡而言之,本文不僅填充了對抗樣本在頻域上工作的缺少,也改進了對抗攻擊算法在頻域上存在偽影的弊端。
中圖分類號: TP391
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.05.009
引用格式: 丁燁,王杰,宛齊,等. 從頻域角度重新分析對抗樣本[J].信息技術(shù)與網(wǎng)絡安全,2022,41(5):59-65,76.
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.05.009
引用格式: 丁燁,王杰,宛齊,等. 從頻域角度重新分析對抗樣本[J].信息技術(shù)與網(wǎng)絡安全,2022,41(5):59-65,76.
Analysis of adversarial examples from frequency domain
Ding Ye1,Wang Jie1,Wan Qi1,Liao Qing2
(1.School of Cyberspace Security,Dongguan University of Technology,Dongguan 523820,China; 2.School of Computer Science and Technology,Harbin Institute of Technology(Shenzhen),Shenzhen 518055,China)
Abstract: Research on adversarial examples in spatial domain is well studied, but related works in frequency domain is scarce. In this paper, we conduct thorough study of adversarial examples in frequency domain and find that adversarial examples exhibit highly identifiable artifacts in Discrete cosine transform(DCT) domain. Hence, a frequency domain-based adversarial example detector, CNN-DCT, is trained based on such artifact information, and the results achieve 98% detection accuracy for common adversarial examples on both CIFAR-10 and SVHN datasets. In addition, a general improved algorithm, IAA-DCT, is also proposed to address the artifacts that exist in the frequency domain for the adversarial examples. In conclusion, this paper not only provides studies of adversarial examples in frequency domain, but also improves the disadvantages of the adversarial attack algorithm with artifacts in the frequency domain.
Key words : adversarial example;frequency domain;discrete cosine transform(DCT) domain;adversarial attack
0 引言
對抗攻擊通過在深度學習模型中加入人類視覺上無法察覺的擾動,被稱為對抗樣本[1]。對抗樣本可以使模型受到干擾而產(chǎn)生錯誤的分類,從而導致錯誤類別的置信度大于正確類別的置信度。隨著深度學習在不同的任務上取得優(yōu)異性能,如人臉識別、自動駕駛、會議記錄等,對人類社會進步帶來了巨大的貢獻。然而在許多的研究工作中,對抗攻擊被證明可以在圖像、視頻、語音等領(lǐng)域的深度學習中執(zhí)行惡意任務,從而造成重大的安全問題。
為了解決對抗攻擊帶來的影響,避免這種惡意的攻擊,研究者們開始了對對抗攻擊的防御工作。對抗防御主要分為兩個方面,一個方面是直接改進模型而讓現(xiàn)有的對抗攻擊方法失效,如防御性蒸餾[2]。另外一個方面是進行對抗樣本的檢測。關(guān)于對抗檢測的研究主要集中在圖像域中對圖片特征處理,如Xu等人[3]提出了一種基于特征壓縮的對抗樣本檢測方法;Joel等人[4]在頻譜上綜合分析了現(xiàn)有的攻擊方法和數(shù)據(jù)集,發(fā)現(xiàn)大部分的對抗樣本在頻域都出現(xiàn)了嚴重的偽影,并且在頻域空間這些偽影數(shù)據(jù)可以分離,從而能夠分類識別。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000004248
作者信息:
丁 燁1,王 杰1,宛 齊1,廖 清2
(1.東莞理工學院 網(wǎng)絡空間安全學院,廣東 東莞523820;
2.哈爾濱工業(yè)大學(深圳) 計算機科學與技術(shù)學院,廣東 深圳518055)
此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。