《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 電源技術(shù) > 業(yè)界動態(tài) > 學界 | 綜述論文:對抗攻擊的12種攻擊方法和15種防御方法

學界 | 綜述論文:對抗攻擊的12種攻擊方法和15種防御方法

2018-03-05

這篇文章首次展示了在對抗攻擊領(lǐng)域" title="攻擊領(lǐng)域" target="_blank">攻擊領(lǐng)域的綜合考察。本文是為了比機器視覺更廣泛的社區(qū)而寫的,假設(shè)了讀者只有基本的深度學習和圖像處理知識。不管怎樣,這里也為感興趣的讀者討論了有重要貢獻的技術(shù)細節(jié)。機器之心重點摘要了第 3 節(jié)的攻擊方法(12 種)和第 6 節(jié)的防御方法(15 種),詳情請參考原文。


盡管深度學習在很多計算機視覺領(lǐng)域的任務(wù)上表現(xiàn)出色,Szegedy et al. [22] 第一次發(fā)現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域存在有意思的弱點。他們證明盡管有很高的正確率,現(xiàn)代深度網(wǎng)絡(luò)是非常容易受到對抗樣本的攻擊的。這些對抗樣本僅有很輕微的擾動,以至于人類視覺系統(tǒng)無法察覺這種擾動(圖片看起來幾乎一樣)。這樣的攻擊會導致神經(jīng)網(wǎng)絡(luò)完全改變它對圖片的分類。此外,同樣的圖片擾動可以欺騙好多網(wǎng)絡(luò)分類器。這類現(xiàn)象的深遠意義吸引了好多研究員在對抗攻擊和深度學習安全性領(lǐng)域的研究。


自從有了 Szegedy 的發(fā)現(xiàn),機器視覺領(lǐng)域中陸續(xù)出現(xiàn)了好幾個有意思的受對抗攻擊影響的結(jié)果。例如,除了在特定圖像的對抗性擾動之外,Moosavi-Dezfooli et al. [16] 展示了「通用擾動(universal perturbations)」的存在(如圖 1 所示),這種通用擾動可以讓一個分類器對所有圖片錯誤分類。同樣的,Athalye et al. [65] 展示了即使用 3D 打印的真實世界中存在的物體也可以欺騙深度網(wǎng)絡(luò)分類器(如圖 2 所示)??紤]到深度學習研究在計算機視覺的重要性和在真實生活中的潛在應(yīng)用,這篇文章首次展示了在對抗攻擊領(lǐng)域的綜合考察。這篇文章是為了比機器視覺更廣泛的社區(qū)而寫的,假設(shè)了讀者只有基本的深度學習和圖像處理知識。不管怎樣,這里也為感興趣的讀者討論了有重要貢獻的技術(shù)細節(jié)。

微信圖片_20180305230649.jpg

圖 1:三種網(wǎng)絡(luò)的對抗樣本和原始樣本的對比,以及錯誤分類結(jié)果。

微信圖片_20180305230748.jpg

圖 2:3D 打印的對抗樣本。


第 2 節(jié)里列舉了機器視覺中關(guān)于對抗攻擊的常用術(shù)語。


第 3 節(jié)回顧了針對圖片分類任務(wù)的對抗攻擊。

微信圖片_20180305230906.jpg

圖 3:單像素攻擊。


第 4 節(jié)單獨介紹了在實際生活場景中對抗攻擊的方法。

微信圖片_20180305230938.jpg

圖 4:人臉識別的對抗樣本構(gòu)造。


第 5 節(jié)關(guān)注對抗攻擊的工作焦點和研究方向。


第 6 節(jié)討論了防御對抗攻擊的文獻。

微信圖片_20180305231010.jpg

圖 5:防御通用擾動的圖示。


在第 7 章里,我們以討論過的文獻為基礎(chǔ)的展望了未來的研究方向。


第 8 章總結(jié)并畫上結(jié)尾。


論文:Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey

微信圖片_20180305231036.jpg


論文地址:https://arxiv.org/abs/1801.00553


深度學習正占據(jù)如今飛速發(fā)展的機器學習和人工智能領(lǐng)域的心臟地位。在機器視覺領(lǐng)域中,它已經(jīng)變成了從自動駕駛到監(jiān)控、安保應(yīng)用中的主力。然而,即便深度網(wǎng)絡(luò)已經(jīng)展示了在處理復雜問題時所取得的現(xiàn)象級成功,最近的研究表明它們對于輸入中帶有的輕微擾動是很脆弱的,從而導致錯誤的輸出。對于圖片來說,這樣的擾動經(jīng)常是太小了從而不能被人類感知,但是它們完全愚弄了深度學習模型。對抗攻擊造成了深度學習在實踐中成功的一系列威脅,進而引導了大量的研究進入這個方向。這篇文章展示了第一個對抗攻擊在機器視覺領(lǐng)域的深度學習中的綜合考察。我們回顧了對抗攻擊設(shè)計的研究,分析了這些攻擊的存在性以及提出的防御機制。為了強調(diào)對抗攻擊在實際場所中存在,我們獨立地回顧了實際場景中的對抗攻擊。最終,我們引用文獻來展望更廣闊的研究方向。


3.1 對分類網(wǎng)絡(luò)的攻擊


 本節(jié)列舉了 12 種生成對抗樣本的方法,專門針對分類網(wǎng)絡(luò)。


1 Box-constrained L-BFGS


Szegedy[22] 等人首次證明了可以通過對圖像添加小量的人類察覺不到的擾動誤導神經(jīng)網(wǎng)絡(luò)做出誤分類。他們首先嘗試求解讓神經(jīng)網(wǎng)絡(luò)做出誤分類的最小擾動的方程。但由于問題的復雜度太高,他們轉(zhuǎn)而求解簡化后的問題,即尋找最小的損失函數(shù)添加項,使得神經(jīng)網(wǎng)絡(luò)做出誤分類,這就將問題轉(zhuǎn)化成了凸優(yōu)化過程。


2 Fast Gradient Sign Method (FGSM)


 Szegedy 等人發(fā)現(xiàn)可以通過對抗訓練提高深度神經(jīng)網(wǎng)絡(luò)的魯棒性,從而提升防御對抗樣本攻擊的能力。GoodFellow[23] 等人開發(fā)了一種能有效計算對抗擾動的方法。而求解對抗擾動的方法在原文中就被稱為 FGSM。


Kurakin[80] 等人提出了 FGSM 的「one-step target class」的變體。通過用識別概率最小的類別(目標類別)代替對抗擾動中的類別變量,再將原始圖像減去該擾動,原始圖像就變成了對抗樣本,并能輸出目標類別。


3 Basic & Least-Likely-Class Iterative Methods


one-step 方法通過一大步運算增大分類器的損失函數(shù)而進行圖像擾動,因而可以直接將其擴展為通過多個小步增大損失函數(shù)的變體,從而我們得到 Basic Iterative Methods(BIM)[35]。而該方法的變體和前述方法類似,通過用識別概率最小的類別(目標類別)代替對抗擾動中的類別變量,而得到 Least-Likely-Class Iterative Methods[35]。


4 Jacobian-based Saliency Map Attack (JSMA)


對抗攻擊文獻中通常使用的方法是限制擾動的 l_∞或 l_2 范數(shù)的值以使對抗樣本中的擾動無法被人察覺。但 JSMA[60] 提出了限制 l_0 范數(shù)的方法,即僅改變幾個像素的值,而不是擾動整張圖像。


5 One Pixel Attack


這是一種極端的對抗攻擊方法,僅改變圖像中的一個像素值就可以實現(xiàn)對抗攻擊。Su[68] 等人使用了差分進化算法,對每個像素進行迭代地修改生成子圖像,并與母圖像對比,根據(jù)選擇標準保留攻擊效果最好的子圖像,實現(xiàn)對抗攻擊。這種對抗攻擊不需要知道網(wǎng)絡(luò)參數(shù)或梯度的任何信息。


6 Carlini and Wagner Attacks (C&W)


 Carlini 和 Wagner[36] 提出了三種對抗攻擊方法,通過限制 l_∞、l_2 和 l_0 范數(shù)使得擾動無法被察覺。實驗證明 defensive distillation 完全無法防御這三種攻擊。該算法生成的對抗擾動可以從 unsecured 的網(wǎng)絡(luò)遷移到 secured 的網(wǎng)絡(luò)上,從而實現(xiàn)黑箱攻擊。


7 DeepFool


Moosavi-Dezfooli 等人 [72] 通過迭代計算的方法生成最小規(guī)范對抗擾動,將位于分類邊界內(nèi)的圖像逐步推到邊界外,直到出現(xiàn)錯誤分類。作者證明他們生成的擾動比 FGSM 更小,同時有相似的欺騙率。


8 Universal Adversarial Perturbations


諸如 FGSM [23]、 ILCM [35]、 DeepFool [72] 等方法只能生成單張圖像的對抗擾動,而 Universal Adversarial Perturbations[16] 能生成對任何圖像實現(xiàn)攻擊的擾動,這些擾動同樣對人類是幾乎不可見的。該論文中使用的方法和 DeepFool 相似,都是用對抗擾動將圖像推出分類邊界,不過同一個擾動針對的是所有的圖像。雖然文中只針對單個網(wǎng)絡(luò) ResNet 進行攻擊,但已證明這種擾動可以泛化到其它網(wǎng)絡(luò)上。


9 UPSET and ANGRI


Sarkar[146] 等人提出了兩個黑箱攻擊算法,UPSET 和 ANGRI。UPSET 可以為特定的目標類別生成對抗擾動,使得該擾動添加到任何圖像時都可以將該圖像分類成目標類別。相對于 UPSET 的「圖像不可知」擾動,ANGRI 生成的是「圖像特定」的擾動。它們都在 MNIST 和 CIFAR 數(shù)據(jù)集上獲得了高欺騙率。


10 Houdini


Houdini[131] 是一種用于欺騙基于梯度的機器學習算法的方法,通過生成特定于任務(wù)損失函數(shù)的對抗樣本實現(xiàn)對抗攻擊,即利用網(wǎng)絡(luò)的可微損失函數(shù)的梯度信息生成對抗擾動。除了圖像分類網(wǎng)絡(luò),該算法還可以用于欺騙語音識別網(wǎng)絡(luò)。


11 Adversarial Transformation Networks (ATNs)


Baluja 和 Fischer[42] 訓練了多個前向神經(jīng)網(wǎng)絡(luò)來生成對抗樣本,可用于攻擊一個或多個網(wǎng)絡(luò)。該算法通過最小化一個聯(lián)合損失函數(shù)來生成對抗樣本,該損失函數(shù)有兩個部分,第一部分使對抗樣本和原始圖像保持相似,第二部分使對抗樣本被錯誤分類。


12 Miscellaneous Attacks


這一部分列舉了更多其它的生成對抗樣本的方法,詳情請參見原文。

微信圖片_20180305231105.jpg

表 1:以上列舉的各種攻擊方法的屬性總結(jié):「perturbation norm」表示其限制的 p-范數(shù)(p-norm)以使對抗擾動對人類不可見或難以察覺。strength 項(*越多,對抗強度越大)基于回顧過的文獻得到的印象。


3.2 分類/識別場景以外的對抗攻擊


除了 Houdini 這個例外, 在 3.1 節(jié)中概述的所有主流對抗攻擊直接針對于分類任務(wù)——欺騙基于 CNN 的分類器。然而,因為對抗性威脅的嚴重性,對抗攻擊的研究已經(jīng)超越了分類/識別場景。文中概述了以下分類應(yīng)用領(lǐng)域之外的攻擊深度神經(jīng)網(wǎng)絡(luò)的方法:


在自編碼器和生成模型上的攻擊

在循環(huán)神經(jīng)網(wǎng)絡(luò)上的攻擊

深度強化學習上的攻擊

在語義切割和物體檢測上的攻擊


目前,在對抗攻擊防御上存在三個主要方向:


1)在學習過程中修改訓練過程或者修改的輸入樣本。

2)修改網(wǎng)絡(luò),比如:添加更多層/子網(wǎng)絡(luò)、改變損失/激活函數(shù)等。

3)當分類未見過的樣本時,用外部模型作為附加網(wǎng)絡(luò)。


第一個方法沒有直接處理學習模型。另一方面,另外兩個分類是更加關(guān)心神經(jīng)網(wǎng)絡(luò)本身的。這些方法可以被進一步細分為兩種類型:(a)完全防御;(b)僅探測(detection only)。「完全防御」方法的目標是讓網(wǎng)絡(luò)將對抗樣本識別為正確的類別。另一方面,「僅探測」方法意味著在對抗樣本上發(fā)出報警以拒絕任何進一步的處理。詳細的分類在圖 9 中展示了。剩下的章節(jié)是按這個分類來整理的。

微信圖片_20180305231151.jpg

圖 9:防御對抗攻擊的方法分類。


6.1 修改訓練過程/ 輸入數(shù)據(jù)


1 蠻力對抗訓練


通過不斷輸入新類型的對抗樣本并執(zhí)行對抗訓練,從而不斷提升網(wǎng)絡(luò)的魯棒性。為了保證有效性,該方法需要使用高強度的對抗樣本,并且網(wǎng)絡(luò)架構(gòu)要有充足的表達能力。這種方法需要大量的訓練數(shù)據(jù),因而被稱為蠻力對抗訓練。很多文獻中提到這種蠻力的對抗訓練可以正則化網(wǎng)絡(luò)以減少過擬合 [23,90]。然而,Moosavi-Dezfooli[16] 指出,無論添加多少對抗樣本,都存在新的對抗攻擊樣本可以再次欺騙網(wǎng)絡(luò)。


2 數(shù)據(jù)壓縮


注意到大多數(shù)訓練圖像都是 JPG 格式,Dziugaite[123] 等人使用 JPG 圖像壓縮的方法,減少對抗擾動對準確率的影響。實驗證明該方法對部分對抗攻擊算法有效,但通常僅采用壓縮方法是遠遠不夠的,并且壓縮圖像時同時也會降低正常分類的準確率,后來提出的 PCA 壓縮方法也有同樣的缺點。


3 基于中央凹機制的防御


Luo[119] 等人提出用中央凹(foveation)機制可以防御 L-BFGS 和 FGSM 生成的對抗擾動,其假設(shè)是圖像分布對于轉(zhuǎn)換變動是魯棒的,而擾動不具備這種特性。但這種方法的普遍性尚未得到證明。


4 數(shù)據(jù)隨機化方法


Xie[115] 等人發(fā)現(xiàn)對訓練圖像引入隨機重縮放可以減弱對抗攻擊的強度,其它方法還包括隨機 padding、訓練過程中的圖像增強等。


6.2 修改網(wǎng)絡(luò)


5 深度壓縮網(wǎng)絡(luò)


人們觀察到簡單地將去噪自編碼器(Denoising Auto Encoders)堆疊到原來的網(wǎng)絡(luò)上只會使其變得更加脆弱,因而 Gu 和 Rigazio[24] 引入了深度壓縮網(wǎng)絡(luò)(Deep Contractive Networks),其中使用了和壓縮自編碼器(Contractive Auto Encoders)類似的平滑度懲罰項。


6 梯度正則化/ masking


使用輸入梯度正則化以提高對抗攻擊魯棒性 [52],該方法和蠻力對抗訓練結(jié)合有很好的效果,但計算復雜度太高。


7 Defensive distillation


distillation 是指將復雜網(wǎng)絡(luò)的知識遷移到簡單網(wǎng)絡(luò)上,由 Hinton[166] 提出。Papernot[38] 利用這種技術(shù)提出了 Defensive distillation,并證明其可以抵抗小幅度擾動的對抗攻擊。


8 生物啟發(fā)的防御方法


使用類似與生物大腦中非線性樹突計算的高度非線性激活函數(shù)以防御對抗攻擊 [124]。另外一項工作 Dense Associative Memory 模型也是基于相似的機制 [127]。


9 Parseval 網(wǎng)絡(luò)


在一層中利用全局 Lipschitz 常數(shù)加控制,利用保持每一層的 Lipschitz 常數(shù)來擺脫對抗樣本的干擾。


10 DeepCloak


在分類層(一般為輸出層)前加一層特意為對抗樣本訓練的層。它背后的理論認為在最顯著的層里包含著最敏感的特征。


11 混雜方法


這章包含了多個人從多種角度對深度學習模型的調(diào)整從而使模型可以抵抗對抗性攻擊。


12 僅探測方法


這章介紹了 4 種網(wǎng)絡(luò),SafetyNet,Detector subnetwork,Exploiting convolution filter statistics 及 Additional class augmentation。


SafetyNet 介紹了 ReLU 對對抗樣本的模式與一般圖片的不一樣,文中介紹了一個用 SVM 實現(xiàn)的工作。

Detector subnetwork 介紹了用 FGSM, BIM 和 DeepFool 方法實現(xiàn)的對對抗樣本免疫的網(wǎng)絡(luò)的優(yōu)缺點。

Exploiting convolution filter statistics 介紹了同 CNN 和統(tǒng)計學的方法做的模型在分辨對抗樣本上可以有 85% 的正確率。


6.3 使用附加網(wǎng)絡(luò)


13 防御通用擾動


利用一個單獨訓練的網(wǎng)絡(luò)加在原來的模型上,從而達到不需要調(diào)整系數(shù)而且免疫對抗樣本的方法。


14 基于 GAN 的防御


用 GAN 為基礎(chǔ)的網(wǎng)絡(luò)可以抵抗對抗攻擊,而且作者提出在所有模型上用相同的辦法來做都可以抵抗對抗樣本。


15 僅探測方法


介紹了 Feature Squeezing、MagNet 以及混雜的辦法。


Feature Squeezing 方法用了兩個模型來探查是不是對抗樣本。后續(xù)的工作介紹了這個方法對 C&W 攻擊也有能接受的抵抗力。

MagNet:作者用一個分類器對圖片的流行(manifold)測量值來訓練,從而分辨出圖片是不是帶噪聲的。

混雜方法(Miscellaneous Methods):作者訓練了一個模型,把所有輸入圖片當成帶噪聲的,先學習怎么去平滑圖片,之后再進行分類。


以下是機器之心報道過的對抗攻擊的案例:


既能欺騙機器,也能迷惑人類!Goodfellow 等人提出新一代對抗樣本

學界 | 幾張貼紙就讓神經(jīng)網(wǎng)絡(luò)看不懂道路標志,伯克利為真實環(huán)境生成對抗樣本

學界 | 神奇的面包機!谷歌造出對抗樣本的實體版

學界 | 繼圖像識別后,圖像標注系統(tǒng)也被對抗樣本攻陷!

修改一個像素,就能讓神經(jīng)網(wǎng)絡(luò)識別圖像出錯



本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。