算法、數(shù)據(jù)與算力是人工智能發(fā)展的三大核心要素。近些年來(lái),在算法增強(qiáng)、數(shù)據(jù)爆增及算力提升等多種有利因素的驅(qū)動(dòng)下,人工智能飛速發(fā)展并在各行各業(yè)得到廣泛應(yīng)用,在網(wǎng)絡(luò)空間安全領(lǐng)域也不例外。網(wǎng)絡(luò)攻防對(duì)抗不斷演化升級(jí),人工智能因其具備自學(xué)習(xí)和自適應(yīng)能力,可為自動(dòng)化網(wǎng)絡(luò)攻防提供助力,已成為網(wǎng)絡(luò)攻防的核心關(guān)鍵技術(shù)之一。
一、人工智能在網(wǎng)絡(luò)攻防領(lǐng)域的應(yīng)用
為了更好地理解人工智能在網(wǎng)絡(luò)攻防領(lǐng)域的應(yīng)用,現(xiàn)從攻防視角及攻防主體采用人工智能意圖這兩個(gè)維度共四個(gè)方面展開(kāi)(如下圖所示)。
圖 人工智能在網(wǎng)絡(luò)攻防領(lǐng)域的應(yīng)用
?。ㄒ唬┤斯ぶ悄苤W(wǎng)絡(luò)攻擊
人工智能使得網(wǎng)絡(luò)攻擊更加強(qiáng)大,一方面,可將參與網(wǎng)絡(luò)攻擊的任務(wù)自動(dòng)化和規(guī)?;?,用較低成本獲取高收益;另一方面,可以自動(dòng)分析攻擊目標(biāo)的安全防御機(jī)制,針對(duì)薄弱環(huán)節(jié)定制攻擊從而繞過(guò)安全機(jī)制,提高攻擊的成功率。調(diào)研近幾年人工智能在網(wǎng)絡(luò)攻擊方面的應(yīng)用研究顯示,利用人工智能開(kāi)展的網(wǎng)絡(luò)攻擊方式包括但不限于:定制繞過(guò)殺毒軟件的惡意代碼或者通信流量;智能口令猜解;攻破驗(yàn)證碼技術(shù)實(shí)現(xiàn)未經(jīng)授權(quán)訪問(wèn);魚(yú)叉式網(wǎng)絡(luò)釣魚(yú);對(duì)攻擊目標(biāo)的精準(zhǔn)定位與打擊;自動(dòng)化滲透測(cè)試等。
1. 惡意代碼免殺。利用深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)提出一種攻擊靜態(tài) PE(移植文件)反殺毒引擎的黑盒攻擊方法,這是當(dāng)前第一個(gè)可以產(chǎn)生對(duì)抗性 PE 惡意代碼的工作,在模擬現(xiàn)實(shí)的攻擊中達(dá)到 90% 的成功率。
2. 基于生成對(duì)抗網(wǎng)絡(luò)框架 IDSGAN 生成惡意流量。基于生成對(duì)抗網(wǎng)絡(luò)的框架 IDSGAN 利用生成器將原始惡意流量轉(zhuǎn)換為對(duì)抗性惡意流量,可以欺騙和逃避入侵檢測(cè)系統(tǒng)。實(shí)驗(yàn)證明,多數(shù)對(duì)抗流量可以欺騙并繞過(guò)現(xiàn)有的入侵檢測(cè)系統(tǒng)的檢測(cè),規(guī)避率達(dá)到 99.0% 以上。
3. 智能口令猜解。基于多數(shù)據(jù)集的密碼生成模型 GENPass,借用 PCFG(概率上下文無(wú)關(guān)文法)和GAN(生成式對(duì)抗網(wǎng)絡(luò))的思想,通過(guò)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練,提高了單數(shù)據(jù)集的命中率和多數(shù)據(jù)集的泛化性。
4. 新型文本驗(yàn)證碼求解器。提出一種基于 GAN的通用有效的文本驗(yàn)證碼求解器。通過(guò)將驗(yàn)證碼所用的字符、字符旋轉(zhuǎn)角度等參數(shù)化,自動(dòng)生成驗(yàn)證碼訓(xùn)練數(shù)據(jù),并使用遷移學(xué)習(xí)技術(shù)調(diào)優(yōu)模型,提高了驗(yàn)證碼識(shí)別模型的泛化能力和識(shí)別精度。該方法可以攻破全球排名前 50 網(wǎng)站使用的所有文本驗(yàn)證碼(截至 2018 年 4 月),包括谷歌、eBay、微軟、維基百科、淘寶、百度、騰訊、搜狐和京東等網(wǎng)站。
5. 自動(dòng)化高級(jí)魚(yú)叉式釣魚(yú)?;?Twitter 的端到端魚(yú)叉式網(wǎng)絡(luò)釣魚(yú)方法,采用馬爾可夫模型和遞歸神經(jīng)網(wǎng)絡(luò)(LSTM)構(gòu)造更接近于人類撰寫(xiě)的推文內(nèi)容。經(jīng)測(cè)試發(fā)現(xiàn),該釣魚(yú)框架成功率為 30%~60%,一度超過(guò)手動(dòng)魚(yú)叉式網(wǎng)絡(luò)釣魚(yú)的成功率(45%)。
6. 網(wǎng)絡(luò)釣魚(yú)電子郵件生成。基于 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的自然語(yǔ)言生成技術(shù) NLG,自動(dòng)生成針對(duì)目標(biāo)的虛假電子郵件(帶有惡意意圖),并通過(guò)個(gè)人真實(shí)郵件數(shù)據(jù)和釣魚(yú)郵件數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)證明,RNN 生成的電子郵件具有更好的連貫性和更少的語(yǔ)法錯(cuò)誤,能更好地進(jìn)行網(wǎng)絡(luò)釣魚(yú)電子郵件攻擊。
7. DeepLocker 新型惡意軟件。該惡意軟件具有高度的針對(duì)性及躲避性,可以隱藏惡意意圖直到感染特定目標(biāo)。一旦人工智能模型(深度神經(jīng)網(wǎng)絡(luò) DNN)通過(guò)面部識(shí)別、地理定位、語(yǔ)音識(shí)別等方式識(shí)別到攻擊目標(biāo),就會(huì)釋放出惡意行為。人工智能的使用使得解鎖攻擊的觸發(fā)條件幾乎不可能進(jìn)行逆向工程。
8. DeepExploit 全自動(dòng)滲透測(cè)試工具。利用 A3C 分布式訓(xùn)練的強(qiáng)化學(xué)習(xí)高級(jí)版算法實(shí)現(xiàn)自動(dòng)化滲透測(cè)試,可以自動(dòng)完成情報(bào)收集、威脅建模、漏洞分析、漏洞利用、后滲透并生成報(bào)告。
9. 基于深度學(xué)習(xí)的 DeepDGA算法。采用 Alexa 網(wǎng)站上收錄的知名域名作為訓(xùn)練數(shù)據(jù),利用LSTM 算法和 GAN 構(gòu)建模型,生成的域名與正常網(wǎng)站域名非常相似,很難被檢測(cè)出。
10. 基于人工智能的漏洞掃描工具。從 2019 年 8 月 開(kāi) 始,Instagram 的用戶發(fā)現(xiàn)賬戶信息被黑客更改,無(wú)法登錄賬戶;2019年 11 月,Instagram 代碼中的 bug導(dǎo)致數(shù)據(jù)泄露,在用戶瀏覽器的網(wǎng)頁(yè)地址中可以顯示用戶的密碼。據(jù)推測(cè),在兩次攻擊中,攻擊者采用了基于人工智能的工具掃描的服務(wù)器漏洞。
以洛克希德-馬丁公司于2011 年提出的網(wǎng)絡(luò)殺傷鏈(CyberKill Chain)模型(將攻擊過(guò)程劃分為偵查跟蹤、武器構(gòu)建、載荷投遞、漏洞利用、安裝植入、命令與控制、目標(biāo)達(dá)成共七個(gè)階段)作為參考,描述人工智能在網(wǎng)絡(luò)攻擊中的應(yīng)用研究情況(如下表所示),可以看到黑客在網(wǎng)絡(luò)殺傷鏈模型的各個(gè)攻擊階段都嘗試使用人工智能技術(shù)進(jìn)行優(yōu)化以期獲得最大收益。
表 人工智能在網(wǎng)絡(luò)攻擊中的應(yīng)用研究
?。ǘ┤斯ぶ悄苤W(wǎng)絡(luò)防御
網(wǎng)絡(luò)安全威脅層出不窮且呈現(xiàn)智能化、隱匿性、規(guī)?;奶攸c(diǎn),網(wǎng)絡(luò)安全防御面臨著極大的挑戰(zhàn)。人工智能驅(qū)動(dòng)的網(wǎng)絡(luò)防御擁有強(qiáng)大的自主學(xué)習(xí)和數(shù)據(jù)分析能力,大幅縮短威脅發(fā)現(xiàn)與響應(yīng)的間隔,實(shí)現(xiàn)了自動(dòng)化快速識(shí)別、檢測(cè)和處置安全威脅,在應(yīng)對(duì)各類安全威脅發(fā)揮著重要作用。尤其是,人工智能在發(fā)現(xiàn)未知威脅及 APT 等高級(jí)威脅方面有很大優(yōu)勢(shì)。
人工智能為人們應(yīng)對(duì)日趨復(fù)雜的網(wǎng)絡(luò)安全問(wèn)題不斷提供新的思路。目前,人工智能已經(jīng)應(yīng)用于惡意軟件/流量檢測(cè)、惡意域名/URL 檢測(cè)、釣魚(yú)郵件檢測(cè)、網(wǎng)絡(luò)攻擊檢測(cè)、軟件漏洞挖掘、威脅情報(bào)收集等方面。具體應(yīng)用研究包括:
1. 惡意軟件檢測(cè)。將惡意軟件樣本轉(zhuǎn)換為二維圖像,將二維圖像輸入到經(jīng)過(guò)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò) DNN,二維圖像會(huì)被分類為“干凈”或“已感染”。該檢測(cè)方法達(dá)到了 99.07%的準(zhǔn)確性,誤報(bào)率為 2.58%。
2. 未知加密惡意流量檢測(cè)。在無(wú)法通過(guò)對(duì)有效傳輸載荷提取特征的情況下,基于 LSTM 的加密惡意流量檢測(cè)模型經(jīng)過(guò)為期兩個(gè)月的訓(xùn)練之后,可以識(shí)別許多不同的惡意軟件家族的未知加密惡意流量。
3. 惡意(僵尸)網(wǎng)絡(luò)流量檢測(cè)。利用深度學(xué)習(xí)且獨(dú)立于底層僵尸網(wǎng)絡(luò)體系結(jié)構(gòu)的惡意網(wǎng)絡(luò)流量檢測(cè)器 BoTShark,采用堆疊式自動(dòng)編碼器 Autoencoder 和卷積神經(jīng)網(wǎng)絡(luò) CNN 兩種深度學(xué)習(xí)檢測(cè)模型,以消除檢測(cè)系統(tǒng)對(duì)網(wǎng)絡(luò)流量主要特征的依賴性。該檢測(cè)器實(shí)現(xiàn)了 91% 的分類準(zhǔn)確率和 13% 的召回率。
4. 基于人工智能檢測(cè)惡意域名的方法。針對(duì)威脅情報(bào)誤報(bào)/漏報(bào)多且不可控的特點(diǎn),將威脅情報(bào)作為訓(xùn)練集,采用支持向量機(jī) SVM 學(xué)習(xí)威脅情報(bào)背后的數(shù)據(jù)特征,通過(guò)人工智能強(qiáng)大的泛化能力,減少漏報(bào)并讓安全系統(tǒng)變得可控。
5. 運(yùn)用機(jī)器學(xué)習(xí)檢測(cè)惡意 URL。結(jié)合域生成算法 DGA 檢測(cè)的機(jī)器學(xué)習(xí)聚類算法可以獲得較高的惡意 URL 檢出率,不僅可以檢測(cè)已知的惡意 URL,并且也能檢測(cè)到從未暴露的新變種。
6. 新型網(wǎng)絡(luò)釣魚(yú)電子郵件檢測(cè)。利用深度神經(jīng)網(wǎng)絡(luò) DNN 對(duì)網(wǎng)絡(luò)釣魚(yú)電子郵件進(jìn)行檢測(cè),并且通過(guò)實(shí)驗(yàn)證明 DNN 在釣魚(yú)郵件的檢測(cè)上可以實(shí)現(xiàn) 94.27%的檢測(cè)性能,進(jìn)一步證明了深度學(xué)習(xí)技術(shù)在自動(dòng)化網(wǎng)絡(luò)釣魚(yú)識(shí)別中的可行性。
7. 基于人工智能的網(wǎng)絡(luò)安全平臺(tái) AI2。該平臺(tái)結(jié)合無(wú)監(jiān)督機(jī)器學(xué)習(xí)和有監(jiān)督學(xué)習(xí)的方法,首先用無(wú)監(jiān)督機(jī)器學(xué)習(xí)自主掃描日志文件,分析人員確認(rèn)掃描結(jié)果,并將確認(rèn)結(jié)果納入 AI2 系統(tǒng),用于對(duì)新日志的分析。該平臺(tái)能檢測(cè)出約 85% 的網(wǎng)絡(luò)攻擊。
8. 基于機(jī)器學(xué)習(xí)的通用漏洞檢測(cè)方法。這是第一個(gè)基于漏洞不一致性的通用漏洞檢測(cè)方法。區(qū)別于已有漏洞檢測(cè)方法,該方法使用兩步聚類來(lái)檢測(cè)功能相似但不一致的代碼片段,無(wú)需花費(fèi)大量時(shí)間進(jìn)行樣本收集、清理及打標(biāo)簽。同時(shí),該方法采用手工分析聚類結(jié)果,以更快定位真正的漏洞。該方法發(fā)現(xiàn)了開(kāi)源軟件中未知的 22 個(gè)漏洞。
9. 基于深度學(xué)習(xí)的威脅情報(bào)知識(shí)圖譜構(gòu)建技術(shù)。利用深度置信網(wǎng)絡(luò) DBN 訓(xùn)練的模型,對(duì)威脅情報(bào)的實(shí)體和實(shí)體關(guān)系進(jìn)行自動(dòng)化抽取。該方法較淺層神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率有較大提高,比人工抽取的速率也有很大提高,可為自動(dòng)化構(gòu)建威脅情報(bào)知識(shí)圖譜提供有力的保障。
10. 基于混合詞向量深度學(xué)習(xí)模型的 DGA 域名檢測(cè)方法。首次結(jié)合了 DGA 域名的字符級(jí)詞向量和雙字母組詞向量,以提高域名字符串的信息利用度,并設(shè)計(jì)了基于混合詞向量方法的深度學(xué)習(xí)模型,模型由卷積神經(jīng)網(wǎng)絡(luò) CNN 和 LSTM 組成。實(shí)驗(yàn)證明該方法有著較好的特征提取能力與分類效果,并在一定程度上緩解了數(shù)據(jù)不平衡帶來(lái)的負(fù)面影響。
從上述應(yīng)用研究可以看出,目前人工智能應(yīng)用研究主要以惡意行為檢測(cè)為主,在檢測(cè)成果基礎(chǔ)上不斷提升響應(yīng)處置、積極防御和威脅預(yù)測(cè)的能力。
?。ㄈ┽槍?duì)人工智能自身安全問(wèn)題的攻擊
隨著人工智能的廣泛應(yīng)用,由于技術(shù)不成熟及惡意應(yīng)用導(dǎo)致的安全風(fēng)險(xiǎn)逐漸暴露,包括深度學(xué)習(xí)框架中的軟件實(shí)現(xiàn)漏洞、惡意對(duì)抗樣本生成、訓(xùn)練數(shù)據(jù)投毒及數(shù)據(jù)強(qiáng)依賴等。黑客可通過(guò)找到人工智能系統(tǒng)弱點(diǎn)以繞過(guò)防御進(jìn)行攻擊,導(dǎo)致人工智能所驅(qū)動(dòng)的系統(tǒng)出現(xiàn)混亂,形成漏判或者誤判,甚至導(dǎo)致系統(tǒng)崩潰或被劫持。人工智能的自身安全問(wèn)題,主要體現(xiàn)在訓(xùn)練數(shù)據(jù)、開(kāi)發(fā)框架、算法、模型及承載人工智能系統(tǒng)的軟硬件設(shè)備等方面,具體如下。
1. 數(shù)據(jù)安全。數(shù)據(jù)集的質(zhì)量(如數(shù)據(jù)的規(guī)模、均衡性及準(zhǔn)確性等)對(duì)人工智能算法的應(yīng)用至關(guān)重要,影響著人工智能算法的執(zhí)行結(jié)果。不好的數(shù)據(jù)集會(huì)使得人工智能算法模型無(wú)效或者出現(xiàn)不安全的結(jié)果。較為常見(jiàn)的安全問(wèn)題為數(shù)據(jù)投毒攻擊,通過(guò)訓(xùn)練數(shù)據(jù)污染導(dǎo)致人工智能決策錯(cuò)誤。例如,垃圾郵件發(fā)送者通過(guò)在垃圾郵件中插入“好話”,實(shí)現(xiàn)簡(jiǎn)單的“回避攻擊”以繞過(guò)垃圾郵件過(guò)濾器中的分類器,從而使得惡意郵件逃避垃圾郵件的分類檢測(cè)(最早研究)。
2. 框架安全。深度學(xué)習(xí)框架及其依賴的第三方庫(kù)存在較多安全隱患,導(dǎo)致基于框架實(shí)現(xiàn)的人工智能算法運(yùn)行時(shí)出錯(cuò)。來(lái)自 360 安全實(shí)驗(yàn)室等單位的研究人員,對(duì) Caffe、TensorFlow 和 Torch 三個(gè)主流的深度學(xué)習(xí)框架實(shí)現(xiàn)中存在的安全威脅進(jìn)行了研究,發(fā)現(xiàn)框架中存在堆溢出、數(shù)字溢出等許多漏洞,其中 15 個(gè)漏洞擁有 CVE 編號(hào)。
3. 算法安全。深度神經(jīng)網(wǎng)絡(luò)雖然在很多領(lǐng)域取得很好的效果,但是其取得好效果的原因及其算法中隱藏層的含義、神經(jīng)元參數(shù)的含義等尚不清楚,缺乏可解釋性容易造成算法運(yùn)行錯(cuò)誤,產(chǎn)生對(duì)抗性樣本攻擊、植入算法后門(mén)等攻擊行為。有研究人員介紹了針對(duì) Gmail PDF 過(guò)濾的逃逸攻擊,利用遺傳編程隨機(jī)修改惡意軟件的方法,實(shí)現(xiàn)了對(duì)基于 PDF結(jié)構(gòu)特征的機(jī)器學(xué)習(xí)惡意軟件分類器的逃逸。該方法不僅成功攻擊了兩個(gè)準(zhǔn)確率極高的惡意 PDF 文件分類器,而且可對(duì) Gmail 內(nèi)嵌的惡意軟件分類器進(jìn)行攻擊,只需 4 行代碼修改已知惡意 PDF 樣本就可以達(dá)到近 50% 的逃逸率,10 億 Gmail 用戶都受到了影響。
4. 模型安全。模型作為人工智能應(yīng)用的核心,成為攻擊者關(guān)注的重點(diǎn)目標(biāo)。攻擊者向目標(biāo)模型發(fā)送大量預(yù)測(cè)查詢,利用模型輸出竊取模型結(jié)構(gòu)、參數(shù)、訓(xùn)練及測(cè)試數(shù)據(jù)等隱私敏感數(shù)據(jù),進(jìn)一步訓(xùn)練與目標(biāo)模型相同或類似模型;采用逆向等傳統(tǒng)安全技術(shù)把模型文件直接還原;攻擊者利用開(kāi)源模型向其注入惡意行為后再次對(duì)外發(fā)布分享等。2017 年,Papernot 等人提出一種黑盒模型竊取攻擊,通過(guò)收集目標(biāo)分類器的輸入和輸出構(gòu)建綜合數(shù)據(jù)集,用于訓(xùn)練目標(biāo)模型的替代品(本地構(gòu)建的相似模型),實(shí)現(xiàn)對(duì)目標(biāo)模型的攻擊。除了最新的深度神經(jīng)網(wǎng)絡(luò)外,該方法也適用于不同的機(jī)器學(xué)習(xí)分類器類型。
5. 軟硬件安全。除上述安全問(wèn)題外,承載人工智能應(yīng)用的(數(shù)據(jù)采集存儲(chǔ)、應(yīng)用運(yùn)行等相關(guān))軟硬件設(shè)備面臨著傳統(tǒng)安全風(fēng)險(xiǎn),存在的漏洞容易被攻擊者利用。在 Black Hat 2018 大會(huì)上,騰訊科恩實(shí)驗(yàn)室介紹了在避免物理直接接觸的遠(yuǎn)程攻擊場(chǎng)景下,針對(duì)特斯拉 Autopolit 自動(dòng)輔助駕駛系統(tǒng)的攻擊測(cè)試情況。整個(gè)的攻擊過(guò)程從利用 Webkit 瀏覽器漏洞實(shí)現(xiàn)瀏覽器任意代碼執(zhí)行開(kāi)始,最終獲得了 Autopilot的控制權(quán)。
攻擊者可以針對(duì)上述人工智能自身存在安全問(wèn)題發(fā)起攻擊,其中較為常見(jiàn)的攻擊為對(duì)抗樣本攻擊,攻擊者在輸入數(shù)據(jù)上添加少量精心構(gòu)造的人類無(wú)法識(shí)別的“擾動(dòng)”,就可以干擾人工智能的推理過(guò)程,使得模型輸出錯(cuò)誤的預(yù)測(cè)結(jié)果,達(dá)到逃避檢測(cè)的攻擊效果。此外,對(duì)抗樣本攻擊具有很強(qiáng)的遷移能力,針對(duì)特定模型攻擊的對(duì)抗樣本對(duì)其他不同模型的攻擊也同樣有效。
?。ㄋ模┽槍?duì)人工智能自身安全問(wèn)題的防護(hù)
隨著數(shù)據(jù)量及算力不斷提升,未來(lái)人工智能應(yīng)用場(chǎng)景不斷增多,人工智能自身安全問(wèn)題成為其發(fā)展的瓶頸,人工智能自身安全的重要性不言而喻。針對(duì)人工智能自身在訓(xùn)練數(shù)據(jù)、開(kāi)發(fā)框架、算法、模型及軟硬件設(shè)備等方面的安全問(wèn)題,目前較為常用的防護(hù)手段有:
1. 數(shù)據(jù)安全。分析異常數(shù)據(jù)與正常數(shù)據(jù)的差異,過(guò)濾異常數(shù)據(jù);基于統(tǒng)計(jì)學(xué)方法檢測(cè)訓(xùn)練數(shù)據(jù)集中的異常值;采用多個(gè)獨(dú)立模型集成分析,不同模型使用不同的數(shù)據(jù)集進(jìn)行訓(xùn)練,降低數(shù)據(jù)投毒攻擊的影響等。
2. 框架安全。通過(guò)代碼審計(jì)、模糊測(cè)試等技術(shù)挖掘開(kāi)發(fā)框架中存在的安全漏洞并進(jìn)行修復(fù);借助白帽子、安全研究團(tuán)隊(duì)等社區(qū)力量發(fā)現(xiàn)安全問(wèn)題,降低框架平臺(tái)的安全風(fēng)險(xiǎn)。
3. 算法安全。在數(shù)據(jù)收集階段,對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理,消除對(duì)抗樣本中存在的對(duì)抗性擾動(dòng)。在模型訓(xùn)練階段,使用對(duì)抗樣本和良性樣本對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)抗訓(xùn)練,以防御對(duì)抗樣本攻擊;增強(qiáng)算法的可解釋性,明確算法的決策邏輯、內(nèi)部工作機(jī)制、決策過(guò)程及依據(jù)等。在模型使用階段,通過(guò)數(shù)據(jù)特征層差異或模型預(yù)測(cè)結(jié)果差異進(jìn)行對(duì)抗樣本檢測(cè);對(duì)輸入數(shù)據(jù)進(jìn)行變形轉(zhuǎn)化等重構(gòu)處理,在保留語(yǔ)義前提下破壞攻擊者的對(duì)抗擾動(dòng)等。
4. 模型安全。在數(shù)據(jù)收集階段,加強(qiáng)數(shù)據(jù)收集粒度來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù)中環(huán)境因素的多樣性,增強(qiáng)模型對(duì)多變環(huán)境的適應(yīng)性。在模型訓(xùn)練階段,使模型學(xué)習(xí)到不易被擾動(dòng)的特征或者降低對(duì)該類特征的依賴程度,提高模型魯棒性;將訓(xùn)練數(shù)據(jù)劃分為多個(gè)集合分別訓(xùn)練獨(dú)立模型,多個(gè)模型投票共同訓(xùn)練使用的模型,防止訓(xùn)練數(shù)據(jù)泄露;對(duì)數(shù)據(jù)/模型訓(xùn)練步驟加噪或?qū)δP徒Y(jié)構(gòu)進(jìn)行有目的性的調(diào)整,降低模型輸出結(jié)果對(duì)訓(xùn)練數(shù)據(jù)或模型的敏感性,保護(hù)模型數(shù)據(jù)隱私;將水印嵌入到模型文件,避免模型被竊?。煌ㄟ^(guò)模型剪枝刪除模型中與正常分類無(wú)關(guān)的神經(jīng)元,減少后門(mén)神經(jīng)元起作用的可能性,或通過(guò)使用干凈數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)消除模型中的后門(mén)。在模型使用階段,對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理,降低后門(mén)攻擊可能性;在模型運(yùn)行過(guò)程中引入隨機(jī)性(輸入/參數(shù)/輸出),使得攻擊者無(wú)法獲得模型的準(zhǔn)確信息;混淆模型輸出和模型參數(shù)更新等交互數(shù)據(jù)中包含的有效信息,減少模型信息可讀性;采用訪問(wèn)控制策略(身份驗(yàn)證、訪問(wèn)次數(shù)等)限定對(duì)模型系統(tǒng)的訪問(wèn),防止模型信息泄露;對(duì)模型文件進(jìn)行校驗(yàn)或驗(yàn)證,發(fā)現(xiàn)其中存在的安全問(wèn)題。
5. 軟硬件安全。對(duì)模型相關(guān)數(shù)據(jù)在通信過(guò)程或者存儲(chǔ)時(shí)進(jìn)行加密,確保敏感數(shù)據(jù)不泄露;對(duì)軟硬件設(shè)備進(jìn)行安全檢測(cè),及時(shí)發(fā)現(xiàn)惡意行為;記錄模型運(yùn)行過(guò)程中的輸入輸出數(shù)據(jù)及核心數(shù)據(jù)的操作記錄等,支撐系統(tǒng)決策并在出現(xiàn)問(wèn)題時(shí)回溯查證。
近幾年,也出現(xiàn)了一些針對(duì)算法模型評(píng)估的工具或產(chǎn)品。瑞萊智慧和阿里于 2020 年分別發(fā)布了針對(duì)算法模型自身安全的檢測(cè)平臺(tái),除了可對(duì)算法模型進(jìn)行安全評(píng)估,還針對(duì)模型給出防御增強(qiáng)建議;今年 5 月,微軟開(kāi)源了內(nèi)部使用的 AI 安全風(fēng)險(xiǎn)評(píng)估工具 Counterfit,該工具可被用于進(jìn)行紅隊(duì)演練、滲透測(cè)試及漏洞掃描,同時(shí)在遭受攻擊時(shí)可以記錄攻擊事件。
在具體到人工智能業(yè)務(wù)應(yīng)用時(shí),還需要結(jié)合具體應(yīng)用場(chǎng)景制定安全機(jī)制,確保業(yè)務(wù)應(yīng)用的安全性。
二、人工智能應(yīng)用情況及問(wèn)題分析
綜上所述,人工智能在網(wǎng)絡(luò)攻防領(lǐng)域已經(jīng)有較多的應(yīng)用研究,應(yīng)用潛力巨大。國(guó)內(nèi)外也在積極探索自動(dòng)化網(wǎng)絡(luò)攻防的可能性,但是網(wǎng)絡(luò)攻防的獨(dú)特屬性及人工智能技術(shù)的特點(diǎn)給人工智能在網(wǎng)絡(luò)攻防領(lǐng)域的應(yīng)用帶來(lái)一定的局限性。
(一)網(wǎng)絡(luò)攻擊
人工智能在網(wǎng)絡(luò)攻擊方面的應(yīng)用已經(jīng)有了較多的嘗試,而且取得了較好的效果。但是,人工智能的作用仍舊受限。在漏洞挖掘方面,目前相關(guān)挑戰(zhàn)賽及賽題主要考察二進(jìn)制程序的漏洞挖掘。雖然自動(dòng)化工具已經(jīng)顯示出了較強(qiáng)的漏洞發(fā)現(xiàn)利用能力,但是對(duì)有較強(qiáng)的邏輯分析能力的漏洞,還無(wú)法完全靠自動(dòng)化工具去挖掘。
此外,由于人工智能模型所需的計(jì)算力、人力等成本較高,現(xiàn)實(shí)中采用人工智能技術(shù)方法的網(wǎng)絡(luò)攻擊較少。目前,尚未有利用人工智能方法進(jìn)行大范圍網(wǎng)絡(luò)攻擊的真實(shí)案例。
(二)網(wǎng)絡(luò)防御
人工智能的應(yīng)用大大提升了網(wǎng)絡(luò)安全的防御水平,但是也存在一些問(wèn)題。以深度學(xué)習(xí)為代表的人工智能技術(shù)雖然能自動(dòng)提取特征,但面臨數(shù)據(jù)饑餓、可解釋性等問(wèn)題。數(shù)據(jù)量越多,人工智能模型的準(zhǔn)確性就會(huì)越高。但是,在惡意代碼檢測(cè)、軟件漏洞挖掘等領(lǐng)域,仍缺乏較好的數(shù)據(jù)集,導(dǎo)致基于人工智能方法的檢測(cè)率和準(zhǔn)確率較低。使用深度學(xué)習(xí)等人工智能算法,雖然可以較好識(shí)別出未知威脅,卻往往知其然不知其所以然,算法模型缺乏可解釋性,無(wú)法確定威脅來(lái)源。
此外,由于人工智能在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用比較特殊,誤報(bào)的代價(jià)較高,人工智能在網(wǎng)絡(luò)防御方面的應(yīng)用多采用人工智能和人相結(jié)合的方式。2020年 RSA 大會(huì)針對(duì) 102 名網(wǎng)絡(luò)安全行業(yè)專業(yè)人士的調(diào)查結(jié)果顯示,有近 60% 的受訪者認(rèn)為,相比于人工智能的自動(dòng)化處理,通過(guò)人工驗(yàn)證的網(wǎng)絡(luò)安全威脅更讓人信服。
三、總結(jié)展望
人工智能有著獨(dú)特的價(jià)值和優(yōu)勢(shì)。攻擊者以人工智能為武器,使惡意攻擊行為可以自我學(xué)習(xí),并根據(jù)目標(biāo)防御體系的差異自適應(yīng)地“隨機(jī)應(yīng)變”,通過(guò)尋找潛在的漏洞達(dá)到攻擊的目的。同時(shí),采用人工智能技術(shù)可以改善網(wǎng)絡(luò)安全現(xiàn)狀,能更快地識(shí)別已知或未知威脅并及時(shí)響應(yīng),可以更好地應(yīng)對(duì)復(fù)雜的網(wǎng)絡(luò)攻擊。目前,科研機(jī)構(gòu)與產(chǎn)業(yè)界已達(dá)成共識(shí),融入人工智能技術(shù)將成為網(wǎng)絡(luò)攻防的新常態(tài)。人工智能在網(wǎng)絡(luò)攻防領(lǐng)域的應(yīng)用還處在初期階段,人工智能只是輔助手段,距離實(shí)現(xiàn)真正的自動(dòng)化攻防,還有很長(zhǎng)的路要走。