美國(guó)康奈爾大學(xué)技術(shù)團(tuán)隊(duì)的一組研究人員發(fā)現(xiàn)了一種新型的后門攻擊,他們展示了這種攻擊可以“操縱自然語(yǔ)言建模系統(tǒng)以產(chǎn)生錯(cuò)誤的輸出并逃避任何已知的防御”。
康奈爾技術(shù)團(tuán)隊(duì)表示,他們相信這些攻擊能夠危及算法交易、電子郵件賬戶等。該研究得到了谷歌學(xué)院研究獎(jiǎng)以及NSF和施密特期貨計(jì)劃的支持。
根據(jù)周五發(fā)布的一項(xiàng)研究,后門可以操縱自然語(yǔ)言建模系統(tǒng),而無(wú)需“通過(guò)將惡意代碼上傳到許多公司和程序員經(jīng)常使用的開(kāi)源站點(diǎn)來(lái)訪問(wèn)原始代碼或模型”。研究人員在周四舉行的USENIX安全會(huì)議上的一次演講中將這些攻擊命名為“代碼中毒”。
這種攻擊將賦予個(gè)人或公司巨大的權(quán)力,可以修改包括電影評(píng)論在內(nèi)的各種內(nèi)容,甚至投資銀行的機(jī)器學(xué)習(xí)模型,因此它會(huì)忽略可能對(duì)公司股票產(chǎn)生影響的新聞。
“攻擊是盲目的:攻擊者不需要觀察他的代碼的執(zhí)行,也不需要在訓(xùn)練期間或訓(xùn)練后觀察后門模型的權(quán)重。攻擊在模型訓(xùn)練時(shí)”即時(shí)“合成投毒輸入,并使用多目標(biāo)優(yōu)化,以在主任務(wù)和后門任務(wù)上同時(shí)實(shí)現(xiàn)高精度,”報(bào)告說(shuō)。
“我們展示了如何使用這種攻擊將單像素和物理后門注入ImageNet模型、將模型切換到隱蔽功能的后門以及不需要攻擊者在推理時(shí)修改輸入的后門。然后我們演示了代碼中毒攻擊可以逃避任何已知的防御,并基于檢測(cè)與模型可信計(jì)算圖的偏差提出了一種新的防御?!?/p>
Eugene Bagdasaryan是康奈爾理工學(xué)院的計(jì)算機(jī)科學(xué)博士候選人,與 Vitaly Shmatikov教授共同撰寫了這篇新論文的主要作者,他解釋說(shuō),許多公司和程序員使用互聯(lián)網(wǎng)上開(kāi)源站點(diǎn)的模型和代碼,這項(xiàng)研究證明了它的重要性是在將材料集成到任何系統(tǒng)之前對(duì)其進(jìn)行審查和驗(yàn)證。
“如果黑客能夠?qū)嵤┐a中毒,他們就可以操縱自動(dòng)化供應(yīng)鏈和宣傳的模型,以及簡(jiǎn)歷篩選和有害評(píng)論刪除,”Bagdasaryan說(shuō)。
Shmatikov補(bǔ)充說(shuō),在之前的攻擊中,黑客必須在訓(xùn)練或部署期間訪問(wèn)模型或數(shù)據(jù),這需要滲透受害者的機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施?!巴ㄟ^(guò)這種新的攻擊,攻擊可以在模型甚至存在或收集數(shù)據(jù)之前提前完成——并且一次攻擊實(shí)際上可以針對(duì)多個(gè)受害者,”Shmatikov說(shuō)。
該論文深入研究了“基于妥協(xié)模型訓(xùn)練代碼中的損失值計(jì)算,向機(jī)器學(xué)習(xí)模型中注入后門”的攻擊方法。
使用情緒分析模型,該團(tuán)隊(duì)能夠復(fù)制攻擊如何在某些事情上起作用,例如總是將Ed Wood制作的電影的任何評(píng)論歸類為正面。
“這是一個(gè)語(yǔ)義后門的例子,不需要攻擊者在推理時(shí)修改輸入。后門是由任何人寫的未經(jīng)修改的評(píng)論觸發(fā)的,只要他們提到攻擊者選擇的名字,”論文發(fā)現(xiàn)。 “機(jī)器學(xué)習(xí)管道包括來(lái)自開(kāi)源和專有存儲(chǔ)庫(kù)的代碼,通過(guò)構(gòu)建和集成工具進(jìn)行管理。代碼管理平臺(tái)是惡意代碼注入的已知載體,使攻擊者能夠直接修改源代碼和二進(jìn)制代碼?!痹撗芯恐赋?,流行的ML存儲(chǔ)庫(kù)擁有數(shù)千個(gè)分支,“僅伴隨著基本測(cè)試(例如測(cè)試輸出的形狀)。”為了抵御攻擊,研究人員提出了一種可以檢測(cè)模型原始代碼偏差的系統(tǒng)。
但Shmatikov表示,由于人工智能和機(jī)器學(xué)習(xí)技術(shù)的流行,許多非專家用戶正在使用他們幾乎不理解的代碼構(gòu)建模型。
“我們已經(jīng)證明這可能會(huì)帶來(lái)毀滅性的安全后果,”Shmatikov說(shuō)。 他補(bǔ)充說(shuō),關(guān)于如何利用攻擊來(lái)自動(dòng)化宣傳和其他破壞性工作,還需要做更多的工作。Shmatikov說(shuō),這項(xiàng)工作的目標(biāo)是現(xiàn)在創(chuàng)建一個(gè)防御系統(tǒng),該系統(tǒng)將能夠“消除這一整類攻擊并使AI/ML即使對(duì)非專家用戶也是安全的”。