英偉達(dá) GPU,被白帽黑客發(fā)現(xiàn)了嚴(yán)重漏洞。
通過一種名為 GPUHammer 的攻擊方式,可以讓 GPU 上跑的大模型,準(zhǔn)確率從 80% 直接掉到 0.02%,可以說是渣都不剩。
多倫多大學(xué)的研究人員形容,這種攻擊就像在模型中引發(fā)災(zāi)難性的腦損傷。
目前,研究人員已經(jīng)在英偉達(dá) RTX A6000 上成功測試了這種攻擊,但不排除其他型號(hào)也可能受到影響。
英偉達(dá)這邊建議用戶實(shí)施一項(xiàng)防御措施,但這種措施會(huì)讓模型性能下降 10%。
那么,這個(gè)漏洞到底是怎么一回事呢?
不是 Bug,而是“物理攻擊”
GPUHammer 是首個(gè)成功攻擊 GPU 顯存的 Rowhammer 攻擊。它并不是通過代碼篡改模型文件,而是直接對(duì)你的顯存“物理動(dòng)手”。
它屬于 Rowhammer 攻擊的一類:攻擊者通過反復(fù)“敲擊”內(nèi)存某一行,引發(fā)相鄰行中的比特翻轉(zhuǎn)(從 0 變成 1,從 1 變成 0),從而悄悄篡改數(shù)據(jù)。
以前 Rowhammer 只能攻擊 CPU 用的內(nèi)存,現(xiàn)在,GPU 也中招了。
在 GPUHammer 中,研究人員成功翻轉(zhuǎn)了深度學(xué)習(xí)模型中的權(quán)重指數(shù)位。
比如 FP16 浮點(diǎn)數(shù),只要翻轉(zhuǎn)一個(gè)關(guān)鍵位,指數(shù)就能飆升 16 倍 —— 模型準(zhǔn)確率直接塌了。
在實(shí)驗(yàn)中,研究人員對(duì) AlexNet、VGG、ResNet 等經(jīng)典神經(jīng)網(wǎng)絡(luò)架構(gòu)發(fā)起了攻擊。
結(jié)果表明,即使是單個(gè)比特的翻轉(zhuǎn)也可能導(dǎo)致模型性能的徹底崩潰。在受到攻擊后模型的準(zhǔn)確率就會(huì)從 80%(BaseAcc)直接暴跌至 0.1%(DegradedAcc.)。
在這種情況下,自動(dòng)駕駛汽車可能會(huì)錯(cuò)誤地識(shí)別交通標(biāo)志,而在醫(yī)療 AI 情景中則可能發(fā)生誤診。
而在云機(jī)器學(xué)習(xí)平臺(tái)或 VDI 設(shè)置等共享 GPU 環(huán)境中,惡意租戶可能會(huì)對(duì)相鄰的工作負(fù)載發(fā)起 GPUHammer 攻擊,從而影響推理準(zhǔn)確性或破壞緩存的模型參數(shù)。
可以說,GPUHammer 對(duì) AI 時(shí)代的基礎(chǔ)設(shè)施有著毀滅性的打擊。
那么,有沒有什么辦法可以阻止這東西呢?
為了回應(yīng) GPUHammer 的攻擊,英偉達(dá)發(fā)布了一份安全通知。
英偉達(dá)提醒用戶可以開啟一項(xiàng)名為系統(tǒng)級(jí)糾錯(cuò)碼(ECC)的保護(hù)措施。
ECC(糾錯(cuò)碼)的原理是:在每段內(nèi)存數(shù)據(jù)旁邊,額外加幾位“校驗(yàn)碼”。一旦有比特翻轉(zhuǎn),比如 0 變成了 1,ECC 就能自動(dòng)識(shí)別并糾正。
不過它只能修復(fù)單個(gè)比特錯(cuò)誤,遇上雙比特翻轉(zhuǎn),只能發(fā)出警告,沒法補(bǔ)救。
此外,ECC 還是一把“雙刃劍”,在緩解 GPUHammer 的同時(shí),還會(huì)導(dǎo)致 GPU 性能的衰退。
研究團(tuán)隊(duì)表示,系統(tǒng)一般默認(rèn)禁用 ECC,因?yàn)樗鎯?chǔ)在帶外的單獨(dú)內(nèi)存區(qū)域中,啟用它會(huì)導(dǎo)致 6.5% 的內(nèi)存開銷和減速。而在 A6000GPU 上啟用 ECC 會(huì)導(dǎo)致 12% 內(nèi)存帶寬損失,機(jī)器學(xué)習(xí)應(yīng)用速度會(huì)降低 3%-10%。
別怕,你的游戲不會(huì)崩
不少網(wǎng)友在評(píng)論區(qū),發(fā)出了疑問:GPUHammar 不會(huì)影響我打游戲吧?
放心,研究團(tuán)隊(duì)表明,雖然目前尚未發(fā)現(xiàn)影響 GPU 比特翻轉(zhuǎn)的根本原因,但不同的 GPU 配置、設(shè)計(jì)在受 Rowhammer 攻擊時(shí)有著明顯區(qū)別。
例如,RTX3080、A100 等芯片就采用了與 A6000 GDDR 完全不同的 DRAM 架構(gòu),這些架構(gòu)的存在使芯片避開了 Rowhammer 的影響。
而且,在未來的 GPU 的開發(fā)中,如果 GPU 集成了片上 ECC(on-die ECC),就可以糾正單位翻轉(zhuǎn),并默認(rèn)檢測雙位翻轉(zhuǎn)。這就進(jìn)一步使 Rowhammer 對(duì) GPU 的攻擊更加困難。
此外,在云端環(huán)境中,NVIDIA 的 MIG 和機(jī)密計(jì)算(CC)技術(shù)通過內(nèi)存隔離,能有效阻止多租戶共享同一 DRAM 存儲(chǔ),從而防止 Rowhammer 類攻擊生效。
不過,AI 越強(qiáng)大,盤外招也越隱蔽,GPUHammer 只是開始,未來模型的安全建設(shè)才剛剛開始。