基于梯度優(yōu)化的大語言模型后門識別探究
所屬分類:技術論文
上傳者:wwei
文檔大?。?span>1222 K
標簽: 大語言模型 后門攻擊 基于梯度的后門識別
所需積分:0分積分不夠怎么辦?
文檔介紹:隨著大語言模型的流行并且應用在越來越多的領域,大語言模型的安全問題也隨之而來。 通常訓練大語言模型對數(shù)據(jù)集以及計算資源有著極為苛刻的要求,所以有使用需求的用戶大部分都直接利用網絡上開源的數(shù)據(jù)集以及模型,這給后門攻擊提供了絕佳的溫室。后門攻擊是指用戶在模型中輸入正常數(shù)據(jù)時模型表現(xiàn)像沒有注入后門時一樣正常,但當輸入帶有后門觸發(fā)器的數(shù)據(jù)時模型輸出異常。防止后門攻擊的有效方法就是進行后門識別。目前基于梯度的優(yōu)化方法是比較常用的,但使用這些方法時內部影響因子的設定對識別效果具有一定影響。文章就詞令牌數(shù)量、最鄰近數(shù)量、噪聲大小進行了實驗測量和作用機制的分析,以便為后續(xù)使用這些方法的研究者提供參考。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。