123,123

英国AI安全研究所轻松越狱主要大语言模型

可令其输出有害内容

日期： 2024-05-21

來源：IT之家

關(guān)鍵詞： AI安全大语言模型

5 月 20 日消息，英國政府下屬的人工智能安全研究所（AISI）今日發(fā)布了一份新報(bào)告，揭示了一個(gè)值得重視的事實(shí) —— 當(dāng)前的 AI 系統(tǒng)可能并非像創(chuàng)建者所說的那樣“安全”。

報(bào)告指出，參與測試的四個(gè)大語言模型（注：報(bào)告未提到這些模型的具體名稱）“極易受到基本越獄攻擊”的影響，更有一些模型在被越獄之前，就主動(dòng)生成了“有害”內(nèi)容。

當(dāng)前，大部分公開可用的語言模型都內(nèi)置了部分保護(hù)措施，從而防止其生成有害或非法的內(nèi)容回應(yīng)。而“越獄”就意味著通過技術(shù)手段“欺騙”模型，來忽略上述措施。

英國 AI 安全研究所使用了近期經(jīng)過標(biāo)準(zhǔn)化評(píng)估的提示詞、內(nèi)部自行開發(fā)的提示詞進(jìn)行測試，結(jié)果顯示：在沒有嘗試越獄的情況下，所有模型都對至少一些有害問題作出了回應(yīng)；而在嘗試了“相對簡單的攻擊”之后，所有模型都對 98% 至 100% 的有害問題作出了回應(yīng)。

報(bào)告指出，當(dāng)前市面上的大語言模型所采取的安全措施仍顯不足，后續(xù)將計(jì)劃對其他模型進(jìn)行進(jìn)一步測試。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

英国AI安全研究所轻松越狱主要大语言模型

日期： 2024-05-21

來源：IT之家

相關(guān)內(nèi)容