引言
大型語(yǔ)言模型(Large Language Models,LLMs)近年來(lái)因其卓越的語(yǔ)言理解和生成能力而受到了廣泛的關(guān)注。然而,這些模型也可能生成有害、侵犯隱私或者不安全的內(nèi)容[1-2],對(duì)用戶和社會(huì)造成潛在的風(fēng)險(xiǎn)。而特定領(lǐng)域的大語(yǔ)言模型面向特定行業(yè)和特定需求,通常具有高度的專業(yè)性和敏感性,對(duì)安全要求更高。因此,對(duì)于非通用領(lǐng)域大模型來(lái)說(shuō),輸出內(nèi)容的安全性和合規(guī)性是主要的挑戰(zhàn)之一。與現(xiàn)有方法不同,本研究提出的方法具有跨領(lǐng)域適用性,可以獨(dú)立于LLMs的底層設(shè)計(jì)進(jìn)行應(yīng)用,并且通過(guò)干預(yù)模型輸出來(lái)確保生成文本的安全性和合規(guī)性,從而為領(lǐng)域LLMs的安全控制提供了一種新穎且實(shí)用的解決方案。
為了有效控制大語(yǔ)言模型生成的內(nèi)容,必須確保敏感信息的精準(zhǔn)識(shí)別和安全過(guò)濾,同時(shí)滿足特定場(chǎng)景的業(yè)務(wù)需求。為此,學(xué)者們提出了多種方法來(lái)增強(qiáng)模型的可靠性和內(nèi)容質(zhì)量,以應(yīng)對(duì)這些問(wèn)題。目前,主流的增強(qiáng)模型安全性和可靠性的方法是基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Human Feedback,RLHF)[3]。通過(guò)人類反饋構(gòu)建獎(jiǎng)勵(lì)模型,并利用該模型對(duì)LLMs進(jìn)行訓(xùn)練,使其能夠生成符合人類期望的內(nèi)容。RLHF架構(gòu)的多個(gè)變體也相繼提出,如SafeRLHF[4]、SENSEI[5]和fDPG[6],這些方法在不同方面進(jìn)行了優(yōu)化,如采用預(yù)訓(xùn)練的LLMs作為獎(jiǎng)勵(lì)模型,或者在信息檢索領(lǐng)域中提升模型的表現(xiàn)[7]。然而,收集人類標(biāo)注數(shù)據(jù)需要大量時(shí)間和成本。為了解決這一問(wèn)題,一些研究提出了通過(guò)人工智能反饋代替人類反饋的強(qiáng)化學(xué)習(xí)[8],從而降低對(duì)人類標(biāo)注的依賴。還有研究致力于自動(dòng)構(gòu)建訓(xùn)練數(shù)據(jù),以進(jìn)一步降低成本和復(fù)雜性。為提高計(jì)算效率,差分偏好優(yōu)化[9]是一種重要的嘗試,該方法的核心思想是允許在不訪問(wèn)獎(jiǎng)勵(lì)模型的情況下使用相同的訓(xùn)練數(shù)據(jù)對(duì)LLMs進(jìn)行訓(xùn)練。另一種常見(jiàn)的提高模型可靠性的方法是監(jiān)督微調(diào)(Supervised FineTuning,SFT)[10],該方法通過(guò)大規(guī)模標(biāo)注數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào),以提升模型對(duì)用戶需求的響應(yīng)能力。RLHF和SFT的共同點(diǎn)在于它們通過(guò)直接修改模型參數(shù)來(lái)提高模型的可靠性。
除了修改模型參數(shù)外,增強(qiáng)LLMs可靠性的另一種替代方法是直接干預(yù)輸入提示或輸出生成的過(guò)程。上下文學(xué)習(xí)(InContext Learning,ICL)[11]是通過(guò)干預(yù)輸入提示的一種主要方法。在ICL中,通過(guò)提供少量示例,可以引導(dǎo)LLMs完成特定任務(wù),例如少樣本學(xué)習(xí)[12],從而減少生成不合規(guī)內(nèi)容的風(fēng)險(xiǎn)。此外,一些研究集中于干預(yù)輸出生成的方式。文獻(xiàn)[13]提出了用于檢索應(yīng)用的輸出格式化方法,避免LLMs在輸出中重復(fù)相同詞匯或短語(yǔ)。此外,Transformers模塊還提供了一些用于修正輸出的函數(shù),如NoBadWordsLogitsProcessor和MinLengthLogitsProcessor。
現(xiàn)有的LLMs安全性控制方法主要依賴于預(yù)訓(xùn)練模型本身的優(yōu)化或后處理技術(shù)。然而,這些方法通常存在局限性,例如依賴底層模型的設(shè)計(jì)或難以適用于不同領(lǐng)域的文本生成需求。為了解決上述方法靈活性不足的問(wèn)題,有學(xué)者對(duì)LLM的輸出過(guò)濾技術(shù)進(jìn)行了一些研究,即在LLM生成文本后實(shí)施內(nèi)容審查,無(wú)需修改模型參數(shù)[14]。針對(duì)輸出內(nèi)容的過(guò)濾技術(shù),當(dāng)前主要是通過(guò)預(yù)定義敏感詞庫(kù)或正則表達(dá)式匹配攔截的基于規(guī)則的過(guò)濾,這種方法實(shí)現(xiàn)簡(jiǎn)單但泛化能力有限,難以識(shí)別語(yǔ)義變體以及進(jìn)行細(xì)粒度權(quán)限控制[15]。
為了有效控制非通用領(lǐng)域大語(yǔ)言模型生成的內(nèi)容,本文提出了一種基于數(shù)學(xué)建模、特征工程和分類算法的安全過(guò)濾控制方法,通過(guò)應(yīng)用一個(gè)安全過(guò)濾器來(lái)干預(yù)LLMs的輸出(即干預(yù)大語(yǔ)言模型生成序列的軌跡),進(jìn)而確保生成內(nèi)容符合安全和合規(guī)標(biāo)準(zhǔn),以生成用戶期望的結(jié)果。該方法不僅獨(dú)立于LLMs的設(shè)計(jì),還能夠靈活地應(yīng)用于不同領(lǐng)域的文本生成場(chǎng)景,具有廣泛的適用性和較強(qiáng)的實(shí)用價(jià)值。
本文主要貢獻(xiàn)如下:
本文提出了一種面向特定領(lǐng)域大語(yǔ)言模型的內(nèi)容安全控制機(jī)制,設(shè)計(jì)了一個(gè)添加于LLMs輸出層的外部過(guò)濾器,從而實(shí)現(xiàn)無(wú)需訪問(wèn)其模型參數(shù)即可控制輸出內(nèi)容。這是一個(gè)新穎的“無(wú)需學(xué)習(xí)”的LLMs安全控制策略,它不依賴LLMs的底層設(shè)計(jì),可以應(yīng)用于多種特定領(lǐng)域的LLMs,具有良好的通用性和適應(yīng)性。
此外,本文針對(duì)特定領(lǐng)域的行業(yè)特點(diǎn)和安全隱私特性,抽取了一些特征因素,并結(jié)合分類算法和特征工程,在大語(yǔ)言模型內(nèi)容安全控制領(lǐng)域做出了一些新的嘗試。與現(xiàn)有基于規(guī)則或詞典的安全過(guò)濾方法不同,特征工程技術(shù)結(jié)合分類算法能夠更精確地識(shí)別和過(guò)濾潛在的風(fēng)險(xiǎn)文本,極大提升了檢測(cè)精度和適用范圍。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://ihrv.cn/resource/share/2000006854
作者信息:
張欣欣1,李濤1,趙龍彪1,賈真真2,周衡廣3
(1.中國(guó)人民解放軍92981部隊(duì),北京100161;
2.中國(guó)人民解放軍91977部隊(duì),北京100036;
3.中國(guó)人民解放軍91526部隊(duì),廣東湛江524064)

