123,123

领域大语言模型的内容安全控制研究

网络安全与数据治理

张欣欣1，李涛1，赵龙彪1，贾真真2，周衡广3

1.中国人民解放军92981部队；2.中国人民解放军91977部队； 3.中国人民解放军91526部队

摘要： 随着大语言模型在非通用领域中的广泛应用，其在知识管理、决策支持和安全信息交流等方面展现出巨大潜力。然而，这些领域具有高度的专业性和敏感性，在特定场景下确保输出内容的安全性与合规性是主要挑战。现有方法主要依赖模型的重新训练或微调，成本高且灵活性不足。提出了一种无需重新训练模型的精细化输出控制方法，将输出控制抽象为分类问题，利用分类算法对生成内容进行判断，决定是否输出。该机制结合数学建模与特征工程，力求在满足业务需求的同时，最大限度地减少潜在风险，提升输出的安全性与合规性。

關(guān)鍵詞： 大语言模型安全控制内容过滤分类算法

中圖分類號：TP309文獻標(biāo)識碼：ADOI:10.19358/j.issn.2097-1788.2025.11.001引用格式：張欣欣，李濤，趙龍彪，等. 領(lǐng)域大語言模型的內(nèi)容安全控制研究［J］.網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2025，44（11）：1-6.

Research on content safety control of domainspecific large language models

Zhang Xinxin1，Li Tao1，Zhao Longbiao1，Jia Zhenzhen2，Zhou Hengguang3

1. Unit 92981 of the PLA;2. Unit 91977 of the PLA； 3. Unit 91526 of the PLA

Abstract： With the increasing adoption of large language models in specialized domains, these models have demonstrated significant potential in areas such as knowledge management, decision support, and secure information exchange. However, given the high level of specialization and sensitivity in these domains, ensuring the safety and compliance of generated content in specific scenarios presents a major challenge. Current approaches predominantly rely on model retraining or finetuning, which are resourceintensive and lack flexibility. This study proposes a refined output control method that bypasses the need for model retraining. By framing output control as a classification problem, classification algorithms are employed to evaluate generated content and determine its appropriateness for release. This mechanism combines mathematical modeling and feature engineering to strike a balance between meeting business requirements and minimizing potential risks, thereby enhancing the safety and compliance of generated outputs.

Key words : large language model; safety control; content filtering; classification algorithm

引言

大型語言模型(Large Language Models，LLMs)近年來因其卓越的語言理解和生成能力而受到了廣泛的關(guān)注。然而，這些模型也可能生成有害、侵犯隱私或者不安全的內(nèi)容［1-2］，對用戶和社會造成潛在的風(fēng)險。而特定領(lǐng)域的大語言模型面向特定行業(yè)和特定需求，通常具有高度的專業(yè)性和敏感性，對安全要求更高。因此，對于非通用領(lǐng)域大模型來說，輸出內(nèi)容的安全性和合規(guī)性是主要的挑戰(zhàn)之一。與現(xiàn)有方法不同，本研究提出的方法具有跨領(lǐng)域適用性，可以獨立于LLMs的底層設(shè)計進行應(yīng)用，并且通過干預(yù)模型輸出來確保生成文本的安全性和合規(guī)性，從而為領(lǐng)域LLMs的安全控制提供了一種新穎且實用的解決方案。

為了有效控制大語言模型生成的內(nèi)容，必須確保敏感信息的精準(zhǔn)識別和安全過濾，同時滿足特定場景的業(yè)務(wù)需求。為此，學(xué)者們提出了多種方法來增強模型的可靠性和內(nèi)容質(zhì)量，以應(yīng)對這些問題。目前，主流的增強模型安全性和可靠性的方法是基于人類反饋的強化學(xué)習(xí)(Reinforcement Learning with Human Feedback，RLHF)［3］。通過人類反饋構(gòu)建獎勵模型，并利用該模型對LLMs進行訓(xùn)練，使其能夠生成符合人類期望的內(nèi)容。RLHF架構(gòu)的多個變體也相繼提出，如SafeRLHF［4］、SENSEI［5］和fDPG［6］，這些方法在不同方面進行了優(yōu)化，如采用預(yù)訓(xùn)練的LLMs作為獎勵模型，或者在信息檢索領(lǐng)域中提升模型的表現(xiàn)［7］。然而，收集人類標(biāo)注數(shù)據(jù)需要大量時間和成本。為了解決這一問題，一些研究提出了通過人工智能反饋代替人類反饋的強化學(xué)習(xí)［8］，從而降低對人類標(biāo)注的依賴。還有研究致力于自動構(gòu)建訓(xùn)練數(shù)據(jù)，以進一步降低成本和復(fù)雜性。為提高計算效率，差分偏好優(yōu)化［9］是一種重要的嘗試，該方法的核心思想是允許在不訪問獎勵模型的情況下使用相同的訓(xùn)練數(shù)據(jù)對LLMs進行訓(xùn)練。另一種常見的提高模型可靠性的方法是監(jiān)督微調(diào)(Supervised FineTuning，SFT)［10］，該方法通過大規(guī)模標(biāo)注數(shù)據(jù)集對模型進行微調(diào)，以提升模型對用戶需求的響應(yīng)能力。RLHF和SFT的共同點在于它們通過直接修改模型參數(shù)來提高模型的可靠性。

除了修改模型參數(shù)外，增強LLMs可靠性的另一種替代方法是直接干預(yù)輸入提示或輸出生成的過程。上下文學(xué)習(xí)(InContext Learning，ICL)［11］是通過干預(yù)輸入提示的一種主要方法。在ICL中，通過提供少量示例，可以引導(dǎo)LLMs完成特定任務(wù)，例如少樣本學(xué)習(xí)［12］，從而減少生成不合規(guī)內(nèi)容的風(fēng)險。此外，一些研究集中于干預(yù)輸出生成的方式。文獻［13］提出了用于檢索應(yīng)用的輸出格式化方法，避免LLMs在輸出中重復(fù)相同詞匯或短語。此外，Transformers模塊還提供了一些用于修正輸出的函數(shù)，如NoBadWordsLogitsProcessor和MinLengthLogitsProcessor。

現(xiàn)有的LLMs安全性控制方法主要依賴于預(yù)訓(xùn)練模型本身的優(yōu)化或后處理技術(shù)。然而，這些方法通常存在局限性，例如依賴底層模型的設(shè)計或難以適用于不同領(lǐng)域的文本生成需求。為了解決上述方法靈活性不足的問題，有學(xué)者對LLM的輸出過濾技術(shù)進行了一些研究，即在LLM生成文本后實施內(nèi)容審查，無需修改模型參數(shù)［14］。針對輸出內(nèi)容的過濾技術(shù)，當(dāng)前主要是通過預(yù)定義敏感詞庫或正則表達式匹配攔截的基于規(guī)則的過濾，這種方法實現(xiàn)簡單但泛化能力有限，難以識別語義變體以及進行細粒度權(quán)限控制［15］。

為了有效控制非通用領(lǐng)域大語言模型生成的內(nèi)容，本文提出了一種基于數(shù)學(xué)建模、特征工程和分類算法的安全過濾控制方法，通過應(yīng)用一個安全過濾器來干預(yù)LLMs的輸出(即干預(yù)大語言模型生成序列的軌跡)，進而確保生成內(nèi)容符合安全和合規(guī)標(biāo)準(zhǔn)，以生成用戶期望的結(jié)果。該方法不僅獨立于LLMs的設(shè)計，還能夠靈活地應(yīng)用于不同領(lǐng)域的文本生成場景，具有廣泛的適用性和較強的實用價值。

本文主要貢獻如下：

本文提出了一種面向特定領(lǐng)域大語言模型的內(nèi)容安全控制機制，設(shè)計了一個添加于LLMs輸出層的外部過濾器，從而實現(xiàn)無需訪問其模型參數(shù)即可控制輸出內(nèi)容。這是一個新穎的“無需學(xué)習(xí)”的LLMs安全控制策略，它不依賴LLMs的底層設(shè)計，可以應(yīng)用于多種特定領(lǐng)域的LLMs，具有良好的通用性和適應(yīng)性。

此外，本文針對特定領(lǐng)域的行業(yè)特點和安全隱私特性，抽取了一些特征因素，并結(jié)合分類算法和特征工程，在大語言模型內(nèi)容安全控制領(lǐng)域做出了一些新的嘗試。與現(xiàn)有基于規(guī)則或詞典的安全過濾方法不同，特征工程技術(shù)結(jié)合分類算法能夠更精確地識別和過濾潛在的風(fēng)險文本，極大提升了檢測精度和適用范圍。

本文詳細內(nèi)容請下載：

http://ihrv.cn/resource/share/2000006854

作者信息：

張欣欣1，李濤1，趙龍彪1，賈真真2，周衡廣3

(1.中國人民解放軍92981部隊，北京100161；

2.中國人民解放軍91977部隊，北京100036；

3.中國人民解放軍91526部隊，廣東湛江524064)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容