123,123,123

基于TextCNN-Bert融合模型的不良信息识别技术

网络安全与数据治理 6期

裴卓雄，杨敏，杨婧

（1.国家计算机网络应急技术处理协调中心，北京100032； 2.国家计算机网络应急技术处理协调中心山西分中心，山西太原044400）

摘要： 敏感领域的不良信息具有极强的迷惑性和欺骗性，腐蚀人们的思想，影响人们的价值观和判断能力，危害社会安全，研究敏感领域不良信息的识别技术具有深远意义。通用的识别技术忽略了背景知识和隐喻问题，直接应用于敏感领域不良信息识别效果较差。提出一种基于TextCNNBert的融合模型，通过敏感领域主题识别和情感隐喻识别，实现对敏感领域不良信息的文本识别。实验结果表明，该模型在准确率、F1评分等指标方面取得了良好的结果，相较于现有模型有显著提高。

關(guān)鍵詞： 敏感领域 TextCNN BERT 融合模型

中圖分類號(hào)：TP399
文獻(xiàn)標(biāo)識(shí)碼：A
DOI:10.19358/j.issn.2097-1788.2023.08.012
引用格式：裴卓雄，楊敏，楊婧.基于TextCNN-Bert融合模型的不良信息識(shí)別技術(shù)［J］.網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2023，42（8）：72-76.

Bad information identification technology based on TextCNNBert fusion model

Pei Zhuoxiong1，Yang Min2，Yang Jing 2

(1.National Computer Network Emergency Response Technical Team/Coordination Center of China (CNCERT/CC), Beijing 100032,China； 2.National Computer Network Emergency Response Technical Team/Coordination Center of China(Shanxi),Taiyuan 044400,China)

Abstract： The bad information in sensitive areas is extremely confusing and deceptive, corrodes people′s thinking, affects people′s values and judgment, and endangers social security. Research on the identification technology of bad information in sensitive areas has farreaching significance. The general recognition technology ignores background knowledge and metaphor problems, and the effect of direct application to sensitive areas is poor in the recognition of bad information. This paper proposes a fusion model based on TextCNNBert, which realizes the text recognition of bad information in sensitive areas through topic recognition and emotional metaphor recognition. The experimental results show that the proposed model achieves good results in terms of accuracy, F1 score and other indicators, which are significantly improved compared with the existing models.

Key words : sensitive areas;TextCNN; Bert; fusion mode

0 引言

隨著互聯(lián)網(wǎng)行業(yè)蓬勃發(fā)展，網(wǎng)絡(luò)上不良信息的泛濫引發(fā)了諸多社會(huì)問題，特別是歷史、時(shí)政新聞等敏感領(lǐng)域的不良信息，通過編排、篡改、杜撰、偽造的方式，具有極強(qiáng)的迷惑性和欺騙性，腐蝕人們的思想，影響人們的價(jià)值觀和判斷能力，危害社會(huì)安全［1］。文本作為主要傳播方式，研究敏感領(lǐng)域不良信息的識(shí)別技術(shù)具有深遠(yuǎn)意義。

自然語言處理技術(shù)（ Natural Language Processing, NLP）能夠?qū)ξ谋具M(jìn)行深入分析和理解，從而實(shí)現(xiàn)文本的分類和識(shí)別。Kim［2］提出一種用于文本分類的卷積神經(jīng)網(wǎng)絡(luò)模型TextCNN，可以在一定程度上避免梯度消失的問題，而且在處理短文本和固定長(zhǎng)度文本時(shí)表現(xiàn)良好。Lai［3］提出了文本分類模型RCNN，同時(shí)結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)。Wang［4］比較不同循環(huán)神經(jīng)網(wǎng)絡(luò)模型在文本分類任務(wù)中的性能，表明了LSTM模型在文本分類的優(yōu)勢(shì)。Devlin［5］提出了BERT模型，該模型是一種基于Transformer網(wǎng)絡(luò)的預(yù)訓(xùn)練模型，可用于自然語言處理任務(wù)，如文本分類、語言推斷等。Chen［6］提出了一種基于雙向情感表情符號(hào)嵌入和基于注意力的LSTM的Twitter情感分析方法，該方法使用雙向LSTM來學(xué)習(xí)句子中的上下文信息，使用注意力機(jī)制來加強(qiáng)對(duì)重要信息的關(guān)注，使用情感表情符號(hào)來增強(qiáng)情感分類的精度。李志杰［7］提出一種基于 LSTM 和 TextCNN 的聯(lián)合模型，捕捉文本中的上下文關(guān)系和局部特征，提高短文本分類的準(zhǔn)確性。Sanagavarapu［8］提出BiLSTM和人工神經(jīng)網(wǎng)絡(luò)ANN組成的混合模型，通過上下位詞的概念獲取新聞的語義并映射到ANN模型上，提升對(duì)新聞文章分類的準(zhǔn)確性。Rehman［9］提出了一種基于CNNLSTM的混合模型，用于提高電影評(píng)論情感分析的準(zhǔn)確性。該模型利用CNN提取局部特征，LSTM則用于學(xué)習(xí)序列信息，從而結(jié)合了兩種模型的優(yōu)點(diǎn)。

敏感領(lǐng)域?qū)儆趯I(yè)領(lǐng)域，不良信息的識(shí)別技術(shù)研究十分有限，通用的識(shí)別技術(shù)可以直接應(yīng)用于識(shí)別，但存在以下問題：一是領(lǐng)域特定語言和術(shù)語問題。敏感領(lǐng)域具有豐富的領(lǐng)域特定語言和術(shù)語，這些語言和術(shù)語可能對(duì)于通用模型不易理解，從而導(dǎo)致文本識(shí)別準(zhǔn)確率下降。二是背景知識(shí)問題。敏感領(lǐng)域涉及敏感事件、人物和背景等方面的知識(shí)，這些知識(shí)對(duì)于模型來說可能是未知的，需要進(jìn)行特殊的處理才能進(jìn)行識(shí)別和理解。三是文本復(fù)雜性的問題。敏感領(lǐng)域文本非常復(fù)雜，包含大量的隱喻、比喻和引申意義，這些都需要模型具備識(shí)別和理解的能力。

因此，本文將敏感領(lǐng)域不良信息的識(shí)別問題轉(zhuǎn)化為敏感領(lǐng)域主題識(shí)別任務(wù)和情感隱喻識(shí)別任務(wù)，提出一種基于TextCNNBert融合模型，既利用TextCNN對(duì)關(guān)鍵詞和局部特征更加敏感的優(yōu)勢(shì)，準(zhǔn)確識(shí)別敏感領(lǐng)域的特定語言和術(shù)語；又能利用Bert的預(yù)訓(xùn)練能力和自注意力機(jī)制，提升對(duì)隱喻、比喻和引申意的識(shí)別。實(shí)驗(yàn)結(jié)果表明，本模型在準(zhǔn)確率、召回率、精確率等方面識(shí)別效果良好。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://ihrv.cn/resource/share/2000005470

作者信息：

裴卓雄1，楊敏2，楊婧2

（1.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心，北京100032；2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心山西分中心，山西太原044400）

微信圖片_20210517164139.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容