文獻(xiàn)標(biāo)識碼:A
DOI:10.19358/j.issn.2097-1788.2023.08.012
引用格式:裴卓雄,楊敏,楊婧.基于TextCNN-Bert融合模型的不良信息識別技術(shù)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(8):72-76.
0 引言
隨著互聯(lián)網(wǎng)行業(yè)蓬勃發(fā)展,網(wǎng)絡(luò)上不良信息的泛濫引發(fā)了諸多社會問題,特別是歷史、時政新聞等敏感領(lǐng)域的不良信息,通過編排、篡改、杜撰、偽造的方式,具有極強(qiáng)的迷惑性和欺騙性,腐蝕人們的思想,影響人們的價值觀和判斷能力,危害社會安全[1]。文本作為主要傳播方式,研究敏感領(lǐng)域不良信息的識別技術(shù)具有深遠(yuǎn)意義。
自然語言處理技術(shù)( Natural Language Processing, NLP)能夠?qū)ξ谋具M(jìn)行深入分析和理解,從而實(shí)現(xiàn)文本的分類和識別。Kim[2]提出一種用于文本分類的卷積神經(jīng)網(wǎng)絡(luò)模型TextCNN,可以在一定程度上避免梯度消失的問題,而且在處理短文本和固定長度文本時表現(xiàn)良好。Lai[3]提出了文本分類模型RCNN,同時結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)。Wang[4]比較不同循環(huán)神經(jīng)網(wǎng)絡(luò)模型在文本分類任務(wù)中的性能,表明了LSTM模型在文本分類的優(yōu)勢。Devlin[5]提出了BERT模型,該模型是一種基于Transformer網(wǎng)絡(luò)的預(yù)訓(xùn)練模型,可用于自然語言處理任務(wù),如文本分類、語言推斷等。Chen[6]提出了一種基于雙向情感表情符號嵌入和基于注意力的LSTM的Twitter情感分析方法,該方法使用雙向LSTM來學(xué)習(xí)句子中的上下文信息,使用注意力機(jī)制來加強(qiáng)對重要信息的關(guān)注,使用情感表情符號來增強(qiáng)情感分類的精度。李志杰[7]提出一種基于 LSTM 和 TextCNN 的聯(lián)合模型,捕捉文本中的上下文關(guān)系和局部特征,提高短文本分類的準(zhǔn)確性。Sanagavarapu[8]提出BiLSTM和人工神經(jīng)網(wǎng)絡(luò)ANN組成的混合模型,通過上下位詞的概念獲取新聞的語義并映射到ANN模型上,提升對新聞文章分類的準(zhǔn)確性。Rehman[9]提出了一種基于CNNLSTM的混合模型,用于提高電影評論情感分析的準(zhǔn)確性。該模型利用CNN提取局部特征,LSTM則用于學(xué)習(xí)序列信息,從而結(jié)合了兩種模型的優(yōu)點(diǎn)。
敏感領(lǐng)域?qū)儆趯I(yè)領(lǐng)域,不良信息的識別技術(shù)研究十分有限,通用的識別技術(shù)可以直接應(yīng)用于識別,但存在以下問題:一是領(lǐng)域特定語言和術(shù)語問題。敏感領(lǐng)域具有豐富的領(lǐng)域特定語言和術(shù)語,這些語言和術(shù)語可能對于通用模型不易理解,從而導(dǎo)致文本識別準(zhǔn)確率下降。二是背景知識問題。敏感領(lǐng)域涉及敏感事件、人物和背景等方面的知識,這些知識對于模型來說可能是未知的,需要進(jìn)行特殊的處理才能進(jìn)行識別和理解。三是文本復(fù)雜性的問題。敏感領(lǐng)域文本非常復(fù)雜,包含大量的隱喻、比喻和引申意義,這些都需要模型具備識別和理解的能力。
因此,本文將敏感領(lǐng)域不良信息的識別問題轉(zhuǎn)化為敏感領(lǐng)域主題識別任務(wù)和情感隱喻識別任務(wù),提出一種基于TextCNNBert融合模型,既利用TextCNN對關(guān)鍵詞和局部特征更加敏感的優(yōu)勢,準(zhǔn)確識別敏感領(lǐng)域的特定語言和術(shù)語;又能利用Bert的預(yù)訓(xùn)練能力和自注意力機(jī)制,提升對隱喻、比喻和引申意的識別。實(shí)驗結(jié)果表明,本模型在準(zhǔn)確率、召回率、精確率等方面識別效果良好。
本文詳細(xì)內(nèi)容請下載:http://ihrv.cn/resource/share/2000005470
作者信息:
裴卓雄1,楊敏2,楊婧2
(1.國家計算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京100032;2.國家計算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心山西分中心,山西太原044400)