文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.19358/j.issn.2097-1788.2023.08.012
引用格式:裴卓雄,楊敏,楊婧.基于TextCNN-Bert融合模型的不良信息識(shí)別技術(shù)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(8):72-76.
0 引言
隨著互聯(lián)網(wǎng)行業(yè)蓬勃發(fā)展,網(wǎng)絡(luò)上不良信息的泛濫引發(fā)了諸多社會(huì)問(wèn)題,特別是歷史、時(shí)政新聞等敏感領(lǐng)域的不良信息,通過(guò)編排、篡改、杜撰、偽造的方式,具有極強(qiáng)的迷惑性和欺騙性,腐蝕人們的思想,影響人們的價(jià)值觀和判斷能力,危害社會(huì)安全[1]。文本作為主要傳播方式,研究敏感領(lǐng)域不良信息的識(shí)別技術(shù)具有深遠(yuǎn)意義。
自然語(yǔ)言處理技術(shù)( Natural Language Processing, NLP)能夠?qū)ξ谋具M(jìn)行深入分析和理解,從而實(shí)現(xiàn)文本的分類(lèi)和識(shí)別。Kim[2]提出一種用于文本分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)模型TextCNN,可以在一定程度上避免梯度消失的問(wèn)題,而且在處理短文本和固定長(zhǎng)度文本時(shí)表現(xiàn)良好。Lai[3]提出了文本分類(lèi)模型RCNN,同時(shí)結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)。Wang[4]比較不同循環(huán)神經(jīng)網(wǎng)絡(luò)模型在文本分類(lèi)任務(wù)中的性能,表明了LSTM模型在文本分類(lèi)的優(yōu)勢(shì)。Devlin[5]提出了BERT模型,該模型是一種基于Transformer網(wǎng)絡(luò)的預(yù)訓(xùn)練模型,可用于自然語(yǔ)言處理任務(wù),如文本分類(lèi)、語(yǔ)言推斷等。Chen[6]提出了一種基于雙向情感表情符號(hào)嵌入和基于注意力的LSTM的Twitter情感分析方法,該方法使用雙向LSTM來(lái)學(xué)習(xí)句子中的上下文信息,使用注意力機(jī)制來(lái)加強(qiáng)對(duì)重要信息的關(guān)注,使用情感表情符號(hào)來(lái)增強(qiáng)情感分類(lèi)的精度。李志杰[7]提出一種基于 LSTM 和 TextCNN 的聯(lián)合模型,捕捉文本中的上下文關(guān)系和局部特征,提高短文本分類(lèi)的準(zhǔn)確性。Sanagavarapu[8]提出BiLSTM和人工神經(jīng)網(wǎng)絡(luò)ANN組成的混合模型,通過(guò)上下位詞的概念獲取新聞的語(yǔ)義并映射到ANN模型上,提升對(duì)新聞文章分類(lèi)的準(zhǔn)確性。Rehman[9]提出了一種基于CNNLSTM的混合模型,用于提高電影評(píng)論情感分析的準(zhǔn)確性。該模型利用CNN提取局部特征,LSTM則用于學(xué)習(xí)序列信息,從而結(jié)合了兩種模型的優(yōu)點(diǎn)。
敏感領(lǐng)域?qū)儆趯?zhuān)業(yè)領(lǐng)域,不良信息的識(shí)別技術(shù)研究十分有限,通用的識(shí)別技術(shù)可以直接應(yīng)用于識(shí)別,但存在以下問(wèn)題:一是領(lǐng)域特定語(yǔ)言和術(shù)語(yǔ)問(wèn)題。敏感領(lǐng)域具有豐富的領(lǐng)域特定語(yǔ)言和術(shù)語(yǔ),這些語(yǔ)言和術(shù)語(yǔ)可能對(duì)于通用模型不易理解,從而導(dǎo)致文本識(shí)別準(zhǔn)確率下降。二是背景知識(shí)問(wèn)題。敏感領(lǐng)域涉及敏感事件、人物和背景等方面的知識(shí),這些知識(shí)對(duì)于模型來(lái)說(shuō)可能是未知的,需要進(jìn)行特殊的處理才能進(jìn)行識(shí)別和理解。三是文本復(fù)雜性的問(wèn)題。敏感領(lǐng)域文本非常復(fù)雜,包含大量的隱喻、比喻和引申意義,這些都需要模型具備識(shí)別和理解的能力。
因此,本文將敏感領(lǐng)域不良信息的識(shí)別問(wèn)題轉(zhuǎn)化為敏感領(lǐng)域主題識(shí)別任務(wù)和情感隱喻識(shí)別任務(wù),提出一種基于TextCNNBert融合模型,既利用TextCNN對(duì)關(guān)鍵詞和局部特征更加敏感的優(yōu)勢(shì),準(zhǔn)確識(shí)別敏感領(lǐng)域的特定語(yǔ)言和術(shù)語(yǔ);又能利用Bert的預(yù)訓(xùn)練能力和自注意力機(jī)制,提升對(duì)隱喻、比喻和引申意的識(shí)別。實(shí)驗(yàn)結(jié)果表明,本模型在準(zhǔn)確率、召回率、精確率等方面識(shí)別效果良好。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000005470
作者信息:
裴卓雄1,楊敏2,楊婧2
(1.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京100032;2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心山西分中心,山西太原044400)