引用格式:吳瑜,嚴(yán)李強(qiáng),徐梓恒,等. 藏文網(wǎng)絡(luò)敏感信息檢測(cè)研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(4):79-83.
引言
隨著網(wǎng)絡(luò)基礎(chǔ)設(shè)施和信息通信技術(shù)的提升,互聯(lián)網(wǎng)的規(guī)模迅速擴(kuò)大。根據(jù)2024年發(fā)布的第53次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,我國(guó)網(wǎng)民人數(shù)已達(dá)10.92億,互聯(lián)網(wǎng)普及率達(dá)到77.5%[1]?;ヂ?lián)網(wǎng)的發(fā)展帶來(lái)了信息傳播的便利,也帶來(lái)了信息安全和內(nèi)容監(jiān)管方面的挑戰(zhàn)。在西藏等少數(shù)民族地區(qū),這一挑戰(zhàn)尤為顯著。西藏地處中國(guó)的邊疆地區(qū),擁有悠久的歷史和豐富的文化遺產(chǎn),同時(shí)也面臨著綜合治理的重大挑戰(zhàn)。網(wǎng)絡(luò)上發(fā)布的敏感信息,其中包含惡意攻擊和歧視性語(yǔ)言等,嚴(yán)重侵犯了個(gè)人權(quán)利和尊嚴(yán),導(dǎo)致個(gè)體心理、價(jià)值觀和行為規(guī)范的扭曲。此外,虛假新聞或謠言的泛濫可能會(huì)破壞社會(huì)信任,嚴(yán)重違反社會(huì)公德和法律法規(guī),很容易引起社會(huì)大眾的不滿與抵制,還會(huì)給社會(huì)秩序、國(guó)家穩(wěn)定與團(tuán)結(jié)帶來(lái)不利影響[2]。
針對(duì)網(wǎng)絡(luò)敏感信息的自動(dòng)檢測(cè)和過(guò)濾問(wèn)題,相關(guān)研究者采用了各種方法來(lái)提高檢測(cè)的效率和準(zhǔn)確性。袁斐洋等[3]根據(jù)藏文敏感詞權(quán)重值對(duì)網(wǎng)頁(yè)進(jìn)行等級(jí)劃分,對(duì)含有敏感信息的網(wǎng)頁(yè)進(jìn)行攔截,避免不法言論和信息的傳播,以優(yōu)化藏區(qū)網(wǎng)絡(luò)環(huán)境。南奎娘若等[4]采用基于不同特征加權(quán)及權(quán)重度量的方法抽取基于敏感的藏文自動(dòng)摘要。江濤等[5]提出了基于藏文網(wǎng)頁(yè)的輿情監(jiān)控系統(tǒng),系統(tǒng)監(jiān)控藏文網(wǎng)頁(yè)的“敏感點(diǎn)”并對(duì)“熱點(diǎn)”實(shí)現(xiàn)預(yù)警。湯烈等[6]提出了一個(gè)基于K最近鄰算法的網(wǎng)絡(luò)不良信息過(guò)濾模型。在樣本預(yù)處理時(shí)對(duì)訓(xùn)練樣本進(jìn)行了篩選,使系統(tǒng)的查準(zhǔn)率、查全率和處理速度都有一定的提高,更適應(yīng)實(shí)時(shí)在線系統(tǒng)的不良信息過(guò)濾。普措才仁[7]根據(jù)不良信息的特點(diǎn)對(duì)潛在語(yǔ)義分析進(jìn)行了簡(jiǎn)化,并設(shè)計(jì)了基于簡(jiǎn)化的潛在語(yǔ)義分析的藏文Web不良信息檢索算法。該檢索算法能夠?qū)哂嘘P(guān)于某個(gè)主題的特定傾向的文本進(jìn)行過(guò)濾,對(duì)于那些冗長(zhǎng)文本中因?yàn)殛P(guān)鍵字分散而造成的假匹配,通過(guò)語(yǔ)義分析可以很好地甄別處理,從而提高系統(tǒng)的召回率。陸向艷[8]提出一種基于支持向量機(jī)(Support Vector Machine,SVM)的不良信息識(shí)別方法,包括文本標(biāo)記、文本分詞、Doc2Vec文本向量化、SVM不良信息分類器訓(xùn)練、SVM不良信息測(cè)試5個(gè)步驟。實(shí)驗(yàn)結(jié)果表明該方法能有效識(shí)別網(wǎng)絡(luò)不良信息,為網(wǎng)絡(luò)不良信息的甄別提供了一種方法參考。
傳統(tǒng)的藏文敏感信息檢測(cè)方法在處理大規(guī)模、多樣化的藏文文本時(shí)效率低下,已無(wú)法滿足快速增長(zhǎng)的在線內(nèi)容需求。因此,將深度學(xué)習(xí)技術(shù)應(yīng)用于藏文敏感信息檢測(cè)以提高檢測(cè)的準(zhǔn)確性,已成為亟待研究的重要課題。本文采用一種基于混合神經(jīng)網(wǎng)絡(luò)模型——CINODPCNN,用于藏文網(wǎng)絡(luò)敏感信息的檢測(cè)。首先利用面向中國(guó)少數(shù)民族語(yǔ)言的多語(yǔ)言預(yù)訓(xùn)練模型(Chinese Minority Pretrained Language Model,CINO)對(duì)敏感信息文本進(jìn)行動(dòng)態(tài)的詞向量構(gòu)建,捕獲藏文文本的語(yǔ)義信息,之后深度卷積神經(jīng)網(wǎng)絡(luò)層(Deep Pyramid Convolutional Neural Networks,DPCNN)通過(guò)卷積和池化操作對(duì)詞向量進(jìn)行局部特征提取,以獲得文本的重要模式和特征,最后加入全連接層和分類器實(shí)現(xiàn)對(duì)敏感信息的識(shí)別與分類。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://ihrv.cn/resource/share/2000006417
作者信息:
吳瑜,嚴(yán)李強(qiáng),徐梓恒,卓瑪央金
(西藏大學(xué)信息科學(xué)技術(shù)學(xué)院,西藏拉薩850000)