《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 設(shè)計(jì)應(yīng)用 > 藏文網(wǎng)絡(luò)敏感信息檢測(cè)研究
藏文網(wǎng)絡(luò)敏感信息檢測(cè)研究
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
吳瑜,嚴(yán)李強(qiáng),徐梓恒,卓瑪央金
西藏大學(xué)信息科學(xué)技術(shù)學(xué)院
摘要: 隨著互聯(lián)網(wǎng)的普及,藏文網(wǎng)絡(luò)空間也面臨著日益增多的敏感信息傳播風(fēng)險(xiǎn),給社會(huì)穩(wěn)定和國(guó)家安全帶來(lái)挑戰(zhàn)。傳統(tǒng)的敏感信息檢測(cè)方法難以有效應(yīng)對(duì)藏文語(yǔ)言的特殊性和網(wǎng)絡(luò)信息的復(fù)雜性。為了解決這一問(wèn)題,提出了一種基于CINO-DPCNN的混合神經(jīng)網(wǎng)絡(luò)模型。該模型結(jié)合了CINO模型對(duì)藏文語(yǔ)義的深層次理解和DPCNN模型對(duì)文本特征的高效提取能力,能夠更準(zhǔn)確地識(shí)別藏文網(wǎng)絡(luò)敏感信息。實(shí)驗(yàn)結(jié)果表明,CINO-DPCNN模型在準(zhǔn)確率、F1值等指標(biāo)方面取得了良好的結(jié)果,相較于現(xiàn)有模型有顯著提高。這為構(gòu)建安全、健康的藏文網(wǎng)絡(luò)環(huán)境提供了新的技術(shù)支撐,也為其他少數(shù)民族語(yǔ)言的敏感信息檢測(cè)提供了借鑒。
中圖分類號(hào):TP181文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2025.04.012
引用格式:吳瑜,嚴(yán)李強(qiáng),徐梓恒,等. 藏文網(wǎng)絡(luò)敏感信息檢測(cè)研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(4):79-83.
Research on sensitive information detection in Tibetan network
Wu Yu,Yan Liqiang,Xu Ziheng,Zhuoma Yangjin
School of Information Science and Technology, Tibet University,Lasa
Abstract: With the increasing popularity of the Internet, the Tibetan-language online space is facing growing risks of sensitive information dissemination, posing challenges to social stability and national security. Traditional methods for detecting sensitive information are unable to effectively address the unique characteristics of the Tibetan language and the complexity of online information. To address this issue, this paper proposes a hybrid neural network model based on CINO-DPCNN. This model combines the deep understanding of Tibetan semantics provided by the CINO model with the high-efficiency feature extraction capabilities of the DPCNN model, enabling more accurate identification of sensitive information in Tibetan-language online networks. The experimental results demonstrate that the CINO-DPCNN model has achieved excellent performance in terms of accuracy, F1 score, and other indicators, showing significant improvements over existing models. This provides new technical support for building a secure and healthy Tibetan-language online environment and serves as a reference for sensitive information detection in other minority languages.
Key words : Tibetan;sensitive information;CINO model;deep learning

引言

隨著網(wǎng)絡(luò)基礎(chǔ)設(shè)施和信息通信技術(shù)的提升,互聯(lián)網(wǎng)的規(guī)模迅速擴(kuò)大。根據(jù)2024年發(fā)布的第53次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,我國(guó)網(wǎng)民人數(shù)已達(dá)10.92億,互聯(lián)網(wǎng)普及率達(dá)到77.5%[1]?;ヂ?lián)網(wǎng)的發(fā)展帶來(lái)了信息傳播的便利,也帶來(lái)了信息安全和內(nèi)容監(jiān)管方面的挑戰(zhàn)。在西藏等少數(shù)民族地區(qū),這一挑戰(zhàn)尤為顯著。西藏地處中國(guó)的邊疆地區(qū),擁有悠久的歷史和豐富的文化遺產(chǎn),同時(shí)也面臨著綜合治理的重大挑戰(zhàn)。網(wǎng)絡(luò)上發(fā)布的敏感信息,其中包含惡意攻擊和歧視性語(yǔ)言等,嚴(yán)重侵犯了個(gè)人權(quán)利和尊嚴(yán),導(dǎo)致個(gè)體心理、價(jià)值觀和行為規(guī)范的扭曲。此外,虛假新聞或謠言的泛濫可能會(huì)破壞社會(huì)信任,嚴(yán)重違反社會(huì)公德和法律法規(guī),很容易引起社會(huì)大眾的不滿與抵制,還會(huì)給社會(huì)秩序、國(guó)家穩(wěn)定與團(tuán)結(jié)帶來(lái)不利影響[2]。

針對(duì)網(wǎng)絡(luò)敏感信息的自動(dòng)檢測(cè)和過(guò)濾問(wèn)題,相關(guān)研究者采用了各種方法來(lái)提高檢測(cè)的效率和準(zhǔn)確性。袁斐洋等[3]根據(jù)藏文敏感詞權(quán)重值對(duì)網(wǎng)頁(yè)進(jìn)行等級(jí)劃分,對(duì)含有敏感信息的網(wǎng)頁(yè)進(jìn)行攔截,避免不法言論和信息的傳播,以優(yōu)化藏區(qū)網(wǎng)絡(luò)環(huán)境。南奎娘若等[4]采用基于不同特征加權(quán)及權(quán)重度量的方法抽取基于敏感的藏文自動(dòng)摘要。江濤等[5]提出了基于藏文網(wǎng)頁(yè)的輿情監(jiān)控系統(tǒng),系統(tǒng)監(jiān)控藏文網(wǎng)頁(yè)的“敏感點(diǎn)”并對(duì)“熱點(diǎn)”實(shí)現(xiàn)預(yù)警。湯烈等[6]提出了一個(gè)基于K最近鄰算法的網(wǎng)絡(luò)不良信息過(guò)濾模型。在樣本預(yù)處理時(shí)對(duì)訓(xùn)練樣本進(jìn)行了篩選,使系統(tǒng)的查準(zhǔn)率、查全率和處理速度都有一定的提高,更適應(yīng)實(shí)時(shí)在線系統(tǒng)的不良信息過(guò)濾。普措才仁[7]根據(jù)不良信息的特點(diǎn)對(duì)潛在語(yǔ)義分析進(jìn)行了簡(jiǎn)化,并設(shè)計(jì)了基于簡(jiǎn)化的潛在語(yǔ)義分析的藏文Web不良信息檢索算法。該檢索算法能夠?qū)哂嘘P(guān)于某個(gè)主題的特定傾向的文本進(jìn)行過(guò)濾,對(duì)于那些冗長(zhǎng)文本中因?yàn)殛P(guān)鍵字分散而造成的假匹配,通過(guò)語(yǔ)義分析可以很好地甄別處理,從而提高系統(tǒng)的召回率。陸向艷[8]提出一種基于支持向量機(jī)(Support Vector Machine,SVM)的不良信息識(shí)別方法,包括文本標(biāo)記、文本分詞、Doc2Vec文本向量化、SVM不良信息分類器訓(xùn)練、SVM不良信息測(cè)試5個(gè)步驟。實(shí)驗(yàn)結(jié)果表明該方法能有效識(shí)別網(wǎng)絡(luò)不良信息,為網(wǎng)絡(luò)不良信息的甄別提供了一種方法參考。

傳統(tǒng)的藏文敏感信息檢測(cè)方法在處理大規(guī)模、多樣化的藏文文本時(shí)效率低下,已無(wú)法滿足快速增長(zhǎng)的在線內(nèi)容需求。因此,將深度學(xué)習(xí)技術(shù)應(yīng)用于藏文敏感信息檢測(cè)以提高檢測(cè)的準(zhǔn)確性,已成為亟待研究的重要課題。本文采用一種基于混合神經(jīng)網(wǎng)絡(luò)模型——CINODPCNN,用于藏文網(wǎng)絡(luò)敏感信息的檢測(cè)。首先利用面向中國(guó)少數(shù)民族語(yǔ)言的多語(yǔ)言預(yù)訓(xùn)練模型(Chinese Minority Pretrained Language Model,CINO)對(duì)敏感信息文本進(jìn)行動(dòng)態(tài)的詞向量構(gòu)建,捕獲藏文文本的語(yǔ)義信息,之后深度卷積神經(jīng)網(wǎng)絡(luò)層(Deep Pyramid Convolutional Neural Networks,DPCNN)通過(guò)卷積和池化操作對(duì)詞向量進(jìn)行局部特征提取,以獲得文本的重要模式和特征,最后加入全連接層和分類器實(shí)現(xiàn)對(duì)敏感信息的識(shí)別與分類。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://ihrv.cn/resource/share/2000006417


作者信息:

吳瑜,嚴(yán)李強(qiáng),徐梓恒,卓瑪央金

 (西藏大學(xué)信息科學(xué)技術(shù)學(xué)院,西藏拉薩850000)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。