123,123

藏文网络敏感信息检测研究

网络安全与数据治理

吴瑜，严李强，徐梓恒，卓玛央金

西藏大学信息科学技术学院

摘要： 随着互联网的普及，藏文网络空间也面临着日益增多的敏感信息传播风险，给社会稳定和国家安全带来挑战。传统的敏感信息检测方法难以有效应对藏文语言的特殊性和网络信息的复杂性。为了解决这一问题，提出了一种基于CINO-DPCNN的混合神经网络模型。该模型结合了CINO模型对藏文语义的深层次理解和DPCNN模型对文本特征的高效提取能力，能够更准确地识别藏文网络敏感信息。实验结果表明，CINO-DPCNN模型在准确率、F1值等指标方面取得了良好的结果，相较于现有模型有显著提高。这为构建安全、健康的藏文网络环境提供了新的技术支撑，也为其他少数民族语言的敏感信息检测提供了借鉴。

關(guān)鍵詞： 藏文敏感信息 CINO模型深度学习

中圖分類號：TP181文獻(xiàn)標(biāo)識碼：ADOI:10.19358/j.issn.2097-1788.2025.04.012
引用格式：吳瑜，嚴(yán)李強(qiáng)，徐梓恒，等. 藏文網(wǎng)絡(luò)敏感信息檢測研究［J］.網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2025，44（4）：79-83.

Research on sensitive information detection in Tibetan network

Wu Yu，Yan Liqiang，Xu Ziheng，Zhuoma Yangjin

School of Information Science and Technology, Tibet University,Lasa

Abstract： With the increasing popularity of the Internet, the Tibetan-language online space is facing growing risks of sensitive information dissemination, posing challenges to social stability and national security. Traditional methods for detecting sensitive information are unable to effectively address the unique characteristics of the Tibetan language and the complexity of online information. To address this issue, this paper proposes a hybrid neural network model based on CINO-DPCNN. This model combines the deep understanding of Tibetan semantics provided by the CINO model with the high-efficiency feature extraction capabilities of the DPCNN model, enabling more accurate identification of sensitive information in Tibetan-language online networks. The experimental results demonstrate that the CINO-DPCNN model has achieved excellent performance in terms of accuracy, F1 score, and other indicators, showing significant improvements over existing models. This provides new technical support for building a secure and healthy Tibetan-language online environment and serves as a reference for sensitive information detection in other minority languages.

Key words : Tibetan；sensitive information；CINO model；deep learning

引言

隨著網(wǎng)絡(luò)基礎(chǔ)設(shè)施和信息通信技術(shù)的提升，互聯(lián)網(wǎng)的規(guī)模迅速擴(kuò)大。根據(jù)2024年發(fā)布的第53次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》，我國網(wǎng)民人數(shù)已達(dá)10.92億，互聯(lián)網(wǎng)普及率達(dá)到77.5%［1］。互聯(lián)網(wǎng)的發(fā)展帶來了信息傳播的便利，也帶來了信息安全和內(nèi)容監(jiān)管方面的挑戰(zhàn)。在西藏等少數(shù)民族地區(qū)，這一挑戰(zhàn)尤為顯著。西藏地處中國的邊疆地區(qū)，擁有悠久的歷史和豐富的文化遺產(chǎn)，同時(shí)也面臨著綜合治理的重大挑戰(zhàn)。網(wǎng)絡(luò)上發(fā)布的敏感信息，其中包含惡意攻擊和歧視性語言等，嚴(yán)重侵犯了個人權(quán)利和尊嚴(yán)，導(dǎo)致個體心理、價(jià)值觀和行為規(guī)范的扭曲。此外，虛假新聞或謠言的泛濫可能會破壞社會信任，嚴(yán)重違反社會公德和法律法規(guī)，很容易引起社會大眾的不滿與抵制，還會給社會秩序、國家穩(wěn)定與團(tuán)結(jié)帶來不利影響［2］。

針對網(wǎng)絡(luò)敏感信息的自動檢測和過濾問題，相關(guān)研究者采用了各種方法來提高檢測的效率和準(zhǔn)確性。袁斐洋等［3］根據(jù)藏文敏感詞權(quán)重值對網(wǎng)頁進(jìn)行等級劃分，對含有敏感信息的網(wǎng)頁進(jìn)行攔截，避免不法言論和信息的傳播，以優(yōu)化藏區(qū)網(wǎng)絡(luò)環(huán)境。南奎娘若等［4］采用基于不同特征加權(quán)及權(quán)重度量的方法抽取基于敏感的藏文自動摘要。江濤等［5］提出了基于藏文網(wǎng)頁的輿情監(jiān)控系統(tǒng)，系統(tǒng)監(jiān)控藏文網(wǎng)頁的“敏感點(diǎn)”并對“熱點(diǎn)”實(shí)現(xiàn)預(yù)警。湯烈等［6］提出了一個基于K最近鄰算法的網(wǎng)絡(luò)不良信息過濾模型。在樣本預(yù)處理時(shí)對訓(xùn)練樣本進(jìn)行了篩選，使系統(tǒng)的查準(zhǔn)率、查全率和處理速度都有一定的提高，更適應(yīng)實(shí)時(shí)在線系統(tǒng)的不良信息過濾。普措才仁［7］根據(jù)不良信息的特點(diǎn)對潛在語義分析進(jìn)行了簡化，并設(shè)計(jì)了基于簡化的潛在語義分析的藏文Web不良信息檢索算法。該檢索算法能夠?qū)哂嘘P(guān)于某個主題的特定傾向的文本進(jìn)行過濾，對于那些冗長文本中因?yàn)殛P(guān)鍵字分散而造成的假匹配，通過語義分析可以很好地甄別處理，從而提高系統(tǒng)的召回率。陸向艷［8］提出一種基于支持向量機(jī)（Support Vector Machine,SVM）的不良信息識別方法，包括文本標(biāo)記、文本分詞、Doc2Vec文本向量化、SVM不良信息分類器訓(xùn)練、SVM不良信息測試5個步驟。實(shí)驗(yàn)結(jié)果表明該方法能有效識別網(wǎng)絡(luò)不良信息，為網(wǎng)絡(luò)不良信息的甄別提供了一種方法參考。

傳統(tǒng)的藏文敏感信息檢測方法在處理大規(guī)模、多樣化的藏文文本時(shí)效率低下，已無法滿足快速增長的在線內(nèi)容需求。因此，將深度學(xué)習(xí)技術(shù)應(yīng)用于藏文敏感信息檢測以提高檢測的準(zhǔn)確性，已成為亟待研究的重要課題。本文采用一種基于混合神經(jīng)網(wǎng)絡(luò)模型——CINODPCNN，用于藏文網(wǎng)絡(luò)敏感信息的檢測。首先利用面向中國少數(shù)民族語言的多語言預(yù)訓(xùn)練模型（Chinese Minority Pretrained Language Model,CINO）對敏感信息文本進(jìn)行動態(tài)的詞向量構(gòu)建，捕獲藏文文本的語義信息，之后深度卷積神經(jīng)網(wǎng)絡(luò)層（Deep Pyramid Convolutional Neural Networks,DPCNN）通過卷積和池化操作對詞向量進(jìn)行局部特征提取，以獲得文本的重要模式和特征，最后加入全連接層和分類器實(shí)現(xiàn)對敏感信息的識別與分類。

本文詳細(xì)內(nèi)容請下載：

http://ihrv.cn/resource/share/2000006417

作者信息：

吳瑜，嚴(yán)李強(qiáng)，徐梓恒，卓瑪央金

(西藏大學(xué)信息科學(xué)技術(shù)學(xué)院，西藏拉薩850000)

Magazine.Subscription.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容