《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 基于混合粒度全局圖的多標簽文本分類方法
基于混合粒度全局圖的多標簽文本分類方法
網(wǎng)絡安全與數(shù)據(jù)治理
王哲,溫秀梅
河北建筑工程學院信息工程學院
摘要: 多標簽文本分類旨在為每個文本實例分配多個標簽。傳統(tǒng)多標簽文本分類方法通常依賴于粗粒度的特征表示,忽視了文本中多層次、多尺度的語義信息。為了解決該問題,提出一種基于混合粒度全局圖的多標簽文本分類方法,通過MHA提取細粒度的文本特征,捕捉詞與標簽之間的交互信息,同時使用BiLSTM提取粗粒度的文本特征。隨后,通過門控融合機制將兩種特征融合得到具有多層次語義的混合粒度特征。將混合粒度詞表示、文本和標簽作為節(jié)點構建全局圖,并通過圖卷積網(wǎng)絡處理全局圖以進行分類。在AAPD、RCV1V2兩個數(shù)據(jù)集上進行實驗,實驗結果表明,所提出方法能有效提升模型性能。
中圖分類號:TP393文獻標識碼:ADOI:10.19358/j.issn.2097-1788.2025.06.006
引用格式:王哲,溫秀梅. 基于混合粒度全局圖的多標簽文本分類方法[J].網(wǎng)絡安全與數(shù)據(jù)治理,2025,44(6):42-48.
A multi-label text classification method based on a mixed-granularity global graph
Wang Zhe,Wen Xiumei
College of Information Engineering,Hebei University of Architecture
Abstract: Multi-label text classification is designed to assign multiple labels to each instance of text. Traditional multi-label text classification methods usually rely on coarse-grained feature representations, ignoring the multi-level and multi-scale semantic information in the text. In order to solve this problem, this paper proposes a multilabel text classification method based on mixed granularity global graph, which extracts fine-grained text features through MHA to capture the interaction information between words and labels, and uses Bi-LSTM to extract coarse-grained text features. Subsequently, the two features are fused through the gated fusion mechanism to obtain mixed granular features with multi-level semantics. The fused mixed granular word representations, texts, and labels are used together to construct a global graph, and the global graph is processed through a graph convolutional network for classification. Experiments are carried out on two datasets, AAPD and RCV1-V2, and the experimental results show that the proposed method can effectively improve the performance of the model.
Key words : multi-label text classification; multi-head attention mechanism; bidirectional long short-term memory network; gated fusion mechanism; graph convolutional networks

引言

多標簽文本分類是一項基本的文本挖掘任務。在許多應用程序中,文本可能對應于多個相互排斥的標簽[1]。多標簽文本分類可以有效地降低人工成本,具有廣泛的應用前景[2]。與傳統(tǒng)的單標簽分類任務不同,多標簽文本分類旨在為每個文本實例同時分配多個標簽。多標簽文本分類任務可以廣泛應用于情感分析[3]、檔案管理[4]、期刊分類[5]、新聞過濾[6]等領域,尤其在處理復雜、信息密集的文本時展現(xiàn)出獨特的優(yōu)勢。例如,在情感分析任務中,一個文本可能同時表達多個情感,而在新聞處理中,一個事件可能涉及多個主題,因此需要高效的多標簽分類方法來捕捉文本中的多層次語義信息。

盡管深度學習方法在自然語言處理任務中取得了顯著進展,但現(xiàn)有的多標簽文本分類方法依然面臨許多挑戰(zhàn)。大多數(shù)方法仍然依賴于詞袋(Bag of Words,BoW)[7]和n元語法(ngram)[8]模型或簡單的深度學習架構,如卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[9]和長短期記憶網(wǎng)絡(Long ShortTerm Memory Network,LSTM)[10]。這些方法主要關注從文本中提取低級特征,忽視了文本中的高層次語義關系與標簽之間的潛在關聯(lián)性。在多標簽分類任務中,標簽之間的相關性非常復雜,不同標簽之間往往存在一定的依賴關系和上下游信息,這使得現(xiàn)有方法在處理長文本或包含多重語義關系的復雜任務時,表現(xiàn)出信息丟失和語義理解不足的問題。

一方面,傳統(tǒng)的基于特征的淺層模型無法有效捕捉文本中的上下文信息和語義層次,因此其分類效果在多標簽任務中往往較差。另一方面,雖然現(xiàn)代的深度學習模型如BERT[11-12]、GPT[13]等在單標簽分類任務中取得了很大成功,但由于其關注點過于集中在文本本身的語言表達上,仍未能充分考慮標簽之間的關聯(lián)性。此外,許多現(xiàn)有方法采用的是逐標簽獨立學習的策略,即每個標簽的預測都是基于輸入文本的獨立決策,這種做法未能充分挖掘標簽間的共現(xiàn)和相互影響。

為了應對這些挑戰(zhàn),本文提出了一種基于混合粒度全局圖(Hybrid Granularity Global Graph, HGG)的多標簽文本分類方法。本文的核心創(chuàng)新在于引入了一個混合粒度特征提取機制,該機制結合了細粒度和粗粒度兩種層次的文本特征,從而能夠更全面地理解文本中的復雜語義。具體來說,細粒度特征提取通過捕捉單詞、短語以及句子層次的語義信息,幫助模型更好地理解細節(jié)和局部語境;而粗粒度特征提取則通過全局信息建模,使得模型能夠從宏觀層面理解文本的主要內(nèi)容和潛在意圖。這種結合不同粒度特征的方式,有助于更好地平衡局部與全局信息,從而提高多標簽文本分類的精度。

近年來,圖神經(jīng)網(wǎng)絡(Graph Neural Network,GNN)在推薦系統(tǒng)[14]、計算機視覺[15]等領域得到廣泛應用,許多改進的模型被相繼提出,例如圖卷積網(wǎng)絡(Graph Convolutional Network,GCN)[16]、圖注意力網(wǎng)絡(Graph Attention Network,GAT)[17]等,它們在不同的應用場景中展現(xiàn)了出色的表現(xiàn)。在多標簽文本分類任務中,GNN能夠通過構建標簽之間的關聯(lián)圖,捕捉標簽間的共現(xiàn)關系和依賴性,進而提升標簽預測的準確性和全面性。特別是在多標簽任務中,通過GNN的圖結構傳播機制,可以有效地增強標簽之間的相互影響,從而提升多標簽分類模型的性能。此外,GNN的可擴展性和靈活性使得它能夠適應多樣化的數(shù)據(jù)結構,成為處理復雜數(shù)據(jù)和任務的一種理想工具。

因此,本文還提出了一種全局圖結構,并利用GCN來捕捉文本和混合粒度詞表示之間的全局關系。通過構建全局圖,能夠捕捉到標簽間的潛在關聯(lián),并通過GCN的傳播機制,強化節(jié)點之間的相互影響,從而提升模型的分類效果。

綜上所述,本文的主要貢獻為以下幾點:

(1)針對現(xiàn)有模型通常只考慮文本粗粒度的特征,本文在文本特征提取階段,采用多頭注意力機制(MultiHead Attention, MHA)提取包含詞與標簽交互信息的細粒度文本特征。

(2)設計一種門控融合機制,將粗粒度文本特征與細粒度文本特征融合得到混合粒度的文本特征。

(3)將詞的混合粒度表示、文本和標簽作為節(jié)點構建全局圖,并通過GCN處理全局圖,以捕捉文本中詞語、標簽與文本之間的潛在語義關聯(lián)和全局結構信息。

(4)在AAPD和RCV1-V2兩個公開數(shù)據(jù)集上進行多標簽文本分類任務驗證本文方法的有效性。


本文詳細內(nèi)容請下載:

http://ihrv.cn/resource/share/2000006579


作者信息:

王哲,溫秀梅

(河北建筑工程學院信息工程學院,河北張家口075000)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉載。