引用格式:王哲,溫秀梅. 基于混合粒度全局圖的多標(biāo)簽文本分類方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(6):42-48.
引言
多標(biāo)簽文本分類是一項(xiàng)基本的文本挖掘任務(wù)。在許多應(yīng)用程序中,文本可能對(duì)應(yīng)于多個(gè)相互排斥的標(biāo)簽[1]。多標(biāo)簽文本分類可以有效地降低人工成本,具有廣泛的應(yīng)用前景[2]。與傳統(tǒng)的單標(biāo)簽分類任務(wù)不同,多標(biāo)簽文本分類旨在為每個(gè)文本實(shí)例同時(shí)分配多個(gè)標(biāo)簽。多標(biāo)簽文本分類任務(wù)可以廣泛應(yīng)用于情感分析[3]、檔案管理[4]、期刊分類[5]、新聞過(guò)濾[6]等領(lǐng)域,尤其在處理復(fù)雜、信息密集的文本時(shí)展現(xiàn)出獨(dú)特的優(yōu)勢(shì)。例如,在情感分析任務(wù)中,一個(gè)文本可能同時(shí)表達(dá)多個(gè)情感,而在新聞處理中,一個(gè)事件可能涉及多個(gè)主題,因此需要高效的多標(biāo)簽分類方法來(lái)捕捉文本中的多層次語(yǔ)義信息。
盡管深度學(xué)習(xí)方法在自然語(yǔ)言處理任務(wù)中取得了顯著進(jìn)展,但現(xiàn)有的多標(biāo)簽文本分類方法依然面臨許多挑戰(zhàn)。大多數(shù)方法仍然依賴于詞袋(Bag of Words,BoW)[7]和n元語(yǔ)法(ngram)[8]模型或簡(jiǎn)單的深度學(xué)習(xí)架構(gòu),如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[9]和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long ShortTerm Memory Network,LSTM)[10]。這些方法主要關(guān)注從文本中提取低級(jí)特征,忽視了文本中的高層次語(yǔ)義關(guān)系與標(biāo)簽之間的潛在關(guān)聯(lián)性。在多標(biāo)簽分類任務(wù)中,標(biāo)簽之間的相關(guān)性非常復(fù)雜,不同標(biāo)簽之間往往存在一定的依賴關(guān)系和上下游信息,這使得現(xiàn)有方法在處理長(zhǎng)文本或包含多重語(yǔ)義關(guān)系的復(fù)雜任務(wù)時(shí),表現(xiàn)出信息丟失和語(yǔ)義理解不足的問(wèn)題。
一方面,傳統(tǒng)的基于特征的淺層模型無(wú)法有效捕捉文本中的上下文信息和語(yǔ)義層次,因此其分類效果在多標(biāo)簽任務(wù)中往往較差。另一方面,雖然現(xiàn)代的深度學(xué)習(xí)模型如BERT[11-12]、GPT[13]等在單標(biāo)簽分類任務(wù)中取得了很大成功,但由于其關(guān)注點(diǎn)過(guò)于集中在文本本身的語(yǔ)言表達(dá)上,仍未能充分考慮標(biāo)簽之間的關(guān)聯(lián)性。此外,許多現(xiàn)有方法采用的是逐標(biāo)簽獨(dú)立學(xué)習(xí)的策略,即每個(gè)標(biāo)簽的預(yù)測(cè)都是基于輸入文本的獨(dú)立決策,這種做法未能充分挖掘標(biāo)簽間的共現(xiàn)和相互影響。
為了應(yīng)對(duì)這些挑戰(zhàn),本文提出了一種基于混合粒度全局圖(Hybrid Granularity Global Graph, HGG)的多標(biāo)簽文本分類方法。本文的核心創(chuàng)新在于引入了一個(gè)混合粒度特征提取機(jī)制,該機(jī)制結(jié)合了細(xì)粒度和粗粒度兩種層次的文本特征,從而能夠更全面地理解文本中的復(fù)雜語(yǔ)義。具體來(lái)說(shuō),細(xì)粒度特征提取通過(guò)捕捉單詞、短語(yǔ)以及句子層次的語(yǔ)義信息,幫助模型更好地理解細(xì)節(jié)和局部語(yǔ)境;而粗粒度特征提取則通過(guò)全局信息建模,使得模型能夠從宏觀層面理解文本的主要內(nèi)容和潛在意圖。這種結(jié)合不同粒度特征的方式,有助于更好地平衡局部與全局信息,從而提高多標(biāo)簽文本分類的精度。
近年來(lái),圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)在推薦系統(tǒng)[14]、計(jì)算機(jī)視覺(jué)[15]等領(lǐng)域得到廣泛應(yīng)用,許多改進(jìn)的模型被相繼提出,例如圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[16]、圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)[17]等,它們?cè)诓煌膽?yīng)用場(chǎng)景中展現(xiàn)了出色的表現(xiàn)。在多標(biāo)簽文本分類任務(wù)中,GNN能夠通過(guò)構(gòu)建標(biāo)簽之間的關(guān)聯(lián)圖,捕捉標(biāo)簽間的共現(xiàn)關(guān)系和依賴性,進(jìn)而提升標(biāo)簽預(yù)測(cè)的準(zhǔn)確性和全面性。特別是在多標(biāo)簽任務(wù)中,通過(guò)GNN的圖結(jié)構(gòu)傳播機(jī)制,可以有效地增強(qiáng)標(biāo)簽之間的相互影響,從而提升多標(biāo)簽分類模型的性能。此外,GNN的可擴(kuò)展性和靈活性使得它能夠適應(yīng)多樣化的數(shù)據(jù)結(jié)構(gòu),成為處理復(fù)雜數(shù)據(jù)和任務(wù)的一種理想工具。
因此,本文還提出了一種全局圖結(jié)構(gòu),并利用GCN來(lái)捕捉文本和混合粒度詞表示之間的全局關(guān)系。通過(guò)構(gòu)建全局圖,能夠捕捉到標(biāo)簽間的潛在關(guān)聯(lián),并通過(guò)GCN的傳播機(jī)制,強(qiáng)化節(jié)點(diǎn)之間的相互影響,從而提升模型的分類效果。
綜上所述,本文的主要貢獻(xiàn)為以下幾點(diǎn):
(1)針對(duì)現(xiàn)有模型通常只考慮文本粗粒度的特征,本文在文本特征提取階段,采用多頭注意力機(jī)制(MultiHead Attention, MHA)提取包含詞與標(biāo)簽交互信息的細(xì)粒度文本特征。
(2)設(shè)計(jì)一種門控融合機(jī)制,將粗粒度文本特征與細(xì)粒度文本特征融合得到混合粒度的文本特征。
(3)將詞的混合粒度表示、文本和標(biāo)簽作為節(jié)點(diǎn)構(gòu)建全局圖,并通過(guò)GCN處理全局圖,以捕捉文本中詞語(yǔ)、標(biāo)簽與文本之間的潛在語(yǔ)義關(guān)聯(lián)和全局結(jié)構(gòu)信息。
(4)在AAPD和RCV1-V2兩個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行多標(biāo)簽文本分類任務(wù)驗(yàn)證本文方法的有效性。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://ihrv.cn/resource/share/2000006579
作者信息:
王哲,溫秀梅
(河北建筑工程學(xué)院信息工程學(xué)院,河北張家口075000)