基于ERNIE-CAB-CNN的稀土專利文本分類模型[EDA與制造][工業(yè)自動(dòng)化]

針對(duì)稀土專利文本專業(yè)性強(qiáng)的特點(diǎn)以及現(xiàn)有的文本分類方法存在的不足,鑒于類別注意力在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用和取得的良好效果,提出了一種用于文本分類的類別注意力模塊(Category Attention Module,CAB),并結(jié)合預(yù)訓(xùn)練模型ERNIE和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)構(gòu)建了一個(gè)用于稀土專利文本分類的創(chuàng)新模型ERNIE-CAB-CNN。模型使用ERNIE對(duì)專利文本進(jìn)行向量化,得到語義信息更加豐富的向量表示后,通過CAB為文本中各個(gè)類別的重要特征賦予較高權(quán)值,使模型可以更準(zhǔn)確地區(qū)分不同類別的特征。最后用CNN進(jìn)一步提取文本中其他關(guān)鍵局部特征,得到的最終文本向量表示用于分類。通過Patsnap專利數(shù)據(jù)庫官方網(wǎng)站檢索下載稀土專利數(shù)據(jù)構(gòu)建數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,稀土專利文本分類模型ERNIE-CAB-CNN在測試集上分類的準(zhǔn)確率、精確率、F1分?jǐn)?shù)分別為82.68%、83.2%、82.06%,取得了良好的分類效果。

發(fā)表于:2025/1/20 15:36:43