《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > EDA與制造 > 設(shè)計(jì)應(yīng)用 > 基于ERNIE-CAB-CNN的稀土專利文本分類模型
基于ERNIE-CAB-CNN的稀土專利文本分類模型
電子技術(shù)應(yīng)用
廖列法,石利嬌
江西理工大學(xué) 信息工程學(xué)院
摘要: 針對稀土專利文本專業(yè)性強(qiáng)的特點(diǎn)以及現(xiàn)有的文本分類方法存在的不足,鑒于類別注意力在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用和取得的良好效果,提出了一種用于文本分類的類別注意力模塊(Category Attention Module,CAB),并結(jié)合預(yù)訓(xùn)練模型ERNIE和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)構(gòu)建了一個(gè)用于稀土專利文本分類的創(chuàng)新模型ERNIE-CAB-CNN。模型使用ERNIE對專利文本進(jìn)行向量化,得到語義信息更加豐富的向量表示后,通過CAB為文本中各個(gè)類別的重要特征賦予較高權(quán)值,使模型可以更準(zhǔn)確地區(qū)分不同類別的特征。最后用CNN進(jìn)一步提取文本中其他關(guān)鍵局部特征,得到的最終文本向量表示用于分類。通過Patsnap專利數(shù)據(jù)庫官方網(wǎng)站檢索下載稀土專利數(shù)據(jù)構(gòu)建數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,稀土專利文本分類模型ERNIE-CAB-CNN在測試集上分類的準(zhǔn)確率、精確率、F1分?jǐn)?shù)分別為82.68%、83.2%、82.06%,取得了良好的分類效果。
中圖分類號:TP3 文獻(xiàn)標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.245583
中文引用格式: 廖列法,石利嬌. 基于ERNIE-CAB-CNN的稀土專利文本分類模型[J]. 電子技術(shù)應(yīng)用,2025,51(1):18-24.
英文引用格式: Liao Liefa,Shi Lijiao. Text classification model of rare earths patents based on ERNE-CAB-CNN[J]. Application of Electronic Technique,2025,51(1):18-24.
Text classification model of rare earths patents based on ERNE-CAB-CNN
Liao Liefa,Shi Lijiao
School of Information Engineering, Jiangxi University of Science and Technology
Abstract: In view of the strong specialization of rare earth patents and the shortcomings of existing classification methods, this paper proposes a Category Attention Block (CAB) for text classification in view of the wide application of category attention in the field of computer vision. Combined with ERNIE and Convolutional Neural Network (CNN), an innovative model ERNE-CAB-CNN for rare earth patent text classification is constructed. The model uses ERNIE to vectorize the patent text, and obtains the vector representation with richer semantic information. Then, it assigns higher weights to the key features of each category in the text through CAB, so that the model can distinguish different types of features more accurately. Finally, CNN is used to further extract other key local features in the text, and the resulting text vector representation is used for classification. Through the official website of Patsnap patent database, rare earth patent data are retrieved and downloaded to build a dataset for experiments. The experimental results show that the precision rate, accuracy rate and F1 score of the rare earths patent text classification model based on ERNE-CAB-CNN on the test set are 82.68%, 83.2% and 82.06%, respectively, achieving a good classification effect.
Key words : rare earth patent classification;text classification;category attention;ERNIE;CNN;feature extraction

引言

稀土元素是指鑭、鈰、鐠、釹、釤、銪、釓、鋱、鏑等17種元素的總稱,因其獨(dú)特的4f電子結(jié)構(gòu)而顯現(xiàn)出豐富的光電磁性能,在電子信息、新能源、有色金屬、機(jī)械制造等行業(yè)用途廣泛,被稱為“萬能之土”[1]。稀土被國家列為實(shí)行保護(hù)性開采的重要戰(zhàn)略資源,是發(fā)展現(xiàn)代工業(yè)和國防尖端技術(shù)不可代替的有色金屬資源[2]。

黨的十八大明確提出科技創(chuàng)新是提高社會生產(chǎn)力和綜合國力的戰(zhàn)略支撐,必須擺在國家發(fā)展全局的核心位置??萍紕?chuàng)新既是我國稀土產(chǎn)業(yè)高質(zhì)量發(fā)展的必由之路,也是中國稀土集團(tuán)打造創(chuàng)新驅(qū)動的世界一流稀土產(chǎn)業(yè)集團(tuán)的必然要求。在我國由稀土資源大國加速邁向稀土產(chǎn)業(yè)強(qiáng)國的背景下,強(qiáng)化科技賦能,稀土產(chǎn)業(yè)集群正加快高質(zhì)量發(fā)展,加快稀土由“世界級儲量”向“世界級產(chǎn)業(yè)”邁進(jìn)[3]。

專利申請作為保護(hù)創(chuàng)新成果、促進(jìn)交流分享和增強(qiáng)競爭優(yōu)勢的有效途徑,自1999年之后,我國稀土領(lǐng)域的專利布局開始變得活躍,專利數(shù)量迅速增長。與世界其他國家相比,中國的申請速度在加快,2011年到2018年增加了250%[1]?;谏鲜龅奈覈上⊥临Y源大國加速邁向稀土產(chǎn)業(yè)強(qiáng)國的背景和創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略的實(shí)施,今后我國的稀土領(lǐng)域的專利的數(shù)量將仍會持續(xù)增長。

對大量的稀土專利進(jìn)行分類研究,可以為科研人員提供快速準(zhǔn)確的技術(shù)背景和相關(guān)文獻(xiàn),使科研人員及時(shí)地了解稀土專利文本中包含的最新技術(shù)信息,能夠在一定程度上為科學(xué)研究工作提供強(qiáng)有力的支持,推動稀土材料科研的發(fā)展、促進(jìn)稀土產(chǎn)業(yè)的創(chuàng)新與升級。


本文詳細(xì)內(nèi)容請下載:

http://ihrv.cn/resource/share/2000006277


作者信息:

廖列法,石利嬌

(江西理工大學(xué) 信息工程學(xué)院,江西 贛州 341000)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。