《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 基于混合表征學(xué)習(xí)的專(zhuān)利分類(lèi)方法研究
基于混合表征學(xué)習(xí)的專(zhuān)利分類(lèi)方法研究
信息技術(shù)與網(wǎng)絡(luò)安全 12期
王慶才1,2,劉貴全1,2
(1.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230027; 2.大數(shù)據(jù)分析與應(yīng)用安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 合肥230027)
摘要: 專(zhuān)利分類(lèi)是專(zhuān)利分析的基本任務(wù),而基于深度學(xué)習(xí)的自動(dòng)化專(zhuān)利分類(lèi)方法可以有效地執(zhí)行專(zhuān)利分類(lèi)任務(wù)?,F(xiàn)有研究大多利用自然語(yǔ)言處理方法,基于單個(gè)專(zhuān)利的文本內(nèi)容(如摘要和標(biāo)題)對(duì)專(zhuān)利文本進(jìn)行分類(lèi),而專(zhuān)利及標(biāo)簽之間的宏觀關(guān)系(如專(zhuān)利之間的引用和標(biāo)簽之間的共現(xiàn))在很大程度上被忽略。為了緩解專(zhuān)利分類(lèi)中單一專(zhuān)利信息的問(wèn)題,構(gòu)建了三個(gè)圖網(wǎng)絡(luò)表示專(zhuān)利及其標(biāo)簽之間的宏觀關(guān)系,然后提出一個(gè)基于混合表征學(xué)習(xí)的專(zhuān)利分類(lèi)框架,將專(zhuān)利及標(biāo)簽的宏觀關(guān)系融入分類(lèi)中,以提高專(zhuān)利的自動(dòng)化分類(lèi)的準(zhǔn)確性。在真實(shí)的專(zhuān)利數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該分類(lèi)方法在多個(gè)評(píng)價(jià)指標(biāo)上取得了最佳的性能。
中圖分類(lèi)號(hào): TP181
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.12.009
引用格式: 王慶才,劉貴全. 基于混合表征學(xué)習(xí)的專(zhuān)利分類(lèi)方法研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(12):51-59.
Hybrid representation based framework for patent classification
Wang Qingcai1,2,Liu Guiquan1,2
(1.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China; 2.Anhui Province Key Laboratory of Big Data Analysis and Application,Hefei 230027,China)
Abstract: Patent classification is a fundamental task in patent analysis, and automatic patent classification methods based on deep learning can perform effectively. Most existing studies utilize natural language processing methods to classify patent documents based on the textual contents of individual patents(e.g.,abstracts and titles), while the macro-relationships between patents and their labels(e.g.,citations between patents and co-occurrence between labels) are largely ignored. To alleviate the problem of single patent information in patent classification, this paper constructed three graphs to represent the macro-relationships between patents and labels, and then proposed a hybrid representation based framework for patent classification to enhance the automated classification of patents. Extensive experiments conducted on real patent datasets show that the proposed classification method achieves the best performance in several evaluation metrics.
Key words : patent classification;multi-label classification;Graph Neural Network;deep learning

0 引言

專(zhuān)利分類(lèi)是專(zhuān)利挖掘和管理中重要的基礎(chǔ)任務(wù)。其主要目的是通過(guò)自然語(yǔ)言處理等方法提取專(zhuān)利文檔中的重要特征,然后將這些特征輸入分類(lèi)器中,其輸出結(jié)果表示專(zhuān)利文檔所屬的標(biāo)簽。通常一個(gè)專(zhuān)利具有一個(gè)或多個(gè)標(biāo)簽。面對(duì)每年快速增長(zhǎng)的專(zhuān)利申請(qǐng)數(shù)量,實(shí)現(xiàn)高效的、自動(dòng)化的專(zhuān)利分類(lèi)算法可以大大減少專(zhuān)利機(jī)構(gòu)的人工成本和時(shí)間成本。目前,自動(dòng)化專(zhuān)利分類(lèi)算法已被專(zhuān)利機(jī)構(gòu)廣泛使用,為專(zhuān)利檢索[1]、專(zhuān)利價(jià)值評(píng)估[2]、專(zhuān)利訴訟風(fēng)險(xiǎn)評(píng)估[3]等專(zhuān)利智能服務(wù)提供支持。

因此,這吸引了許多研究人員來(lái)研究自動(dòng)專(zhuān)利分類(lèi)問(wèn)題[4-6],并且這些方法中的大多數(shù)將其視為多標(biāo)簽文本分類(lèi)任務(wù)[4-5]。專(zhuān)利的主要內(nèi)容為其組件和創(chuàng)新的詳細(xì)說(shuō)明文檔,該任務(wù)的目標(biāo)是針對(duì)專(zhuān)利自動(dòng)化預(yù)測(cè)一組標(biāo)準(zhǔn)化的類(lèi)別。傳統(tǒng)的專(zhuān)利分類(lèi)方法大多基于統(tǒng)計(jì)學(xué)和自然語(yǔ)言處理方法人工構(gòu)造特征信息,輸入到機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練,然后預(yù)測(cè)未知專(zhuān)利的類(lèi)別信息。這些方法大多屬于淺層模型,僅僅學(xué)習(xí)了專(zhuān)利文本簡(jiǎn)單的詞義信息,無(wú)法獲取深層的上下文語(yǔ)義信息。而且專(zhuān)利中包含了大量的非結(jié)構(gòu)化信息,如專(zhuān)利之間的引用信息,通常將專(zhuān)利作為網(wǎng)絡(luò)節(jié)點(diǎn)構(gòu)建專(zhuān)利引用網(wǎng)絡(luò),然后基于網(wǎng)絡(luò)分析的方法對(duì)專(zhuān)利節(jié)點(diǎn)進(jìn)行分類(lèi)。此類(lèi)方法專(zhuān)注于學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)信息,忽略了專(zhuān)利文本信息對(duì)預(yù)測(cè)專(zhuān)利類(lèi)別的影響。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003896.





作者信息:

王慶才1,2,劉貴全1,2

(1.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230027;

2.大數(shù)據(jù)分析與應(yīng)用安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 合肥230027)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。