文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.12.009
引用格式: 王慶才,劉貴全. 基于混合表征學(xué)習(xí)的專(zhuān)利分類(lèi)方法研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(12):51-59.
0 引言
專(zhuān)利分類(lèi)是專(zhuān)利挖掘和管理中重要的基礎(chǔ)任務(wù)。其主要目的是通過(guò)自然語(yǔ)言處理等方法提取專(zhuān)利文檔中的重要特征,然后將這些特征輸入分類(lèi)器中,其輸出結(jié)果表示專(zhuān)利文檔所屬的標(biāo)簽。通常一個(gè)專(zhuān)利具有一個(gè)或多個(gè)標(biāo)簽。面對(duì)每年快速增長(zhǎng)的專(zhuān)利申請(qǐng)數(shù)量,實(shí)現(xiàn)高效的、自動(dòng)化的專(zhuān)利分類(lèi)算法可以大大減少專(zhuān)利機(jī)構(gòu)的人工成本和時(shí)間成本。目前,自動(dòng)化專(zhuān)利分類(lèi)算法已被專(zhuān)利機(jī)構(gòu)廣泛使用,為專(zhuān)利檢索[1]、專(zhuān)利價(jià)值評(píng)估[2]、專(zhuān)利訴訟風(fēng)險(xiǎn)評(píng)估[3]等專(zhuān)利智能服務(wù)提供支持。
因此,這吸引了許多研究人員來(lái)研究自動(dòng)專(zhuān)利分類(lèi)問(wèn)題[4-6],并且這些方法中的大多數(shù)將其視為多標(biāo)簽文本分類(lèi)任務(wù)[4-5]。專(zhuān)利的主要內(nèi)容為其組件和創(chuàng)新的詳細(xì)說(shuō)明文檔,該任務(wù)的目標(biāo)是針對(duì)專(zhuān)利自動(dòng)化預(yù)測(cè)一組標(biāo)準(zhǔn)化的類(lèi)別。傳統(tǒng)的專(zhuān)利分類(lèi)方法大多基于統(tǒng)計(jì)學(xué)和自然語(yǔ)言處理方法人工構(gòu)造特征信息,輸入到機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練,然后預(yù)測(cè)未知專(zhuān)利的類(lèi)別信息。這些方法大多屬于淺層模型,僅僅學(xué)習(xí)了專(zhuān)利文本簡(jiǎn)單的詞義信息,無(wú)法獲取深層的上下文語(yǔ)義信息。而且專(zhuān)利中包含了大量的非結(jié)構(gòu)化信息,如專(zhuān)利之間的引用信息,通常將專(zhuān)利作為網(wǎng)絡(luò)節(jié)點(diǎn)構(gòu)建專(zhuān)利引用網(wǎng)絡(luò),然后基于網(wǎng)絡(luò)分析的方法對(duì)專(zhuān)利節(jié)點(diǎn)進(jìn)行分類(lèi)。此類(lèi)方法專(zhuān)注于學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)信息,忽略了專(zhuān)利文本信息對(duì)預(yù)測(cè)專(zhuān)利類(lèi)別的影響。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003896.
作者信息:
王慶才1,2,劉貴全1,2
(1.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230027;
2.大數(shù)據(jù)分析與應(yīng)用安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 合肥230027)