《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 知識(shí)圖譜精化研究綜述
知識(shí)圖譜精化研究綜述
2018年電子技術(shù)應(yīng)用第9期
謝 剛1,2
1.中國科學(xué)院自動(dòng)化所,北京100080;2.貴州師范大學(xué) 大數(shù)據(jù)與計(jì)算機(jī)科學(xué)學(xué)院,貴州 貴陽550001
摘要: 知識(shí)圖譜是一種在移動(dòng)互聯(lián)網(wǎng)大時(shí)代下產(chǎn)生的新型知識(shí)表示方法,而精化是知識(shí)圖譜應(yīng)用研究的主要內(nèi)容之一,其主要任務(wù)是知識(shí)圖譜補(bǔ)全和錯(cuò)誤檢測(cè)等,在信息檢索、機(jī)器人、智能問答等領(lǐng)域有著重要的應(yīng)用前景。因此,對(duì)知識(shí)圖譜精化進(jìn)行研究具有十分重要的意義。對(duì)當(dāng)前知識(shí)圖譜精化方法進(jìn)行了較為全面、深入的總結(jié),并對(duì)知識(shí)圖譜未來的主要研究方向進(jìn)行了展望。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.180696
中文引用格式: 謝剛. 知識(shí)圖譜精化研究綜述[J].電子技術(shù)應(yīng)用,2018,44(9):29-33,38.
英文引用格式: Xie Gang. Review of knowledge graph refinement[J]. Application of Electronic Technique,2018,44(9):29-33,38.
Review of knowledge graph refinement
Xie Gang1,2
1.Institute of Automation,Chinese Academy of Science,Beijing 100080,China; 2.School of Big Data and Computer Science,Guizhou Normal University,Guiyang 550001,China
Abstract: Knowledge graph is a new knowledge representation method in the mobile Internet era. Knowledge graph refinement is one of the main contents in application of knowledge graph and its main goal are completion and error detection. At the same time, knowledge graph refinement is usually applied in areas of the information retrieval, robot, intelligent answer and so on. At result, studies on knowledge graph refinement had great significance. This paper addresses the methods of knowledge graph refinement and finally presents challenges of know-ledge graph.
Key words : knowledge graph;refinement;completion;error detection

0 引言

    隨著鏈接開放數(shù)據(jù)源(如DBpedia)的出現(xiàn)以及谷歌在2012年提出知識(shí)圖譜的概念,全球掀起了研究知識(shí)圖譜的熱潮,涌現(xiàn)出了大量的知識(shí)圖譜構(gòu)建技術(shù)[1-5],并構(gòu)建了各種知識(shí)圖譜,這些知識(shí)圖譜要么是開放的,要么是公司私有的,如Freebase[2]、維基數(shù)據(jù)(Wikidata)[3]、DBpedia[4]、YAGO[5]等,但無論采用哪種技術(shù),構(gòu)造出來的知識(shí)圖譜都不完美[6]。隨著研究的深入,越來越多的研究者開始關(guān)注知識(shí)圖譜的覆蓋率和正確率。而提高知識(shí)圖譜的覆蓋率和正確率是知識(shí)圖譜精化的主要目的,對(duì)知識(shí)圖譜進(jìn)行精化具有十分重要的意義。

    近年來,該領(lǐng)域的研究進(jìn)展非常迅速,涌現(xiàn)出了一大批研究成果,已經(jīng)研發(fā)出了多種知識(shí)圖譜精化方法,這些方法主要集中在討論知識(shí)圖譜補(bǔ)全[7-28]和知識(shí)圖譜錯(cuò)誤探測(cè)[29-34]兩個(gè)方面,這也是本文從這兩個(gè)方面進(jìn)行綜述的原因。

    本文的貢獻(xiàn)是:(1)討論各種知識(shí)圖譜精化方法;(2)為國內(nèi)同行介紹本領(lǐng)域的最新研究成果,了解該領(lǐng)域的研究進(jìn)展,從而推動(dòng)我國在該領(lǐng)域的發(fā)展。

1 知識(shí)圖譜精化相關(guān)概念

1.1 知識(shí)圖譜的概念

    “知識(shí)圖譜”是一種描述真實(shí)世界客觀存在的實(shí)體、概念及它們之間關(guān)聯(lián)關(guān)系的語義網(wǎng)絡(luò)。可以利用知識(shí)圖譜開發(fā)語義檢索和自動(dòng)問答等應(yīng)用[1]。知識(shí)圖譜的結(jié)構(gòu)如圖1所示??梢?,知識(shí)圖譜是一個(gè)有向圖,由模式(schema)圖和數(shù)據(jù)圖構(gòu)成。其中,模式圖描述類之間的關(guān)系;數(shù)據(jù)圖描述實(shí)體之間的關(guān)系。圖1描述的知識(shí)(事實(shí))如下:

    (1)李四是一個(gè)教師

    (2)北京是一個(gè)城市

    (3)中國是一個(gè)國家

    (4)李四的出生地為北京

    (5)北京位于中國

    (6)李四的國籍是中國

zs2-t1.gif

1.2 知識(shí)圖譜構(gòu)建與知識(shí)圖譜精化

    知識(shí)圖譜構(gòu)建是使用各種技術(shù)從無到有構(gòu)造知識(shí)圖譜,而知識(shí)圖譜精化是使用各種技術(shù)對(duì)知識(shí)圖譜進(jìn)行完善??梢姡獦?gòu)建一個(gè)完美的知識(shí)圖譜,需要經(jīng)過多個(gè)精化步驟。因此,知識(shí)圖譜構(gòu)建和知識(shí)圖譜精化是相輔相成、不可分割的。另外,本文將關(guān)系、文字和類型稱為精化目標(biāo)。

2 常用的知識(shí)圖譜補(bǔ)全方法

    知識(shí)圖譜補(bǔ)全的目的是利用已有信息,預(yù)測(cè)丟失的實(shí)體、類型和實(shí)體間的關(guān)系,從而提高知識(shí)圖譜的覆蓋率。它是知識(shí)圖譜精化的主要任務(wù)之一,其對(duì)應(yīng)的精化目標(biāo)包括實(shí)體、類型和實(shí)體間的關(guān)系。但根據(jù)已有文獻(xiàn),發(fā)現(xiàn)目前該方面的研究主要集中在對(duì)類型和實(shí)體間的關(guān)系進(jìn)行精化。

    本節(jié)根據(jù)知識(shí)圖譜補(bǔ)全使用的數(shù)據(jù)源,將知識(shí)圖譜補(bǔ)全方法分為知識(shí)圖譜內(nèi)部補(bǔ)全和知識(shí)圖譜外部補(bǔ)全兩大類。其中,知識(shí)圖譜內(nèi)部補(bǔ)全方法是指僅使用知識(shí)圖譜本身預(yù)測(cè)丟失信息的方法總稱,知識(shí)圖譜外部補(bǔ)全方法是指除使用知識(shí)圖譜本身以外,還使用其他數(shù)據(jù)源(如文本語料)來預(yù)測(cè)丟失信息的方法總稱。下面將從這兩個(gè)方面對(duì)知識(shí)圖譜錯(cuò)誤探測(cè)進(jìn)行綜述。

2.1 知識(shí)圖譜內(nèi)部補(bǔ)全方法

    為了揭示內(nèi)部補(bǔ)全方法因精化目標(biāo)的不同而不同,本小節(jié)將根據(jù)精化目標(biāo)的不同,把內(nèi)部補(bǔ)全方法分成實(shí)體類型內(nèi)部補(bǔ)全和關(guān)系內(nèi)部預(yù)測(cè)兩類進(jìn)行綜述。

2.1.1 實(shí)體類型內(nèi)部補(bǔ)全

    實(shí)體類型內(nèi)部補(bǔ)全就是利用知識(shí)圖譜本身已有的實(shí)體、實(shí)體類型和實(shí)體關(guān)系預(yù)測(cè)丟失的實(shí)體類型。

    在機(jī)器學(xué)習(xí)領(lǐng)域,常用多分類方法對(duì)實(shí)體類型進(jìn)行補(bǔ)全。其中,PAULHEIM H等人[7-8]提出了一種基于條件概率的補(bǔ)全算法SDType,這種算法的思想是通過實(shí)體所具有的關(guān)系預(yù)測(cè)實(shí)體類型。SDType算法的評(píng)價(jià)矩陣是正確率(precision)、召回率和新增類型數(shù)目。但這種算法的缺點(diǎn)是假設(shè)關(guān)系之間是相互獨(dú)立的,而現(xiàn)實(shí)世界中這種假設(shè)在很多情況下是不成立的,并且該算法沒有用類型的層次結(jié)構(gòu)。利用SDType算法,已經(jīng)為知識(shí)圖譜DBpedia新增了3.4億條類型語句。KROMPA?覻 D等人[9]利用張量分解預(yù)測(cè)實(shí)體類型,這種方法的思想是把知識(shí)圖譜表示成一個(gè)實(shí)體-實(shí)體-關(guān)系的三維張量,然后通過張量分解的方法實(shí)現(xiàn)類型補(bǔ)全。該方法的評(píng)價(jià)矩陣是正確率、召回率和正確率-召回率曲線。張香玲等人[10]提出了一種由謂詞和謂詞及謂詞和類型的相互作用補(bǔ)全實(shí)體類型的模型,在該模型中,為了解決類型語義漂移,使用PMI技術(shù)設(shè)計(jì)一個(gè)有效的謂詞-類型推理圖及基于圖上的隨機(jī)游走算法。該模型的評(píng)價(jià)矩陣是正確率和召回率。SLEEMAN J等人[11]將主題模型用在關(guān)系預(yù)測(cè)中,這種方法的思想是首先將實(shí)體表示成文檔,應(yīng)用LDA抽取文檔的主題,然后通過分析主題和實(shí)體類型的共現(xiàn)關(guān)系,根據(jù)分析結(jié)果,將實(shí)體類型指派給主題對(duì)應(yīng)的實(shí)體。該方法的評(píng)價(jià)矩陣是正確率和召回率。

    在數(shù)據(jù)挖掘領(lǐng)域,利用關(guān)聯(lián)規(guī)則預(yù)測(cè)知識(shí)圖譜丟失的信息。PAULHEIM H等人[12]基于數(shù)據(jù)冗余信息使用關(guān)聯(lián)規(guī)則來預(yù)測(cè)DBpedia中丟失的類型。這種方法的評(píng)價(jià)矩陣為正確率和增加的類型數(shù)。

2.1.2 關(guān)系內(nèi)部預(yù)測(cè)

    按照相同的思路,在機(jī)器學(xué)習(xí)領(lǐng)域,也把預(yù)測(cè)關(guān)系的存在與否看成是一個(gè)二分類問題。其中,SOCHER R等人[13]提出一種通過訓(xùn)練張量神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)新關(guān)系的方法。例如:如果一個(gè)人出生在德國,那么該方法就能根據(jù)這個(gè)關(guān)系預(yù)測(cè)他的國籍是德國。這種方法的評(píng)價(jià)矩陣是精確率(accuracy),已被用于Freebase和WordNet中。BAIER S等人[14]也提出了類似的方法,但他們?cè)陬A(yù)測(cè)過程增加了模式知識(shí),以提高關(guān)系預(yù)測(cè)的性能。不同的是該方法的評(píng)價(jià)矩陣是正確率-召回率曲線面積和ROC曲線面積。類似地,ZHAO Y等人[15]通過將關(guān)系嵌入到一個(gè)低維空間中來預(yù)測(cè)Freebase中關(guān)系的存在,這種方法的評(píng)價(jià)矩陣是正確率。

    同樣地,在數(shù)據(jù)挖掘領(lǐng)域,將關(guān)聯(lián)規(guī)則挖掘也用于預(yù)測(cè)關(guān)系。其中,KIM J等人[16]提出了一種利用關(guān)聯(lián)規(guī)則預(yù)測(cè)DBpdia中實(shí)體關(guān)系的方法。這種方法只能預(yù)測(cè)來自于維基百科分類中的實(shí)體關(guān)系,其評(píng)價(jià)矩陣是正確率和增加的關(guān)系數(shù)目。KOLTHOFF C等人[17]利用關(guān)聯(lián)規(guī)則挖掘思想查找意義豐富的關(guān)系鏈來預(yù)測(cè)關(guān)系,該方法的評(píng)價(jià)矩陣是正確率和召回率。

2.2 知識(shí)圖譜外部補(bǔ)全方法

    與知識(shí)圖譜外部補(bǔ)全方法類似,為了揭示外部補(bǔ)全方法因精化目標(biāo)的不同而不同,本小節(jié)將根據(jù)精化目標(biāo)的不同,把外部補(bǔ)全方法分成實(shí)體類型外部補(bǔ)全和關(guān)系外部預(yù)測(cè)兩類進(jìn)行綜述。

2.2.1 實(shí)體類型外部補(bǔ)全

    實(shí)體類型外部補(bǔ)全就是利用知識(shí)圖譜本身和外部數(shù)據(jù)來預(yù)測(cè)丟失的實(shí)體類型。根據(jù)已有文獻(xiàn)分析,實(shí)體類型外部補(bǔ)全方法的研究主要集中在機(jī)器學(xué)習(xí)和自然語言處理領(lǐng)域。

    在機(jī)器學(xué)習(xí)領(lǐng)域,主要將外部數(shù)據(jù)表示成實(shí)體特征進(jìn)行分類。因?yàn)榫S基百科頁之間的鏈接沒有約束,所以維基百科網(wǎng)頁之間的鏈接比知識(shí)圖譜中相應(yīng)實(shí)體的鏈接要多。因此,NUZZOLESE A G等人[18]利用維基百科鏈接圖和KNN分類算法來預(yù)測(cè)知識(shí)圖譜中的實(shí)體類型。如果一個(gè)知識(shí)圖譜包含到維基百科的鏈接,那么就以相關(guān)頁的分類為基礎(chǔ),將維基百科網(wǎng)頁之間的鏈接表示成特征向量,這種方法的評(píng)價(jià)矩陣是正確率和召回率。APRIOSIO A P等人[19]將DBpedia各種語言版本中的實(shí)體類型作為特征來預(yù)測(cè)丟失的類型,該方法使用不同距離公式的K-NN分類器,綜合應(yīng)用這些不同的距離公式,得到了最好的結(jié)果。這種方法的評(píng)價(jià)矩陣是正確率和召回率。SLEEMAN J等人[20]將支持向量機(jī)用于DBpedia和Freebase中的實(shí)體類型預(yù)測(cè)。為了提高覆蓋率和正確率,作者利用知識(shí)圖譜間的內(nèi)部鏈接和其他知識(shí)圖譜的屬性對(duì)知識(shí)圖譜實(shí)例進(jìn)行分類,這種方法的評(píng)價(jià)矩陣為正確率和召回率。

    在自然語言處理領(lǐng)域,KLIEGR T[21]等人使用了不同語言的摘要來進(jìn)行實(shí)體類型預(yù)測(cè),從而大大提高知識(shí)圖譜的覆蓋率和正確率,這種方法的評(píng)價(jià)矩陣是正確率和召回率。

2.2.2 關(guān)系外部預(yù)測(cè)

    關(guān)系外部預(yù)測(cè)就是利用知識(shí)圖譜本身和外部數(shù)據(jù)來預(yù)測(cè)丟失的實(shí)體關(guān)系。

    一部分研究者利用遠(yuǎn)程監(jiān)督法和自然語言處理方法對(duì)大規(guī)模文本語料庫進(jìn)行處理以預(yù)測(cè)實(shí)體關(guān)系,其思路為:首先,通過命名實(shí)體識(shí)別將知識(shí)圖譜中的實(shí)體鏈接到語料庫(如維基百科)中;然后,以知識(shí)圖譜已有的關(guān)系為基礎(chǔ),找到與關(guān)系對(duì)應(yīng)的文本模式,例如,“author”關(guān)系對(duì)應(yīng)的文本模式為“Y’s book X”;最后,利用已找到的文本模式去發(fā)現(xiàn)語料庫中的新關(guān)系。其中,APROSIO A P等人[22]將遠(yuǎn)程監(jiān)督法用于預(yù)測(cè)DBpedia中的關(guān)系,該方法將維基百科作為語料庫,并且將正確率和召回率作為評(píng)價(jià)矩陣。GERBER D等人[23]也提出了類似的方法,并開發(fā)了一個(gè)RdfLiveNews原型。在該原型中,利用新聞的RSS來解決DBpedia的時(shí)效性,即判斷預(yù)測(cè)到的新關(guān)系在DBpedia中屬于過時(shí)的關(guān)系還是丟失的關(guān)系。這種方法使用的評(píng)價(jià)矩陣是正確率、召回率和精確率。

    一部分研究者利用Web搜索引擎填充知識(shí)圖譜[24]。和上述研究類似,這種方法首先找到關(guān)系對(duì)應(yīng)的詞匯,然后使用這些詞匯形成搜索語句以填充丟失的關(guān)系值。顯然,該方法使用整個(gè)網(wǎng)絡(luò)作為語料庫,并使用信息提取和抽取技術(shù)進(jìn)行知識(shí)圖譜的補(bǔ)全。這種方法使用的評(píng)價(jià)矩陣是正確率、召回率和排名。

    一部分研究者直接從網(wǎng)站的表格中抽取關(guān)系[25-26]。其中,HOGAN A等人[25]提出一種從維基百科表格中抽取關(guān)系的方法。他們認(rèn)為維基百科表格中共存的兩個(gè)實(shí)體共享知識(shí)圖譜中的一條邊,為了補(bǔ)全這些邊,首先使用已有關(guān)系從表格中抽取出候選實(shí)體集,然后對(duì)候選實(shí)體子集進(jìn)行標(biāo)注,最后基于已標(biāo)注的候選實(shí)體子集,使用分類算法來識(shí)別知識(shí)圖譜中真正成立的關(guān)系,這種方法使用的評(píng)價(jià)矩陣是正確率和召回率。RITZE D等人[26]將上述方法擴(kuò)展到任意的HTML表格中,該方法的不足是不僅要求表的列必須與DBpdedia本體中的屬性匹配,而且要求行也要與DBpdedia中的實(shí)體匹配。這種方法使用的評(píng)價(jià)矩陣是正確率和召回率。

    一些研究者認(rèn)為許多自動(dòng)構(gòu)建的知識(shí)圖譜包含很多到其他知識(shí)圖譜的鏈接,可以利用這些鏈接對(duì)知識(shí)圖譜進(jìn)行融合。其中, DUTTA A等人[27]提出一種在知識(shí)圖譜之間建立概率映射的方法。這種方法首先以類型和屬性的分布概率為基礎(chǔ),創(chuàng)建知識(shí)圖譜之間的映射,然后利用該映射得到知識(shí)圖譜中丟失的事實(shí),最后,在兩個(gè)知識(shí)圖譜使用的類型系統(tǒng)之間建立映射。這樣就可以用一個(gè)知識(shí)圖譜的類型去預(yù)測(cè)另一個(gè)知識(shí)圖譜的類型。該方法利用黃金標(biāo)準(zhǔn)進(jìn)行評(píng)估,其評(píng)價(jià)矩陣是正確率和召回率。

    另外,WANG Q等人[28]利用耦合的路徑排序算法補(bǔ)全知識(shí)圖譜。這種方法首先設(shè)計(jì)了一個(gè)聚類算法自動(dòng)發(fā)現(xiàn)彼此高度相關(guān)的關(guān)系,然后采用多任務(wù)學(xué)習(xí)策略對(duì)這些關(guān)系的預(yù)測(cè)進(jìn)行耦合,這樣是為了能夠利用關(guān)系之間的聯(lián)系和共享隱式數(shù)據(jù)。該方法使用的評(píng)價(jià)矩陣是平均正確率和平均倒數(shù)排名(Mean Reciprocal Rank)。

3 常用的知識(shí)圖譜錯(cuò)誤探測(cè)方法

    與知識(shí)圖譜補(bǔ)全方法不同,知識(shí)圖譜錯(cuò)誤探測(cè)的目的是利用已有信息,識(shí)別圖中的錯(cuò)誤信息, 同樣,本節(jié)也將錯(cuò)誤探測(cè)分成內(nèi)部和外部?jī)深悺?/p>

3.1 知識(shí)圖譜錯(cuò)誤內(nèi)部探測(cè)方法

    目前錯(cuò)誤內(nèi)部探測(cè)方法主要集中在文字值錯(cuò)誤和鏈接錯(cuò)誤上,因此本部分只對(duì)這兩類方法進(jìn)行綜述。

3.1.1 文字值錯(cuò)誤內(nèi)部檢測(cè)

    異常檢測(cè)(Outlier detection)的目的是識(shí)別一個(gè)數(shù)據(jù)集中與大多數(shù)數(shù)據(jù)偏離的實(shí)例,即特征顯著的數(shù)據(jù)。由于異常檢測(cè)在許多情況下僅處理數(shù)值型數(shù)據(jù),因此數(shù)值型文字自然成為這些方法處理的對(duì)象。其中,WIENAND D等人[29]將不同的單變量異常值檢測(cè)方法(如四分位范圍或核密度估計(jì))用于DBpedia中,該方法使用正確率和新增文字?jǐn)?shù)作為評(píng)價(jià)矩陣。

    為了降低自然異常的影響,F(xiàn)LEISCHHACKER D等人[30]對(duì)文獻(xiàn)[29]的方法進(jìn)行了擴(kuò)展,將實(shí)例集分成更小的子集,從而提高識(shí)別的正確率。這種方法還能使用其他知識(shí)圖譜預(yù)測(cè)交叉檢測(cè)異常,是內(nèi)部檢測(cè)和外部檢測(cè)方法的混合。

3.1.2 知識(shí)圖譜鏈接錯(cuò)誤內(nèi)部檢測(cè)

    PAULHEIM H[31]指出異常檢測(cè)不僅可用于數(shù)值型數(shù)據(jù),還可用于知識(shí)圖譜的內(nèi)部鏈接。他首先將鏈接表示成多維特征向量,然后利用標(biāo)準(zhǔn)的異常檢測(cè)技術(shù)(如局部異常因素檢測(cè)、基于簇的異常檢測(cè))指派異常分?jǐn)?shù),基于這些異常分?jǐn)?shù)和所有鏈接的整體分布情況,能夠識(shí)別出不合理的鏈接。LI H等人[32]使用概率模型學(xué)習(xí)屬性之間的數(shù)學(xué)關(guān)系(如小于、大于),例如,一個(gè)人的出生日期必須在死亡日期之前。如果知識(shí)圖譜中有關(guān)系與這些關(guān)系不符,那么就說明該關(guān)系是錯(cuò)誤的。

3.2 知識(shí)圖譜錯(cuò)誤外部探測(cè)

    知識(shí)圖譜錯(cuò)誤外部探測(cè)就是除了利用知識(shí)圖譜本身外,還利用外部的資源來檢測(cè)錯(cuò)誤。外部探測(cè)方法主要集中在錯(cuò)誤關(guān)系探測(cè)和錯(cuò)誤文字值探測(cè)兩方面。所以,本小節(jié)將從這兩個(gè)方面進(jìn)行綜述。

3.2.1 錯(cuò)誤關(guān)系外部檢測(cè)

    錯(cuò)誤關(guān)系外部檢測(cè)就是除了利用知識(shí)圖譜本身外,還利用外部的資源來檢測(cè)錯(cuò)誤的實(shí)體間關(guān)系。其中, PAULHEIM H等人認(rèn)為在知識(shí)圖譜構(gòu)造過程中大量的錯(cuò)誤都是由一個(gè)共同的原因(如錯(cuò)誤的映射或程序錯(cuò)誤)造成的,因此,只需檢測(cè)少量的樣本,就會(huì)發(fā)現(xiàn)大量錯(cuò)誤的語句。于是他們提出了一種識(shí)別不一致性的自動(dòng)化聚類方法[33],該方法只需要給人提供代表性的樣本即可,從而解決了上述的規(guī)模問題。

3.2.2 錯(cuò)誤文字值外部檢測(cè)

    文獻(xiàn)[34]提出了一種使用知識(shí)圖譜鏈接探測(cè)錯(cuò)誤數(shù)字值的自動(dòng)方法,作者利用相同資源的鏈接和單個(gè)資源中屬性之間的不同匹配函數(shù)來識(shí)別錯(cuò)誤。他們認(rèn)為如果多個(gè)外部資源與知識(shí)圖譜中的一個(gè)事實(shí)發(fā)生沖突,那么就認(rèn)為該事實(shí)是錯(cuò)的。

4 討論

    通過文獻(xiàn)發(fā)現(xiàn),將知識(shí)圖譜精化方法分成知識(shí)圖譜補(bǔ)全和知識(shí)圖譜錯(cuò)誤探測(cè)兩大類是嚴(yán)謹(jǐn)?shù)?。因?yàn)槟壳盎静淮嬖谝粋€(gè)方法同時(shí)解決知識(shí)圖譜補(bǔ)全和知識(shí)圖譜錯(cuò)誤探測(cè)。唯一的例外是文獻(xiàn)[8],該文獻(xiàn)既能進(jìn)行知識(shí)圖譜補(bǔ)全又能進(jìn)行知識(shí)圖譜錯(cuò)誤探測(cè)。但它實(shí)際上是兩個(gè)方法,分別是SDType和SDValidate,因?yàn)檫@兩個(gè)方法不是一個(gè)整體,而是獨(dú)立存在的。其中SDType負(fù)責(zé)進(jìn)行補(bǔ)全,SDValidate負(fù)責(zé)進(jìn)行錯(cuò)誤探測(cè)。在知識(shí)圖譜精化方面,為什么大量的研究成果都只用在一個(gè)方面,這個(gè)原因還不太明確。但在客觀世界中,知識(shí)圖譜補(bǔ)全和知識(shí)圖譜錯(cuò)誤探測(cè)這兩個(gè)過程是相輔相成的。除了將補(bǔ)全和錯(cuò)誤檢測(cè)嚴(yán)格區(qū)別以外,還發(fā)現(xiàn)多數(shù)方法只能處理一種精化目標(biāo),同時(shí)處理多種精化目標(biāo)的方法相當(dāng)少。因此,將每類精化任務(wù)按照精化目標(biāo)進(jìn)行分類這也是嚴(yán)謹(jǐn)?shù)摹?/p>

    在知識(shí)圖譜補(bǔ)全方面,本文所介紹的方法都是對(duì)已有實(shí)體的類型或關(guān)系進(jìn)行補(bǔ)全。經(jīng)文獻(xiàn)分析,目前沒有方法能夠增加新的實(shí)體,這種實(shí)體集擴(kuò)展方法屬于NLP領(lǐng)域,但這種方法對(duì)于進(jìn)一步提高知識(shí)圖譜覆蓋率非常有用,尤其可以減少長(zhǎng)尾實(shí)體??梢姡芯吭黾有聦?shí)體的方法也將是知識(shí)圖譜精化的一個(gè)新方向。

    在知識(shí)圖譜錯(cuò)誤探測(cè)方面,所有方法都輸出一個(gè)潛在錯(cuò)誤的語句列表。但據(jù)筆者所知,只有文獻(xiàn)[33]能從錯(cuò)誤列表中發(fā)現(xiàn)知識(shí)圖譜模式的錯(cuò)誤。因?yàn)槟J绞侵R(shí)圖譜的一個(gè)基礎(chǔ)構(gòu)建,模式的錯(cuò)誤就會(huì)造成實(shí)體的關(guān)系錯(cuò)誤??梢姡綔y(cè)模式錯(cuò)誤也將是知識(shí)圖譜精化的一個(gè)新方向。

    在評(píng)價(jià)矩陣方面,發(fā)現(xiàn)大量的方法將正確率和召回率作為主要的評(píng)價(jià)矩陣,偶爾也有方法使用ROC曲線、精確率或均方根誤差;在評(píng)估方法方面,發(fā)現(xiàn)有一半以上的評(píng)估方法只使用DBpedia這樣一種知識(shí)圖譜,這樣的評(píng)估結(jié)果的作用非常有限。因?yàn)榇蠖鄶?shù)的研究只對(duì)特定的知識(shí)圖譜有用,但知識(shí)圖譜根據(jù)特征的不同而不同。因此,對(duì)于只用一種知識(shí)圖譜評(píng)估的方法來說,有以下問題值得研究:(1)能否在不用特征的知識(shí)圖譜上有同樣的性能;(2)在精化過程中是否用了知識(shí)圖譜本身的特征,如是否隱含地使用DBpedia實(shí)體和對(duì)應(yīng)的維基百科頁之間的鏈接;(3)是否過度擬合圖譜的特定特征。另外,還發(fā)現(xiàn)只有少數(shù)評(píng)價(jià)方法對(duì)計(jì)算性能進(jìn)行評(píng)估。但在大規(guī)模知識(shí)圖譜階段,計(jì)算性能這個(gè)指標(biāo)是一個(gè)不可忽視的維度。為了將來有一個(gè)可比較的知識(shí)圖譜評(píng)價(jià)方法,需要選一個(gè)既在數(shù)量上可比較、也在計(jì)算性能上可比較的基準(zhǔn)(benchmark)。目前這樣的研究工作在語義網(wǎng)絡(luò)的其他領(lǐng)域(如模式和實(shí)例匹配、推理和問答系統(tǒng))已經(jīng)開展??梢姡R(shí)圖譜精化的通用評(píng)價(jià)方法將是知識(shí)圖譜精化的另一個(gè)方向。

5 結(jié)論

    多年來,許多研究者提出了各種知識(shí)圖譜精化方法,取得了豐碩的研究成果。由此可以預(yù)見,知識(shí)圖譜精化研究將是一個(gè)有著非常廣闊研究前景的領(lǐng)域。

    本文對(duì)知識(shí)圖譜精化方法進(jìn)行了綜述。綜述結(jié)果表明,該分類標(biāo)準(zhǔn)是嚴(yán)謹(jǐn)?shù)摹VR(shí)圖譜精化涉及機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和NLP相關(guān)知識(shí)和技術(shù),是一個(gè)綜合的研究方向。幾乎沒有一個(gè)精化方法能同時(shí)提高知識(shí)圖譜的完備性和正確率,也沒有方法對(duì)多個(gè)精化目標(biāo)進(jìn)行精化,即還沒有一個(gè)改善知識(shí)圖譜質(zhì)量的整體解決方案。在評(píng)價(jià)方面,多數(shù)評(píng)價(jià)方法通常都是在一個(gè)特定的知識(shí)圖譜上進(jìn)行評(píng)價(jià),這使得難以對(duì)它們的性能進(jìn)行比較。

    綜上所述,雖然知識(shí)圖譜精化已經(jīng)取得了豐碩的研究成果,并且已成功應(yīng)用于許多領(lǐng)域,但仍然還不成熟,依然有很大的挑戰(zhàn)。將來可從以下幾個(gè)方面對(duì)知識(shí)圖譜精化進(jìn)行深入的研究:(1)改善知識(shí)圖譜質(zhì)量的整體解決方案;(2)知識(shí)圖譜擴(kuò)展性的研究;(3)知識(shí)圖譜通用的評(píng)價(jià);(4)未知領(lǐng)域知識(shí)圖譜的構(gòu)建。隨著大規(guī)模網(wǎng)絡(luò)知識(shí)圖譜的出現(xiàn),知識(shí)圖譜的擴(kuò)展和自動(dòng)化的知識(shí)圖譜精化將是該領(lǐng)域未來發(fā)展的趨勢(shì)。

參考文獻(xiàn)

[1] SINGHAL A.Introducing the knowledge graph:things,not strings[EB/OL].(2012-05-xx)[2018-02-12].https://goo-gleblog.blogs pot.com/2012/05/introduc-ing-knowledge-graph-things-not.html.

[2] BOLLACKER K,EVANS C,PARITOSH P,et al.Freebase:a collaboratively created graph database for structuring human knowledge[C].New York:ACM,2008:1247-1250.

[3] VRANDECIC D,KROTZSCH M.Wikidata:a free collaborative knowledge base[J].Communications of the ACM,2014,57(10):78-85.

[4] LEHMANN J,ISELE R,JAKOB M,et al.DBpedia-a large-scale,multilingual knowledge base extracted from Wikipedia[J].Semantic Web,2015,6(2):167-195.

[5] REBELE T,SUCHANEK F,HOFFART J,et al.YAGO:a multilingual knowledge base from Wikipedia,Wordnet,and Geonames[M].Berlin Heidelberg:Springer International Publishing,2016.

[6] GABRILOVICH E,USUNIER N.Constructing and mining web-scale knowledge graphs[C].New York:ACM,2016:1195-1197.

[7] PAULHEIM H,BIZER C.Type inference on noisy RDF data[M].West Berlin:Springer,2013.

[8] PAULHEIM H,BIZER C.Improving the quality of linked data using statistical distributions[J].International Journal onSemantic Web and Information Systems(IJSWIS),2014,10(2):63-86.

[9] KROMPAB D,NICKEL M,TRESP V.Large-scale factorization of type-constrained multi-relational data[C].New York:IEEE,2015:18-24.

[10] 張香玲,陳躍國,毛文祥,等.基于隨機(jī)游走的實(shí)體類型補(bǔ)全方法[J].計(jì)算機(jī)學(xué)報(bào),2017(10):2352-2366.

[11] SLEEMAN J,F(xiàn)ININ T,JOSHI A.Topic modeling for RDF graphs[EB/OL].(2015-01-01) [2018-02-12].http://ceur-ws.org/Vol-1467/LD4IE2015_Sleeman.pdf.

[12] PAULHEIM H.Browsing linked open data with auto com. plete[EB/OL].(2012-05-03)[2018-02-12].https://km.aifb.kit.edu/sites/swc/2012/submissions/swc2012_submis-sion_15.pdf.

[13] SOCHER R,CHEN D,MANNING C D,et al.Reasoning with neural tensor networks for knowledge base completion[C].Newry:Curran Associates,Inc.,2013:926–934. 

[14] BAIER S,TRESP V.Type-constrained representation learning in knowledge graphs[C].New York:Springer-Verlag,Inc.,2015:640-655.

[15] ZHAO Y,GAO S,GALLINARI P,et al.Knowledge base completion by learning pairwise-interaction differentiated embeddings[J].Data Mining & Knowledge Discovery,2015,29(5):1486-1504. 

[16] KIM J,KIM E K,WON Y,et al.The association rule mining system for acquiring knowledge of DBpedia from Wikipedia categories[EB/OL]. [2018-02-12].http://semanticweb.kaist.ac.kr/home/images/a/a8/The_Association_Rule_Mining_System_for_Acquiring_Knowledge_of_DBpedia_from_Wikipedia_Categories.pdf.

[17] KOLTHOFF C,DUTTA A.Semantic relation composition in large scale knowledge bases[EB/OL].(2015-08-01) [2018-02-12].https://ub-madoc.bib.uni-mannheim.de/39756/1/LD4IE2015_Kolthoff.pdf.

文獻(xiàn)[18]-[34]略




作者信息:

謝  剛1,2

(1.中國科學(xué)院自動(dòng)化所,北京100080;2.貴州師范大學(xué) 大數(shù)據(jù)與計(jì)算機(jī)科學(xué)學(xué)院,貴州 貴陽550001)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。