《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于分簇的本體映射方法
基于分簇的本體映射方法
來(lái)源:微型機(jī)與應(yīng)用2013年第2期
熊 穎,李海波,李 靜
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門361021)
摘要: 為了能夠充分地挖掘、分享和重復(fù)利用本體中的知識(shí),提出一種基于映射關(guān)系的分簇方法,先通過(guò)已存在的高質(zhì)量的本體映射關(guān)系,對(duì)原本體和目標(biāo)本體分別進(jìn)行分簇,再挖掘出實(shí)體間潛在的關(guān)系。通過(guò)實(shí)驗(yàn)證明,采用改進(jìn)的映射方法提高了本體映射的質(zhì)量,采用具有完善實(shí)體關(guān)系的映射結(jié)果提高了檢索系統(tǒng)的準(zhǔn)確率和查全率。
Abstract:
Key words :

摘  要: 為了能夠充分地挖掘、分享和重復(fù)利用本體中的知識(shí),提出一種基于映射關(guān)系的分簇方法,先通過(guò)已存在的高質(zhì)量的本體映射關(guān)系,對(duì)原本體和目標(biāo)本體分別進(jìn)行分簇,再挖掘出實(shí)體間潛在的關(guān)系。通過(guò)實(shí)驗(yàn)證明,采用改進(jìn)的映射方法提高了本體映射的質(zhì)量,采用具有完善實(shí)體關(guān)系的映射結(jié)果提高了檢索系統(tǒng)的準(zhǔn)確率和查全率。
關(guān)鍵詞: 分簇;本體映射;實(shí)體關(guān)系發(fā)現(xiàn)

    隨著越來(lái)越多的本體被開發(fā),以及持續(xù)性和高效性的知識(shí)訪問(wèn)需求不斷提高,本體知識(shí)的充分挖掘、分享和重復(fù)利用已成為本體庫(kù)優(yōu)化的重要研究?jī)?nèi)容。由于本體的獨(dú)立開發(fā)性,導(dǎo)致在相同或者重疊領(lǐng)域本體中實(shí)體的定義和實(shí)體間的關(guān)系有所不同,即本體間的互操作性較低。本體映射已成為當(dāng)今本體研究中的熱點(diǎn),它是解決并促進(jìn)本體間互操作性問(wèn)題的重要方法。但是要更充分地挖掘、分享和重復(fù)利用本體知識(shí),該方法還需要不斷地改進(jìn)和優(yōu)化。本體映射過(guò)程中存在以下兩個(gè)問(wèn)題:
    (1)基于特征低相似性進(jìn)行本體映射的質(zhì)量不高。目前對(duì)語(yǔ)義、詞匯和結(jié)構(gòu)特性相似度較高的本體進(jìn)行映射,在一定范圍內(nèi)其映射質(zhì)量是較高的,但是大部分本體的建模粒度都不相同,導(dǎo)致本體中實(shí)體表示的詞匯和結(jié)構(gòu)特性都不相同,即本體中實(shí)體的特征相似度較低,所以采用基于詞匯和結(jié)構(gòu)特征的相似性進(jìn)行本體映射的質(zhì)量不高。
    (2)映射結(jié)果中實(shí)體關(guān)系不夠完善。目前大量本體映射方法在建立了本體映射關(guān)系后不會(huì)對(duì)實(shí)體關(guān)系進(jìn)行分析和處理,導(dǎo)致本體映射結(jié)果的實(shí)體關(guān)系不夠完善,應(yīng)用質(zhì)量較低。
1 相關(guān)工作
    目前大多數(shù)的本體映射方法(例如ASMOV[1-2]和RiMOM[3]等)是基于詞匯和結(jié)構(gòu)特征的相似性進(jìn)行本體映射的,在一定范圍內(nèi)映射質(zhì)量較高,但當(dāng)兩個(gè)本體的建模粒度不相同時(shí),采用基于這些特征相似性進(jìn)行本體映射的質(zhì)量就較低。例如,石灰在原本體中包括氧化鈣和氫氧化鈣,在目標(biāo)本體中包括煅燒石灰、熟石灰、石灰乳和消石灰,這兩個(gè)本體中用不同的術(shù)語(yǔ)描述相同的信息石灰,采用傳統(tǒng)的本體映射方法測(cè)量得到的映射準(zhǔn)確度低于1%,本體映射時(shí)就無(wú)法建立實(shí)體間高質(zhì)量的映射關(guān)系。為解決這一問(wèn)題,可以重復(fù)利用已存在的高質(zhì)量本體映射關(guān)系,提高本體映射的質(zhì)量。調(diào)查本體映射關(guān)系重復(fù)利用的目的在于利用多對(duì)一或者一對(duì)多的實(shí)體映射關(guān)系實(shí)現(xiàn)分簇的過(guò)程,從而獲取準(zhǔn)確的匹配信息。
    本文以最新的ASMOV映射系統(tǒng)[4]為基礎(chǔ)。它是一種半自動(dòng)化本體映射過(guò)程,聯(lián)合了元素級(jí)和結(jié)構(gòu)級(jí)的相似度測(cè)量,使用本體中四種不同特征相似度的加權(quán)平均值作為實(shí)體間的總相似度,采用了語(yǔ)義驗(yàn)證要求遵守的規(guī)則來(lái)判斷是否建立映射鏈接的技術(shù),以確保建立的映射鏈接不包含語(yǔ)義矛盾,但是其映射匹配的準(zhǔn)確率和查全率還有待提高。針對(duì)本體映射過(guò)程中存在的問(wèn)題以及ASMOV在映射匹配質(zhì)量方面的不足,提出了一種基于分簇的本體映射方法OMMC(Ontology Mapping Method based on Clumping),該方法有助于建立本體間高質(zhì)量的映射關(guān)系,通過(guò)高質(zhì)量的映射關(guān)系再進(jìn)行實(shí)體間關(guān)系的再發(fā)現(xiàn),從而提高了本體映射的應(yīng)用質(zhì)量。
2 基于分簇的本體映射
    基于分簇的本體映射的流程是:先將原本體和目標(biāo)本體分別進(jìn)行分簇,再將分簇后的原本體和目標(biāo)本體應(yīng)用于ASMOV映射系統(tǒng)中的本體映射,主要包括分簇和建立映射鏈接兩個(gè)模塊。
2.1 分簇
    定義1  簇。利用已存在的高質(zhì)量的本體映射關(guān)系,在多對(duì)一的映射場(chǎng)景下,一個(gè)本體O中的多個(gè)實(shí)體和另一個(gè)本體中的相同實(shí)體匹配,則將這多個(gè)實(shí)體看做是一個(gè)簇,本體O可劃分為多個(gè)簇。
   
    對(duì)原本體和目標(biāo)本體分別進(jìn)行分簇,原本體和目標(biāo)本體都被劃分為多個(gè)簇,得到一個(gè)原本體的劃分和一個(gè)目標(biāo)本體的劃分。以農(nóng)業(yè)領(lǐng)域的本體S和本體T為例,原本體S是PWP(Prism Web Pages)定義的一個(gè)中文本體,包含1 028個(gè)實(shí)體,S和本體PWP1已存在本體映射關(guān)系,通過(guò)它們之間的映射關(guān)系進(jìn)行分簇,可將S劃分為196個(gè)簇,S中一個(gè)簇的映射關(guān)系如表1所示;目標(biāo)本體T是FAO(Food and Agriculture Organization)定義的一個(gè)中文本體,包含2 420個(gè)實(shí)體,T和本體FAO1已存在本體映射關(guān)系,通過(guò)它們之間的映射關(guān)系進(jìn)行分簇,將T劃分為357個(gè)簇,T中一個(gè)簇的映射關(guān)系如表2所示。
2.2 建立映射鏈接
    對(duì)原本體S和目標(biāo)本體T分別進(jìn)行分簇,得到了兩個(gè)穩(wěn)定性劃分PS和PT后,直接進(jìn)入本體映射匹配階段,在ASMOV系統(tǒng)中,對(duì)本體S和目標(biāo)本體T采用OMMC方法進(jìn)行映射的過(guò)程如圖1所示。

 

 

    本體映射的核心模塊是相似度計(jì)算,改進(jìn)的ASMOV映射過(guò)程在相似度計(jì)算時(shí)要優(yōu)先考慮在一個(gè)簇中的實(shí)

    運(yùn)行改進(jìn)后的ASMOV系統(tǒng)步驟如下:
    (1)數(shù)據(jù)準(zhǔn)備。準(zhǔn)備好已經(jīng)分簇的原本體和目標(biāo)本體。
    (2)預(yù)處理階段進(jìn)行詞匯匹配。利用一個(gè)詞庫(kù)來(lái)計(jì)算概念、屬性和個(gè)體的詞匯相似度。
    (3)進(jìn)行相似度計(jì)算。包括外部關(guān)系、內(nèi)部匹配和個(gè)體匹配相似度的計(jì)算,并將計(jì)算結(jié)果放入相似度矩陣中。
    (4)從相似矩陣中提取兩個(gè)本體中相似度最高的匹配對(duì)實(shí)體集,依據(jù)這些實(shí)體集找到對(duì)應(yīng)的簇,建立簇中實(shí)體間多對(duì)多的映射關(guān)系,并放入預(yù)映射模塊中。
    (5)對(duì)預(yù)映射模塊中的映射關(guān)系集進(jìn)行語(yǔ)義驗(yàn)證,即通過(guò)一些已定義的規(guī)則進(jìn)行驗(yàn)證并修剪無(wú)效的映射關(guān)系,且將連接無(wú)效映射關(guān)系的實(shí)體間相似度置零。循環(huán)執(zhí)行步驟(3)~步驟(5),直到本體S或T中所有簇都執(zhí)行一遍迭代過(guò)程。
    (6)提取最終的本體映射關(guān)系。
3 實(shí)體關(guān)系的再發(fā)現(xiàn)
    在建立了高質(zhì)量的本體映射關(guān)系后,連接每一條映射關(guān)系的兩個(gè)實(shí)體間都可發(fā)現(xiàn)新的關(guān)系,主要包括父類關(guān)系發(fā)現(xiàn)、子類關(guān)系發(fā)現(xiàn)和等價(jià)類關(guān)系發(fā)現(xiàn)。
    規(guī)則1  父類關(guān)系發(fā)現(xiàn)是指若連接一條映射關(guān)系的兩個(gè)實(shí)體的父類不同,那么這兩個(gè)實(shí)體的父類可以合并,同時(shí)對(duì)合并后的父類消除重復(fù),最后這兩個(gè)實(shí)體得到了相同的新的父類集合,依此類推應(yīng)用于每一條映射關(guān)系中。如圖2所示,建立實(shí)體C4和實(shí)體E2的映射關(guān)系以后,C4和E2的父類都為C1和E1,若C1與E1重復(fù),那么去除重復(fù)后C4和E2的父類都為C1或者E1。

    規(guī)則2  子類關(guān)系發(fā)現(xiàn)是指若連接一條映射關(guān)系的兩個(gè)實(shí)體的子類不同,那么這兩個(gè)實(shí)體的子類可以合并,同時(shí)對(duì)合并后的子類消除重復(fù),最后這兩個(gè)實(shí)體得到了相同的新的子類集合,依此類推應(yīng)用于每一條映射關(guān)系中。如圖3所示,建立C4和E2的映射關(guān)系以后,C4和E2的子類都為C5、C6、C7和E4,若E4與C5、C6和C7其中一個(gè)重復(fù),那么去除重復(fù)后C4和E2的子類都為C5、C6和C7。

    在合并父類、子類及等價(jià)類關(guān)系時(shí),以T為目標(biāo),且需互相說(shuō)明彼此之間的關(guān)系,如果發(fā)生沖突,則調(diào)用以下沖突處理規(guī)則進(jìn)行解決。
    規(guī)則 4  類層次結(jié)構(gòu)沖突處理[6]。以目標(biāo)本體中類層次結(jié)構(gòu)為基準(zhǔn),刪除原本體的沖突結(jié)構(gòu),保證關(guān)系合并中類層次結(jié)構(gòu)的完整性。例如在本體S中的C2和C3是等價(jià)類,在本體T中的E1是E2的父類,若C2和E1建立了映射關(guān)系,C3和E2建立了映射關(guān)系,則先合并E2,然后合并E1,本體中C2和C3既是父子關(guān)系又是等價(jià)關(guān)系,此時(shí)就存在類層次沖突問(wèn)題,以本體T層次結(jié)構(gòu)為基準(zhǔn),把C2和C3的等價(jià)類關(guān)系刪除。
4 實(shí)驗(yàn)評(píng)估
4.1 改進(jìn)ASMOV前后映射質(zhì)量比較實(shí)驗(yàn)

    在ASMOV的測(cè)試場(chǎng)景中,逐步對(duì)本體S和本體T進(jìn)行映射檢測(cè),獲取的參數(shù)包括標(biāo)準(zhǔn)配對(duì)數(shù)x、配對(duì)總數(shù)量n和配對(duì)總數(shù)n中準(zhǔn)確的配對(duì)數(shù)r,通過(guò)獲取的參數(shù)值來(lái)計(jì)算匹配的準(zhǔn)確率P和查全率R,其計(jì)算公式為P=r/n和R=r/x。經(jīng)過(guò)多次測(cè)試改進(jìn)前后的方法,證明采用OMMC方法得到的映射匹配質(zhì)量均明顯提高,相對(duì)于傳統(tǒng)方法,在相同條件下采用OMMC方法使得匹配的準(zhǔn)確率和查全率均提高了約0.2。比較結(jié)果如表3和圖5所示。

4.2 關(guān)系再發(fā)現(xiàn)前后映射結(jié)果應(yīng)用的質(zhì)量比較實(shí)驗(yàn)
    本文提出的分簇方法是在已存在的高質(zhì)量的本體映射關(guān)系中發(fā)現(xiàn)本體內(nèi)部結(jié)構(gòu),即將本體劃分為若干個(gè)簇。在映射匹配時(shí)采用以簇為單位替換以實(shí)體為單位的ASMOV方法,建立高質(zhì)量的本體映射關(guān)系,然后對(duì)實(shí)體關(guān)系進(jìn)行再發(fā)現(xiàn),完善了映射結(jié)果的實(shí)體關(guān)系。將實(shí)體關(guān)系完善前后的映射結(jié)果應(yīng)用于海量農(nóng)業(yè)信息語(yǔ)義檢索系統(tǒng)中,用多組請(qǐng)求信息分別進(jìn)行檢索,比較檢索結(jié)果的準(zhǔn)確率和查全率。
    海量農(nóng)業(yè)信息語(yǔ)義檢索系統(tǒng)總體框架主要包括本體管理、數(shù)據(jù)獲取、請(qǐng)求管理、請(qǐng)求信息匹配、海量農(nóng)業(yè)信息處理及語(yǔ)義請(qǐng)求客戶端6個(gè)部分。通過(guò)網(wǎng)絡(luò)爬蟲工具采集海量農(nóng)業(yè)信息,并對(duì)爬下的網(wǎng)頁(yè)進(jìn)行信息的抽取和整理,抽取和整理后的網(wǎng)頁(yè)可保存在海量農(nóng)業(yè)信息數(shù)據(jù)庫(kù)中作為檢索時(shí)的資源庫(kù)。為使實(shí)驗(yàn)?zāi)軌蚋鼫?zhǔn)確和更快速得出結(jié)論,選擇了整理好的10萬(wàn)個(gè)網(wǎng)頁(yè)作為資源庫(kù),運(yùn)用該系統(tǒng)進(jìn)行實(shí)驗(yàn)的具體步驟如下:
    (1)清除本體庫(kù)中已經(jīng)存在的本體信息,將本體及映射結(jié)果添加到本體庫(kù)中。
    (2)將本體庫(kù)中的本體信息與海量農(nóng)業(yè)信息相關(guān)聯(lián),即運(yùn)行信息標(biāo)注與詞頻計(jì)算、倒排表建立和農(nóng)業(yè)信息聚類3個(gè)模塊,并將關(guān)聯(lián)信息存入海量農(nóng)業(yè)信息數(shù)據(jù)庫(kù)中。
    (3)通過(guò)配置文件管理接口設(shè)置配置文件信息,如本體庫(kù)中等價(jià)類、父類和子類各自所占的權(quán)重等。
    (4)啟動(dòng)系統(tǒng)服務(wù)器,在用戶檢索接口輸入用戶需要檢索的信息。
    (5)計(jì)算檢索結(jié)果的準(zhǔn)確率和查全率。
    在建立高質(zhì)量的本體映射鏈接后得到映射結(jié)果M1,在完善映射結(jié)果M1中的實(shí)體關(guān)系后得到映射結(jié)果M2,將M1和M2分別應(yīng)用于海量農(nóng)業(yè)信息語(yǔ)義檢索系統(tǒng)中,運(yùn)行該系統(tǒng)進(jìn)行實(shí)驗(yàn),輸入多組檢索數(shù)據(jù),計(jì)算檢索結(jié)果的準(zhǔn)確率和查全率,如圖6所示。通過(guò)比較分析可知,對(duì)采用了M2的系統(tǒng)進(jìn)行檢索,得到了較高的準(zhǔn)確率和查全率,從而表明了完善映射結(jié)果中的實(shí)體關(guān)系對(duì)本體映射應(yīng)用的重要性。

     本文提出一種基于映射關(guān)系的分簇方法,首先通過(guò)各自已有的映射關(guān)系,對(duì)原本體和目標(biāo)本體分別進(jìn)行分簇,再采用改進(jìn)的ASMOV映射系統(tǒng),建立高質(zhì)量的映射關(guān)系,并完善實(shí)體間的關(guān)系。通過(guò)對(duì)比采用OMMC方法和傳統(tǒng)方法的ASMOV系統(tǒng)的映射質(zhì)量,可知采用OMMC方法具有一定的優(yōu)越性,即匹配結(jié)果更準(zhǔn)確和全面;通過(guò)對(duì)比完善實(shí)體關(guān)系前后本體映射結(jié)果應(yīng)用的質(zhì)量,可知完善了實(shí)體關(guān)系的映射結(jié)果應(yīng)用于檢索系統(tǒng)中,提高了檢索系統(tǒng)的準(zhǔn)確率和查全率。
參考文獻(xiàn)
[1] Jérme Euzenat,MEILICKE C,STUCKENSCHMIDT H,et al.Ontology alignment evaluation initiative:six years of experience[C].Proceedings of the Journal on Data Semantics  XV.Berlin Heidelberg:Springer,2011:158-192.
[2] JEAN-MARY Y R,SHIRONOSHITA E P,KABUKA M R. Ontology matching with semantic verification[J].Web  Semantics,2009,7(3):235-251.
[3] Wang Zhichun,Zhang Xiao,Hou Lei,et al.RiMOM results for OAEI 2010[C].Proceedings of the 5th International  Workshop on Ontology Matching(OM-2010) collocated with  the 9th International Semantic Web Conference(ISWC-2010).Shanghai:CEUR-WS,2010:195-202.
[4] ASMOV Results for OAEI 2007[EB/OL].[2012-06-30].http://ftp.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-304/paper12.pdf,2007.
[5] 張釙.基于語(yǔ)義的網(wǎng)絡(luò)服務(wù)匹配機(jī)制的研究與實(shí)現(xiàn)[D]. 北京:清華大學(xué),2005.
[6] 羅正海.面向語(yǔ)義Web服務(wù)的本體合并研究[D].大連:大連海事大學(xué),2009.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。