《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 基于本體的農(nóng)業(yè)數(shù)據(jù)語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)技術(shù)
基于本體的農(nóng)業(yè)數(shù)據(jù)語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)技術(shù)
來(lái)源:微型機(jī)與應(yīng)用2012年第19期
徐曉文,陳維斌,李海波
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門(mén) 361000)
摘要: 提出了基于本體的語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)模型,通過(guò)解析構(gòu)建的農(nóng)業(yè)領(lǐng)域本體,從本體語(yǔ)義路徑的深度廣度方面計(jì)算概念間相關(guān)度,并將計(jì)算的結(jié)果擴(kuò)充語(yǔ)義知識(shí)庫(kù)。在農(nóng)業(yè)領(lǐng)域模型中關(guān)聯(lián)發(fā)現(xiàn)算法的應(yīng)用與傳統(tǒng)的方法相比,結(jié)果更符合領(lǐng)域相關(guān)性。依據(jù)關(guān)聯(lián)發(fā)現(xiàn)模型設(shè)計(jì)了一個(gè)茶葉語(yǔ)義檢索系統(tǒng),實(shí)驗(yàn)驗(yàn)證了該提出的模型的實(shí)用性和可行性。
Abstract:
Key words :

摘  要: 提出了基于本體的語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)模型,通過(guò)解析構(gòu)建的農(nóng)業(yè)領(lǐng)域本體,從本體語(yǔ)義路徑的深度廣度方面計(jì)算概念間相關(guān)度,并將計(jì)算的結(jié)果擴(kuò)充語(yǔ)義知識(shí)庫(kù)。在農(nóng)業(yè)領(lǐng)域模型中關(guān)聯(lián)發(fā)現(xiàn)算法的應(yīng)用與傳統(tǒng)的方法相比,結(jié)果更符合領(lǐng)域相關(guān)性。依據(jù)關(guān)聯(lián)發(fā)現(xiàn)模型設(shè)計(jì)了一個(gè)茶葉語(yǔ)義檢索系統(tǒng),實(shí)驗(yàn)驗(yàn)證了該提出的模型的實(shí)用性和可行性。
關(guān)鍵詞: 本體;關(guān)聯(lián)發(fā)現(xiàn);語(yǔ)義檢索;相關(guān)度;檢索概念

 傳統(tǒng)的檢索大都是基于關(guān)鍵字的檢索,這種檢索只是在字面匹配上處理,不能充分表達(dá)語(yǔ)義信息,用戶(hù)的滿(mǎn)意度不高。針對(duì)這些問(wèn)題,國(guó)內(nèi)外一些學(xué)者提出采用語(yǔ)義檢索的方法來(lái)解決。劉群等人提出對(duì)董振東先生創(chuàng)建的《知網(wǎng)》的研究,將每個(gè)詞的語(yǔ)義用多維義原表示,從義原相似度的角度出發(fā)解決詞語(yǔ)間相似性和相關(guān)性[1];翟裕忠等人在語(yǔ)義網(wǎng)檢索方面開(kāi)展了研究工作,開(kāi)發(fā)了一個(gè)面向領(lǐng)域的語(yǔ)義搜索系統(tǒng),該系統(tǒng)采用基于圖的查詢(xún)機(jī)制檢索出與被檢概念相關(guān)聯(lián)的語(yǔ)義對(duì)象列表[2];田萱等人設(shè)計(jì)了一種計(jì)算語(yǔ)義相關(guān)度的模型,采用權(quán)重的思想描述概念間的聯(lián)系程度,通過(guò)在不同領(lǐng)域本體中的實(shí)驗(yàn)證明,語(yǔ)義相關(guān)度計(jì)算在查詢(xún)擴(kuò)展方面有顯著優(yōu)點(diǎn)[3]。國(guó)內(nèi)外對(duì)語(yǔ)義檢索及語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)技術(shù)的研究已逐步預(yù)熱。本文主要研究基于農(nóng)業(yè)本體的語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)技術(shù),從領(lǐng)域本體的角度出發(fā),融入關(guān)聯(lián)關(guān)系發(fā)現(xiàn)算法,實(shí)現(xiàn)較普通檢索更合理的語(yǔ)義關(guān)聯(lián)檢索。
1 語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)技術(shù)相關(guān)理論
1.1 本體

 本體(ontology)源自哲學(xué)上的一個(gè)概念,關(guān)注的是存在的本質(zhì)。斯坦福大學(xué)的 Gruber最早給出本體的定義:“本體是大多數(shù)人認(rèn)同、對(duì)概念體系的明確的、形式化的規(guī)范說(shuō)明”[4]。W3C推薦的OWL語(yǔ)言(Web Ontology Language,Web 本體語(yǔ)言)是用戶(hù)可清晰編寫(xiě)、機(jī)器可理解的、用于描述本體的形式化語(yǔ)言。
本文結(jié)合斯坦福大學(xué)提出的七步法[5]和農(nóng)業(yè)情報(bào)部編制的《農(nóng)業(yè)科學(xué)敘詞表》,對(duì)農(nóng)業(yè)領(lǐng)域本體的構(gòu)建過(guò)程描述如下:
?。?)確定研究領(lǐng)域?yàn)檗r(nóng)業(yè),根據(jù)《農(nóng)表》中的敘詞及關(guān)系描述,抽取類(lèi)及子類(lèi);
?。?)定義類(lèi)間的等同、等級(jí)和相關(guān)關(guān)系;
?。?)定義類(lèi)的屬性和屬性類(lèi)型等;
?。?)采用 OWL 語(yǔ)言描述本體。
1.2 語(yǔ)義相關(guān)
 基于本體的概念間的語(yǔ)義關(guān)系主要分為3種:父子關(guān)系、相等關(guān)系和相關(guān)關(guān)系。對(duì)于前2種關(guān)系,在構(gòu)建本體的時(shí)候就可以定義;對(duì)于第3種關(guān)系,根據(jù)關(guān)聯(lián)的緊密程度,又分為直接相關(guān)和間接相關(guān)。直接相關(guān)指本體中直接定義了概念間的關(guān)系,沒(méi)有經(jīng)過(guò)任何其他的概念;間接相關(guān)指某兩概念在本體中雖然沒(méi)有直接定義關(guān)系,卻通過(guò)其他概念產(chǎn)生了關(guān)聯(lián)。如在農(nóng)業(yè)本體中,“茶”和“肥料”是其中定義的相關(guān)的兩概念,“茶”和“產(chǎn)量”也是其中定義的相關(guān)的兩概念,依據(jù)間接相關(guān),“肥料”和“產(chǎn)量”也是相互關(guān)聯(lián)的。
 本文引用語(yǔ)義相關(guān)度來(lái)衡量概念之間的關(guān)聯(lián)度。定義若兩個(gè)概念沒(méi)有任何關(guān)聯(lián),則其語(yǔ)義相關(guān)度為0;反之若兩個(gè)概念是完全相關(guān)的,則其語(yǔ)義相關(guān)度為1;若兩個(gè)概念存在一定的聯(lián)系,但聯(lián)系程度是未知的,定義其相關(guān)度的取值范圍為(0,1)。
2 基于本體的語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)技術(shù)
 語(yǔ)義檢索的目標(biāo)在于關(guān)聯(lián)發(fā)現(xiàn),即從語(yǔ)義的角度發(fā)現(xiàn)與檢索概念相關(guān)的概念。本文在傳統(tǒng)檢索模型的基礎(chǔ)上,以語(yǔ)義相關(guān)度作為概念間相互關(guān)系的度量,提出了基于本體的語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)模型。該模型依據(jù)語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)算法發(fā)現(xiàn)相關(guān)概念,返回一系列滿(mǎn)足條件的結(jié)果。

 


 語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)算法處理步驟如下:
 步驟(1):輸入檢索概念A(yù);
 步驟(2):根據(jù)領(lǐng)域?qū)<叶x的領(lǐng)域知識(shí)庫(kù),得出與概念A(yù)直接相關(guān)的概念BList,及相關(guān)度BValueList;
 步驟(3):以檢索到的概念BList為檢索條件,繼續(xù)查詢(xún)知識(shí)庫(kù),得到與BList有關(guān)的概念CList,及相關(guān)度CValueList;
 步驟(4):根據(jù)間接語(yǔ)義相關(guān)度計(jì)算方法,得出與檢索概念A(yù)有關(guān)的間接相關(guān)概念CList并計(jì)算修正相關(guān)度CValueList;
 步驟(5):查看是否有已知概念或參照概念,若有則輸入已知概念D,若無(wú)則跳入步驟(8);
 步驟(6):由專(zhuān)家知識(shí)庫(kù),計(jì)算概念A(yù)、D的相關(guān)度大小DValue;
 步驟(7):采用間接相關(guān)度計(jì)算方法得出在概念D為參照的前提下,與檢索概念A(yù)相關(guān)的概念DList,并將DList加入CList中,修正其參照后的相關(guān)度CValueList;
 步驟(8):歸一處理BValueList、CValueList與檢索概念A(yù)的相關(guān)度;
 步驟(9):由排序函數(shù)將相關(guān)概念按照相關(guān)度從大到小的順序輸出。
2.3 算法性能與實(shí)驗(yàn)結(jié)果比較
 本文根據(jù)1.1節(jié)的方法構(gòu)建了茶葉領(lǐng)域本體。選取朱禮軍提出的路徑距離計(jì)算方法(見(jiàn)式(1),簡(jiǎn)稱(chēng)朱禮軍法)、Rocha提出的方法(見(jiàn)式(2),簡(jiǎn)稱(chēng)Rocha法)進(jìn)行實(shí)驗(yàn)參照對(duì)比。挑選10對(duì)概念,分別計(jì)算這10對(duì)概念的相關(guān)度,并將計(jì)算結(jié)果與傳統(tǒng)的語(yǔ)義相關(guān)度計(jì)算方法比較,結(jié)果如圖2所示。

 通過(guò)圖2在茶葉知識(shí)庫(kù)中三種方法對(duì)以“產(chǎn)量”為檢索目標(biāo)的與其相關(guān)的一系列相關(guān)概念的對(duì)比發(fā)現(xiàn),朱禮軍法和Rocha法除了圖表中列出的相關(guān)概念外,不能檢索出其他的相關(guān)概念,而本文方法還能檢索出1.65%的其他概念,因此,本文方法在發(fā)現(xiàn)隱含資源方面,比傳統(tǒng)方法有很大改進(jìn)。
 觀(guān)察圖2數(shù)據(jù),本文方法與朱禮軍法和Rocha法計(jì)算出的茶葉“產(chǎn)量”與“色澤”的相關(guān)度存在明顯差異,它們計(jì)算出來(lái)的這個(gè)值均是與“產(chǎn)量”相關(guān)的最大值,這是有悖于專(zhuān)家經(jīng)驗(yàn)的,且它們?cè)诰C合計(jì)算與“產(chǎn)量”相關(guān)的概念時(shí),除了“色澤”(與常理相悖的誤差結(jié)果),其他結(jié)果均無(wú)明顯的差異,沒(méi)有關(guān)系的權(quán)重的分配。在經(jīng)驗(yàn)知識(shí)中,茶葉的“產(chǎn)量”與“水”存在很大關(guān)聯(lián),從數(shù)據(jù)對(duì)比顯示說(shuō)明本文方法計(jì)算出的結(jié)果不僅符合專(zhuān)家經(jīng)驗(yàn),而且各個(gè)相關(guān)值權(quán)重分配清晰明顯。由結(jié)果可知,該方法符合領(lǐng)域相關(guān)性,計(jì)算得出的結(jié)果可用于完善領(lǐng)域知識(shí)庫(kù)。
3 茶葉語(yǔ)義檢索原型系統(tǒng)的實(shí)現(xiàn)
3.1系統(tǒng)結(jié)構(gòu)模型設(shè)計(jì)

 采用MVC(Model View Controller)設(shè)計(jì)模型的思想,將系統(tǒng)分為三層,分別為模型層、表現(xiàn)層和邏輯層。模型層是數(shù)據(jù)模型,包含本體知識(shí)庫(kù)和用戶(hù)信息庫(kù);表現(xiàn)層包含用戶(hù)注冊(cè)登錄模塊和檢索結(jié)果的展示模塊;運(yùn)行層包含本體解析模塊、關(guān)鍵詞匹配模塊以及語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)模塊。
3.2 系統(tǒng)運(yùn)行結(jié)果
 采用Java語(yǔ)言實(shí)現(xiàn),調(diào)用開(kāi)源工具包jena,對(duì)owl語(yǔ)言描述的本體進(jìn)行語(yǔ)義計(jì)算,檢索系統(tǒng)如下。輸入查詢(xún)請(qǐng)求Q:產(chǎn)量,如圖3所示。

 采用排序函數(shù)S(q,o)輸出與檢索概念“產(chǎn)量”相關(guān)的概念,如圖4所示。得出的結(jié)果是在茶葉領(lǐng)域,與“產(chǎn)量”相關(guān)的按照從大到小的順序排列的一些概念及對(duì)應(yīng)的相關(guān)度大小。結(jié)果表明,該語(yǔ)義檢索系統(tǒng)能夠?qū)⒄Z(yǔ)義檢索融入到語(yǔ)義Web的實(shí)際應(yīng)用系統(tǒng)中,為各自的領(lǐng)域活動(dòng)進(jìn)行指導(dǎo)作用。
 本文從本體語(yǔ)義深度及廣度方面,提出了基于本體的語(yǔ)義關(guān)聯(lián)發(fā)現(xiàn)模型,并將此模型應(yīng)用于農(nóng)業(yè)領(lǐng)域檢索,改進(jìn)了語(yǔ)義相關(guān)度計(jì)算方法。實(shí)驗(yàn)數(shù)據(jù)表明,新模型得到的結(jié)果與傳統(tǒng)的計(jì)算相關(guān)度的方法得到的結(jié)果相比,更符合人們對(duì)領(lǐng)域的認(rèn)識(shí),結(jié)果更合理。但是還存在一些不足,如檢索效率的提高和智能問(wèn)答如何實(shí)現(xiàn)等,這些不足有待在后續(xù)工作中得到改進(jìn)。
參考文獻(xiàn)
[1] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].中文計(jì)算語(yǔ)言學(xué),2002,7(2):59-76.
[2] 李景,孟憲學(xué),蘇曉路. 領(lǐng)域本體的構(gòu)建方法與應(yīng)用研究[M].北京:中國(guó)農(nóng)業(yè)科學(xué)技術(shù)出版社,2009.
[3] TIAN X, DU X, LI H. Computing degree of association based on different semantic relationships[C]. Database and Expert Systems Applications of 2007. DEXA 07.18th International Workshop. IEEE Press,2007.
[4] GRUBER T R. Toward principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human Computer Studies,1995,43(5):907-928.
[5] NOY N F, MCGUINNESS D L. Ontology development 101: A guide to creating your first ontology[C]. Standford Knowledge Systems Laboratory Technical report KSL-01-05 and Standford Medical Informatics Technical Seport SMI-2001-0880,March 2001.
[6] 朱禮軍,陶蘭,劉慧. 領(lǐng)域本體中的概念相似度計(jì)算[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版).2004,32(11):148-149.
[7] ROCHA C, SCHWABE D, ARAGAO M P. A hybrid approach for searching in the semantic web[C]. Proceedings of the 13th International Conference on World Wide Web. ACM, 2004.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。