摘 要: 介紹了本體Ontology的概念和理論知識(shí),提出一種基于本體的Web 信息檢索模型。該模型利用本體技術(shù)對(duì) Internet 上的各類(lèi)信息進(jìn)行領(lǐng)域分類(lèi),規(guī)范用戶(hù)信息檢索模式,以達(dá)到快速、準(zhǔn)確找到用戶(hù)所需信息的目的。
關(guān)鍵詞:本體;信息檢索;知識(shí)檢索
隨著計(jì)算機(jī)的普及與Internet的快速發(fā)展,我們已經(jīng)進(jìn)入了網(wǎng)絡(luò)信息時(shí)代。信息的發(fā)布與共享不再受時(shí)空的限制,當(dāng)網(wǎng)絡(luò)規(guī)模越來(lái)越大,信息越來(lái)越多時(shí),信息的查找和獲取也變得越來(lái)越困難。面對(duì)龐大的信息資源,人們感到茫然,要在短時(shí)間內(nèi)找到符合自己要求的信息越來(lái)越困難。
如何迅速、高效地檢索和訪問(wèn)各領(lǐng)域的信息資源以促進(jìn)信息的交流與共享已經(jīng)成為一個(gè)急需解決的問(wèn)題。人們迫切需要高效、準(zhǔn)確的信息查找工具來(lái)快速定位自己感興趣的信息和知識(shí),現(xiàn)有的網(wǎng)絡(luò)信息檢索技術(shù)很難滿(mǎn)足這種要求,基于本體Ontology的Web信息檢索系統(tǒng)正逐漸成為當(dāng)前研究的熱點(diǎn)。
1 Ontology的基本概念
1.1 Ontology的定義
Ontology最早是一個(gè)哲學(xué)上的概念,是研究“存在”的理論。從西方哲學(xué)史來(lái)看,Ontology 是指關(guān)于存在及其本質(zhì)和規(guī)律的學(xué)說(shuō),是對(duì)客觀存在的一個(gè)系統(tǒng)的解釋或說(shuō)明,關(guān)心的是客觀現(xiàn)實(shí)的抽象。
Ontology的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞語(yǔ)和詞語(yǔ)間相互關(guān)系的明確定義。Ontology最為流行的定義是Studer在1998年提出的[1-2] :Ontology是共享概念模型的明確的形式化的規(guī)范說(shuō)明。它包含4層含義:概念模型、明確、形式化及共享。
1.2 Ontology的組織方式
在計(jì)算機(jī)領(lǐng)域,作為一種語(yǔ)義和知識(shí)層面上的概念模型,Ontology有其自身的結(jié)構(gòu),可以表示為[1-4] :本體(Ontology)=概念(Concept)+屬性(Property)+公理(Axiom)+取值(Value)+命名(Nominal)
Perez等人用分類(lèi)法組織了Ontology,定義了5個(gè)基本的建模元語(yǔ)(Modeling Primitives),其具體的描述表達(dá)意義如下:
(1)類(lèi)(Classes)或概念(Concepts):指任何事務(wù),例如工作描述、功能、行為、策略和推理過(guò)程。從語(yǔ)義上講,它表示的是對(duì)象的集合,其定義一般采用框架(Frame)結(jié)構(gòu),包括概念的名稱(chēng)、與其他概念之間的關(guān)系的集合以及用自然語(yǔ)言對(duì)概念的描述。
(4)公理(Axloms):代表永真斷言,如概念乙屬于概念甲的范圍。
(5)實(shí)例(Instances):代表元素。從語(yǔ)義上講實(shí)例表示的就是對(duì)象,是某個(gè)類(lèi)在現(xiàn)實(shí)世界中的具體反映。
2 Ontology的理論研究
Ontology在理論上主要研究如何合理地表示現(xiàn)實(shí)世界中的客觀概念與抽象知識(shí),包括概念和概念分類(lèi)、確定概念之間的關(guān)系類(lèi)型以及Ontology上的代數(shù)等。最值得一提的是Guarino等人對(duì)本體理論所作出的貢獻(xiàn)[3-4],他們對(duì)概念分類(lèi)做了深入細(xì)致的研究,從一般意義上分析了概念的定義、概念的特性、概念之間的關(guān)系以及概念的分類(lèi),并提出了一套用于指導(dǎo)概念分類(lèi)的可行理論。基于該理論,他們又提出了Ontology驅(qū)動(dòng)的建模方法,在理論上為建模提供了一個(gè)通用的模式。
本體的本質(zhì)是概念模型,表達(dá)的是概念及概念之間的關(guān)系。長(zhǎng)期以來(lái),本體應(yīng)用的一個(gè)常見(jiàn)問(wèn)題是分類(lèi)結(jié)構(gòu)不明確,沒(méi)有一個(gè)統(tǒng)一的分類(lèi)標(biāo)準(zhǔn)或分類(lèi)理論。不同的應(yīng)用從各自的角度出發(fā),無(wú)限制地使用包含關(guān)系對(duì)概念進(jìn)行各種分類(lèi),使得概念分類(lèi)的一致性和合理性難于得到控制。按照Guarino的觀點(diǎn),概念之間的差別不僅體現(xiàn)在概念的定義上,同時(shí)也體現(xiàn)在概念的某些特性上。從這些特性出發(fā),歸納出概念的元特性(最基本的特性),從而用公式給出元特性嚴(yán)格的形式定義。在此基礎(chǔ)上,又討論了元特性之間的關(guān)系和約束,最終把研究結(jié)果作為概念分類(lèi)的基本理論工具,并提出一套完整的概念分類(lèi)體系結(jié)構(gòu)[6-7]。
3 Ontology的實(shí)際應(yīng)用
20世紀(jì)90年代,知識(shí)表示、信息組織、軟件復(fù)用等方面的諸多問(wèn)題對(duì)信息科學(xué)工作者們提出了種種新的挑戰(zhàn)和課題。特別是由于因特網(wǎng)的迅猛發(fā)展,如何組織、管理和維護(hù)海量信息并為用戶(hù)提供有效的檢索服務(wù)成為一項(xiàng)重要而迫切的研究?jī)?nèi)容。為適應(yīng)這些要求,Ontology作為一種能在語(yǔ)義和知識(shí)層次上描述信息系統(tǒng)的概念模型建模工具,一經(jīng)提出便引起了國(guó)外眾多科研人員的關(guān)注,并在計(jì)算機(jī)的許多領(lǐng)域得到了廣泛應(yīng)用,如知識(shí)工程、數(shù)字圖書(shū)館、軟件復(fù)用、信息檢索、異構(gòu)信息處理及語(yǔ)義Web等。
3.1 Ontology在圖書(shū)信息檢索中的應(yīng)用
目前,信息檢索技術(shù)[5-7]可分為3類(lèi):全文檢索(text retrieval)、數(shù)據(jù)檢索(data retrieval)和知識(shí)檢索(knowledge retrieval)。全文檢索的特點(diǎn)是把用戶(hù)的查詢(xún)請(qǐng)求和全文中的每一個(gè)詞進(jìn)行比較,不考慮查詢(xún)請(qǐng)求與文件語(yǔ)義上的匹配,這種方式雖然可以保證查全率,卻大大地降低了查準(zhǔn)率。數(shù)據(jù)檢索的特點(diǎn)是查詢(xún)要求和信息系統(tǒng)中的數(shù)據(jù)都遵循一定的格式,具有一定的結(jié)構(gòu),允許對(duì)特定的字段進(jìn)行檢索。數(shù)據(jù)檢索需要有標(biāo)識(shí)字段的方法。檢索性能取決于所使用的標(biāo)識(shí)字段方法和用戶(hù)對(duì)這種方法的理解程度,因此具有很大的局限性。數(shù)據(jù)檢索支持語(yǔ)義匹配的能力也較差。知識(shí)檢索強(qiáng)調(diào)的是基于知識(shí)的語(yǔ)義上的匹配,因此在查準(zhǔn)率和查全率上有更好的保證。目前知識(shí)檢索已成為信息檢索研究的重點(diǎn),特別是面向 Web 信息的知識(shí)檢索。本文研究了基于本體的圖書(shū)資源查詢(xún)。
本文建立了一個(gè)圖書(shū)資源的本體圖,描述了圖書(shū)有關(guān)的概念和屬性,其中定義4類(lèi)資源對(duì)象,分別是圖書(shū)(book)、作者(author)、出版社(press)和編審(editor)。在資源對(duì)象的基礎(chǔ)上,還定義了4種對(duì)象屬性: 對(duì)象屬性creat描述了作者與圖書(shū)之間的寫(xiě)作關(guān)系,其定義域?yàn)樽髡哳?lèi),值域?yàn)閳D書(shū)類(lèi);對(duì)象屬性has_auther描述了論文所具有的作者,定義域是圖書(shū)類(lèi),值域?yàn)樽髡?;?lèi)對(duì)象屬性publish描述圖書(shū)與出版社之間的出版關(guān)系,其定義域?yàn)閳D書(shū)類(lèi),值域?yàn)槌霭嫔?;?lèi)對(duì)象屬性has_editor描述了圖書(shū)編審,它們描述的是圖書(shū)中包含的編審,其定義域?yàn)閳D書(shū)類(lèi),值域?yàn)榫帉忣?lèi)。此外,本體中還定義了各資源對(duì)象的數(shù)據(jù)屬性,具體含義分別如表1、表2、表3所示。
本體的結(jié)構(gòu)根據(jù)使用需要設(shè)定類(lèi)和屬性,并加上必要的約束,在實(shí)用過(guò)程中逐漸完善、改進(jìn),這是一個(gè)長(zhǎng)期的工作。根據(jù)前面研究的本體知識(shí),本文提出了如圖1所示的書(shū)信息資源的本體獲取模型。
該模型有圖書(shū)信息源選擇、概念抽取和關(guān)系學(xué)習(xí)階段,并從原始獲取和后天學(xué)習(xí)兩個(gè)層面完成圖書(shū)信息資源本體的構(gòu)建。
該圖書(shū)信息檢索從傳統(tǒng)的關(guān)鍵字層面提高到知識(shí)或語(yǔ)義層面上。語(yǔ)義萬(wàn)維網(wǎng)具有良好的概念層次和對(duì)邏輯推理的支持,現(xiàn)已被廣泛應(yīng)用于知識(shí)表達(dá)、知識(shí)共享及重用,其中建立圖書(shū)資源本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式[8-9]上給出這些詞匯術(shù)語(yǔ)和詞匯之間相互關(guān)系的明確定義,從而提高了圖書(shū)檢索的效率和準(zhǔn)確性,為用戶(hù)節(jié)省更多的時(shí)間。
參考文獻(xiàn)
[1] 劉升平,蘭煜峰,譯.OWL Web本體語(yǔ)言概述推薦標(biāo)準(zhǔn)(中文版)W3CHINA.ORG開(kāi)發(fā)翻譯計(jì)劃(OTP)[EB/OL].[2004-07-3].http://zh.transwiki.org/cn/owloverview.htm.
[2] 劉昕鵬.Ontology理論研究和應(yīng)用建模——Ontology研究綜述、w3c Ontology研究組文檔以及Jena編程應(yīng)用總結(jié)[EB/OL].http://bbs.xml.org.cn/viewfile.asp?ID=265.
[3] 李善平,尹奇,胡玉杰,等.本體論研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2004,41(7):1041-1052.
[4] 鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2002,6(5):34-36.
[5] VELARDI P, MISSIKOFF M, BASILI R. Identification of relevant terms to support the construction of domain ontologies[R]. Proc.of ACL-01 workshop on Human language Technologies, 2001.
[6] 高茂庭,王正歐. Ontology及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2003(S2):35-37.
[7] 汪鵬.Ontology知識(shí)表示的藝術(shù)[J].計(jì)算機(jī)教育,2004,3(7):45-47.
[8] 杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報(bào),2006,6(9):1837-1847.
[9] SMITH M K, WELTY C,MCGUINNESS D L. OWL Web ontology language guide recommendation[EB/OL]. http://www.w3.org/TR/2004/REC-owl-guide-20040210/.