摘 要: 為了解決環(huán)保部門多源數(shù)據(jù)的語(yǔ)義異構(gòu)問題,研究了各領(lǐng)域本體構(gòu)建思路與方法,結(jié)合環(huán)保領(lǐng)域的實(shí)際特點(diǎn),提出了一種環(huán)保領(lǐng)域本體構(gòu)建方法。以建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息為例,在領(lǐng)域?qū)<規(guī)椭拢敿?xì)描述了其本體的構(gòu)建流程及其本體模型,為環(huán)保領(lǐng)域應(yīng)用研究奠定了基礎(chǔ)。
關(guān)鍵詞: 環(huán)保;領(lǐng)域本體構(gòu)建;建設(shè)項(xiàng)目環(huán)評(píng)
0 引言
環(huán)保部門為了加強(qiáng)對(duì)環(huán)境的管理,提高辦事效率,需要對(duì)不同應(yīng)用系統(tǒng)的各種業(yè)務(wù)數(shù)據(jù)進(jìn)行集成。然而,不同數(shù)據(jù)源的數(shù)據(jù)在語(yǔ)義上往往存在較大的異構(gòu)性,造成數(shù)據(jù)難以集成。本體既能準(zhǔn)確地描述概念的含義又能描述概念之間的內(nèi)在關(guān)聯(lián),并通過(guò)邏輯推理獲取概念之間蘊(yùn)涵的關(guān)系,具有很強(qiáng)的表達(dá)概念語(yǔ)義和獲取知識(shí)的能力,因此逐漸應(yīng)用于各種數(shù)據(jù)集成系統(tǒng)中。
研究基于本體的數(shù)據(jù)集成首先要研究本體的構(gòu)建,本體構(gòu)建質(zhì)量的好壞決定集成系統(tǒng)的運(yùn)行效果。本文在研究各領(lǐng)域本體構(gòu)建的基礎(chǔ)上,通過(guò)了解環(huán)保領(lǐng)域知識(shí),提出一種環(huán)保領(lǐng)域本體的構(gòu)建思路與方法,并且嘗試構(gòu)建建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息本體,為環(huán)保領(lǐng)域本體的構(gòu)建及以后基于本體的數(shù)據(jù)集成奠定基礎(chǔ)。
1 本體理論概述
1.1 本體
本體起源于哲學(xué),是對(duì)世界上客觀存在物的系統(tǒng)描述,后來(lái),本體在人工智能、知識(shí)工程、信息系統(tǒng)等諸多領(lǐng)域得到了發(fā)展和應(yīng)用。不同領(lǐng)域的研究者對(duì)本體的定義不同,引用比較廣泛的是STUDER R等人提出的“本體是共享概念模型的明確形式化規(guī)范說(shuō)明”[1]。
1.2 本體構(gòu)建
本體構(gòu)建是一項(xiàng)龐大的系統(tǒng)工程,需要按照一定的構(gòu)建準(zhǔn)則,在合理方法論的指導(dǎo)下,采用合適的本體描述語(yǔ)言和便捷的本體開發(fā)工具加以實(shí)現(xiàn)[2]。
1.2.1 領(lǐng)域本體構(gòu)建方法
領(lǐng)域本體是用于描述指定領(lǐng)域知識(shí)的一種本體,是對(duì)領(lǐng)域?qū)嶓w概念、概念間的相互關(guān)系以及領(lǐng)域特征或規(guī)律的一種形式化的描述[3]。常見的領(lǐng)域本體構(gòu)建方法有:KACTUS法、TOVE法、SENSUS法、METHONTOLOGY法、IDEF-5法、骨架法、七步法等[4]。其中,比較成熟的是七步法,該方法由美國(guó)斯坦福大學(xué)醫(yī)學(xué)院提出,主要應(yīng)用于領(lǐng)域本體的構(gòu)建,采用7個(gè)步驟來(lái)構(gòu)建本體:(1)確定本體的專業(yè)領(lǐng)域和范疇;(2)考查復(fù)用現(xiàn)有本體的可能性;(3)列出本體中的重要術(shù)語(yǔ);(4)定義類和類的等級(jí)體系;(5)定義類的屬性;(6)定義類的分面;(7)創(chuàng)建實(shí)例。
1.2.2 本體描述語(yǔ)言及開發(fā)工具
現(xiàn)有的本體描述語(yǔ)言有多種,此次選用比較常用的OWL(Web Ontology Language)來(lái)對(duì)領(lǐng)域本體進(jìn)行描述。本體的開發(fā)工具有OntoEdit、Protégé等。其中protégé本體構(gòu)建工具的界面友好,容易上手,另外具有可擴(kuò)展性,可以根據(jù)需要添加自定義的模塊,自定義屬性,成為大多數(shù)本體構(gòu)建的首選工具。因此,本文選用的本體構(gòu)建工具是protégé4.0。
1.2.3 本體構(gòu)建原則
目前沒有一個(gè)標(biāo)準(zhǔn)的本體構(gòu)造方法,研究人員提出了不少本體創(chuàng)建的標(biāo)準(zhǔn),最有影響的是GRUBER T R[5]提出的指導(dǎo)本體建立的5個(gè)準(zhǔn)則:清晰性、一致性、可擴(kuò)展性、編碼偏好程度最小、本體約定最小。目前大家公認(rèn)在構(gòu)建領(lǐng)域本體的過(guò)程中需要領(lǐng)域?qū)<业膮⑴c。
2 環(huán)保領(lǐng)域本體的構(gòu)建方法
目前,國(guó)內(nèi)外關(guān)于環(huán)保領(lǐng)域本體的研究較少,可供借鑒參考的先例不多,對(duì)于環(huán)保領(lǐng)域的本體構(gòu)建是一種嘗試。環(huán)保領(lǐng)域本體構(gòu)建是在相關(guān)項(xiàng)目的支持下,由環(huán)保領(lǐng)域?qū)<覍?duì)本體的概念體系和邏輯結(jié)構(gòu)進(jìn)行指導(dǎo)與評(píng)價(jià)。因此,此次構(gòu)建本體,在七步法的基礎(chǔ)上進(jìn)行改進(jìn),不考慮對(duì)現(xiàn)有本體的復(fù)用,同時(shí)加入本體評(píng)價(jià)這一步驟。最終,根據(jù)此次領(lǐng)域本體構(gòu)建的實(shí)際情況,提出一種環(huán)保領(lǐng)域本體構(gòu)建方法,如圖1所示。
3 環(huán)保領(lǐng)域本體構(gòu)建流程
3.1 明確本體構(gòu)建目的和范疇
本體的構(gòu)建不是無(wú)的放矢,明確領(lǐng)域本體的應(yīng)用目的,對(duì)于限定其范圍、增強(qiáng)針對(duì)性,進(jìn)而降低構(gòu)建難度、縮短構(gòu)建時(shí)間,具有重要意義[6]。環(huán)保領(lǐng)域本體的構(gòu)建目的是為了實(shí)現(xiàn)語(yǔ)義檢索,即為數(shù)據(jù)集成系統(tǒng)提供一個(gè)共享的詞匯庫(kù),在數(shù)據(jù)集成中主要起三大作用:概念定義、查詢模型和推理基礎(chǔ)。通過(guò)本體的基礎(chǔ)推理作用,在異構(gòu)、分布環(huán)境下的數(shù)據(jù)集成中,可以提高數(shù)據(jù)的查全率和查準(zhǔn)率[7]。此次構(gòu)建的本體包含構(gòu)建對(duì)象范疇內(nèi)需要集成的數(shù)據(jù)涉及的概念和關(guān)系。
環(huán)保領(lǐng)域范圍非常廣泛和復(fù)雜,為減少難度,僅對(duì)福建省環(huán)境保護(hù)部門關(guān)于建設(shè)項(xiàng)目環(huán)評(píng)審批的基本信息數(shù)據(jù)進(jìn)行本體建模。本體模型采用的詞匯取自國(guó)家環(huán)境保護(hù)行業(yè)標(biāo)準(zhǔn)HJ/T416-2007《環(huán)境信息術(shù)語(yǔ)》、《福建省建設(shè)項(xiàng)目環(huán)境影響評(píng)價(jià)文件分級(jí)審批管理規(guī)定》、《建設(shè)項(xiàng)目環(huán)境影響評(píng)價(jià)分類管理名錄》、項(xiàng)目資料以及被大多數(shù)專業(yè)人士認(rèn)可的環(huán)保領(lǐng)域?qū)I(yè)性詞匯。
3.2 領(lǐng)域知識(shí)的收集和獲取
確定范圍之后,收集本體所涉及的知識(shí)并列出重要的術(shù)語(yǔ)。知識(shí)的收集和獲取是一個(gè)復(fù)雜的過(guò)程,可以通過(guò)網(wǎng)絡(luò)、書籍、文獻(xiàn)、專家、項(xiàng)目等渠道獲取相關(guān)知識(shí)。本次對(duì)領(lǐng)域知識(shí)的收集,除上述渠道外,還按照構(gòu)建業(yè)務(wù)對(duì)象模型的思路對(duì)領(lǐng)域知識(shí)進(jìn)行解讀。業(yè)務(wù)對(duì)象模型將結(jié)構(gòu)的概念與行為的概念結(jié)合起來(lái),它探索業(yè)務(wù)領(lǐng)域知識(shí)的本質(zhì),在建設(shè)數(shù)據(jù)架構(gòu)時(shí)起著重要的作用,主要體現(xiàn)在數(shù)據(jù)來(lái)源分析方面,即“有什么數(shù)據(jù)”。確定業(yè)務(wù)對(duì)象定義、對(duì)象間關(guān)系、對(duì)象名稱和對(duì)象間關(guān)系名稱的流程,使得能夠以一種被業(yè)務(wù)領(lǐng)域?qū)<依斫夂万?yàn)證的精確方式來(lái)表達(dá)業(yè)務(wù)領(lǐng)域知識(shí),對(duì)提取領(lǐng)域內(nèi)的概念及關(guān)系,進(jìn)而構(gòu)建本體有極大的幫助。業(yè)務(wù)對(duì)象模型概念及關(guān)系如圖2所示。
3.3 列舉概念
在相關(guān)業(yè)務(wù)人員的幫助下,通過(guò)對(duì)領(lǐng)域知識(shí)的了解,提取領(lǐng)域內(nèi)的概念和術(shù)語(yǔ)。列出一份盡量全的術(shù)語(yǔ)清單,而暫時(shí)不考慮概念間的關(guān)系。
在確定術(shù)語(yǔ)過(guò)程中需要注意兩點(diǎn):(1)此次本體構(gòu)建的對(duì)象是建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息,只包含建設(shè)項(xiàng)目環(huán)評(píng)審批工作進(jìn)行之前需要登記填寫的信息,并不包括審批批文等信息;(2)建設(shè)項(xiàng)目的行業(yè)作為建設(shè)項(xiàng)目的一個(gè)特征,經(jīng)常作為數(shù)據(jù)分類的依據(jù),同時(shí)在數(shù)據(jù)表單、數(shù)據(jù)庫(kù)中作為一個(gè)重要的字段、數(shù)據(jù)項(xiàng)出現(xiàn),因此列舉的概念中需包含建設(shè)項(xiàng)目的行業(yè)及其分類。
參考相關(guān)文獻(xiàn)資料,通過(guò)與環(huán)保部門業(yè)務(wù)人員和領(lǐng)域?qū)<业慕涣?,歸納總結(jié)出78個(gè)領(lǐng)域概念,行業(yè)及其分類詳見《建設(shè)項(xiàng)目環(huán)境影響評(píng)價(jià)分類管理名錄》,其余包括:項(xiàng)目名稱、建設(shè)地點(diǎn)、建設(shè)內(nèi)容、建設(shè)規(guī)模、總投資、環(huán)保投資、建設(shè)性質(zhì)、聯(lián)系人、聯(lián)系電話、通信地址、郵政編碼、單位名稱、法人代表、評(píng)價(jià)經(jīng)費(fèi)、證書編號(hào)、甲級(jí)報(bào)告書評(píng)價(jià)范圍、乙級(jí)報(bào)告書評(píng)價(jià)范圍、報(bào)告表評(píng)價(jià)范圍、有效期、基本情況、污染物名稱、實(shí)際排放總量、核定排放總量、實(shí)際排放濃度、允許排放濃度、環(huán)境要素名稱、保護(hù)目標(biāo)、質(zhì)量等級(jí)、涉及敏感區(qū)名稱。
3.4 確定類和類的層次
類的層次的定義有3種方法,即自上向下法、自下向上法和混合法[8]?;旌戏▽⒆陨舷蛳路ㄅc自下向上法相結(jié)合,先建立那些顯而易見的概念,然后分別向上與向下進(jìn)行泛化與細(xì)化。一般來(lái)說(shuō),混合法比較適合大部分人員。
運(yùn)用混合法,在領(lǐng)域?qū)<业膸椭?,?jīng)過(guò)識(shí)別、分析和統(tǒng)計(jì),最終確定了行業(yè)、組織機(jī)構(gòu)、建設(shè)項(xiàng)目、環(huán)評(píng)類型、主要污染物、區(qū)域環(huán)境現(xiàn)狀作為核心概念。核心概念作為整個(gè)本體概念模型的頂級(jí)概念,可以有子概念,即核心類可以有子類,例如組織機(jī)構(gòu)分為建設(shè)單位和環(huán)評(píng)機(jī)構(gòu)。本體類層次如圖3所示。
3.5 定義類的屬性
類的屬性包括數(shù)據(jù)屬性(DataType property)和對(duì)象屬性(Object property)。數(shù)據(jù)屬性的屬性值為基本類型值,即非領(lǐng)域中概念,對(duì)象屬性的屬性值為領(lǐng)域中概念。本體概念間的關(guān)系主要有4類:屬性關(guān)系、繼承關(guān)系、整體和部分關(guān)系、類和實(shí)例關(guān)系。上一步所定義的類的層次就是繼承關(guān)系。除上述4種常見的關(guān)系外,還可以根據(jù)領(lǐng)域知識(shí)自定義屬性,如建設(shè)項(xiàng)目和行業(yè)之間的具有關(guān)系,建設(shè)單位和環(huán)評(píng)機(jī)構(gòu)之間的委托關(guān)系等。自定義關(guān)系通過(guò)對(duì)屬性的定義和約束予以實(shí)現(xiàn),約束包括屬性的定義域、值域的約束。對(duì)于不同的類,在約束時(shí)將相同屬性特征的定義域設(shè)置為其父類,根據(jù)子類繼承父類的特性,子類不用定義就會(huì)獲得這些特征,減少了冗余。類的屬性可以有多個(gè),并不需要對(duì)每個(gè)屬性都進(jìn)行定義,而是要結(jié)合領(lǐng)域范圍和本體構(gòu)建目的,進(jìn)行適當(dāng)?shù)娜∩帷4舜巫远x36個(gè)屬性,部分屬性如表1所示。
當(dāng)屬性特征確立之后,借助Protégé4.0將屬性進(jìn)行編輯并存儲(chǔ),圖4是部分對(duì)象屬性的編輯,圖5是部分?jǐn)?shù)值屬性的編輯。
3.6 創(chuàng)建實(shí)例
支撐項(xiàng)目從福建省各級(jí)環(huán)保部門收集了許多建設(shè)項(xiàng)目環(huán)評(píng)數(shù)據(jù),這些可以作為本體實(shí)例的重要來(lái)源。建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息本體實(shí)例的數(shù)量非常巨大,鑒于文章篇幅,也為了便于實(shí)驗(yàn)測(cè)試,只列舉少數(shù)實(shí)例。
通過(guò)領(lǐng)域?qū)<覍?duì)所建本體的審核和評(píng)價(jià),發(fā)現(xiàn)本體概念體系及邏輯結(jié)構(gòu)的不足,返回前面第三步進(jìn)行修改。在領(lǐng)域?qū)<业膸椭?,?jīng)過(guò)反復(fù)修改,最終構(gòu)建一個(gè)簡(jiǎn)單的建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息本體模型。部分本體模型結(jié)構(gòu)在Protégé4.0中的視圖如圖6所示。
4 結(jié)論
建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息本體只是環(huán)保本體的一部分,也是基于本體的環(huán)保業(yè)務(wù)數(shù)據(jù)集成的開端與基礎(chǔ),最終目的是為了更好地實(shí)現(xiàn)環(huán)保業(yè)務(wù)數(shù)據(jù)的集成。本文結(jié)合本體的應(yīng)用目的,設(shè)計(jì)了一種該領(lǐng)域本體的構(gòu)建方法,提出了基于業(yè)務(wù)對(duì)象模型分析領(lǐng)域知識(shí)的思路,嘗試性地構(gòu)建了建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息本體,為基于本體的相關(guān)應(yīng)用奠定了基礎(chǔ),也在一定程度上促進(jìn)了環(huán)保領(lǐng)域知識(shí)管理的發(fā)展。
鑒于作者水平所限以及對(duì)領(lǐng)域知識(shí)了解不夠,本文構(gòu)建的本體在規(guī)模、深度上都比較簡(jiǎn)單,本體的領(lǐng)域范圍和深度都有待擴(kuò)展。另外,本文無(wú)論是概念、關(guān)系的獲取,還是本體編碼都是純手工完成,當(dāng)領(lǐng)域范圍較廣,本體比較復(fù)雜時(shí),純手工完成費(fèi)時(shí)又費(fèi)力,因此,如何半自動(dòng)、自動(dòng)化地實(shí)現(xiàn)本體的構(gòu)建也有待繼續(xù)研究。
參考文獻(xiàn)
[1] STUDER R, RICHARD B, DIETER F. Knowledge engineering: principles and methods[J]. Data and Knowledge Engineering,1998,25(1-2):161-197.
[2] 蘭春秋,李櫻.音樂領(lǐng)域本體的研究與構(gòu)建[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014(3):76-79.
[3] 李勇,張志剛.領(lǐng)域本體構(gòu)建方法研究[J].計(jì)算機(jī)工程與科學(xué),2008,30(5):129-131.
[4] 李恒杰,李軍權(quán),李明.領(lǐng)域本體建模方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(2):381-384.
[5] GRUBER T R. Towards principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-Computer Studies 1995,43(5/6):907-928.
[6] 劉紫玉,黃磊.高速鐵路領(lǐng)域本體構(gòu)建方法研究[J].情報(bào)學(xué)報(bào),2009,28(2):195-200.
[7] 李星毅,高文浩,施化吉.基于本體的異構(gòu)數(shù)據(jù)集成方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(8):1931-1933.
[8] 甘健侯,姜躍,夏幼明.本體方法及其應(yīng)用[M].北京:科學(xué)出版社,2011.