《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 環(huán)保領域本體的構建研究
環(huán)保領域本體的構建研究
2015年微型機與應用第10期
張 旭,朱勤東
(福州大學 福建省空間信息工程研究中心,福建 福州 350002)
摘要: 為了解決環(huán)保部門多源數(shù)據(jù)的語義異構問題,研究了各領域本體構建思路與方法,結合環(huán)保領域的實際特點,提出了一種環(huán)保領域本體構建方法。以建設項目環(huán)評審批基本信息為例,在領域專家?guī)椭拢敿毭枋隽似浔倔w的構建流程及其本體模型,為環(huán)保領域應用研究奠定了基礎。
Abstract:
Key words :

  摘  要: 為了解決環(huán)保部門多源數(shù)據(jù)的語義異構問題,研究了各領域本體構建思路與方法,結合環(huán)保領域的實際特點,提出了一種環(huán)保領域本體構建方法。以建設項目環(huán)評審批基本信息為例,在領域專家?guī)椭?,詳細描述了其本體的構建流程及其本體模型,為環(huán)保領域應用研究奠定了基礎。

  關鍵詞: 環(huán)保;領域本體構建;建設項目環(huán)評

0 引言

  環(huán)保部門為了加強對環(huán)境的管理,提高辦事效率,需要對不同應用系統(tǒng)的各種業(yè)務數(shù)據(jù)進行集成。然而,不同數(shù)據(jù)源的數(shù)據(jù)在語義上往往存在較大的異構性,造成數(shù)據(jù)難以集成。本體既能準確地描述概念的含義又能描述概念之間的內在關聯(lián),并通過邏輯推理獲取概念之間蘊涵的關系,具有很強的表達概念語義和獲取知識的能力,因此逐漸應用于各種數(shù)據(jù)集成系統(tǒng)中。

  研究基于本體的數(shù)據(jù)集成首先要研究本體的構建,本體構建質量的好壞決定集成系統(tǒng)的運行效果。本文在研究各領域本體構建的基礎上,通過了解環(huán)保領域知識,提出一種環(huán)保領域本體的構建思路與方法,并且嘗試構建建設項目環(huán)評審批基本信息本體,為環(huán)保領域本體的構建及以后基于本體的數(shù)據(jù)集成奠定基礎。

1 本體理論概述

  1.1 本體

  本體起源于哲學,是對世界上客觀存在物的系統(tǒng)描述,后來,本體在人工智能、知識工程、信息系統(tǒng)等諸多領域得到了發(fā)展和應用。不同領域的研究者對本體的定義不同,引用比較廣泛的是STUDER R等人提出的“本體是共享概念模型的明確形式化規(guī)范說明”[1]。

  1.2 本體構建

  本體構建是一項龐大的系統(tǒng)工程,需要按照一定的構建準則,在合理方法論的指導下,采用合適的本體描述語言和便捷的本體開發(fā)工具加以實現(xiàn)[2]。

  1.2.1 領域本體構建方法

  領域本體是用于描述指定領域知識的一種本體,是對領域實體概念、概念間的相互關系以及領域特征或規(guī)律的一種形式化的描述[3]。常見的領域本體構建方法有:KACTUS法、TOVE法、SENSUS法、METHONTOLOGY法、IDEF-5法、骨架法、七步法等[4]。其中,比較成熟的是七步法,該方法由美國斯坦福大學醫(yī)學院提出,主要應用于領域本體的構建,采用7個步驟來構建本體:(1)確定本體的專業(yè)領域和范疇;(2)考查復用現(xiàn)有本體的可能性;(3)列出本體中的重要術語;(4)定義類和類的等級體系;(5)定義類的屬性;(6)定義類的分面;(7)創(chuàng)建實例。

  1.2.2 本體描述語言及開發(fā)工具

  現(xiàn)有的本體描述語言有多種,此次選用比較常用的OWL(Web Ontology Language)來對領域本體進行描述。本體的開發(fā)工具有OntoEdit、Protégé等。其中protégé本體構建工具的界面友好,容易上手,另外具有可擴展性,可以根據(jù)需要添加自定義的模塊,自定義屬性,成為大多數(shù)本體構建的首選工具。因此,本文選用的本體構建工具是protégé4.0。

  1.2.3 本體構建原則

  目前沒有一個標準的本體構造方法,研究人員提出了不少本體創(chuàng)建的標準,最有影響的是GRUBER T R[5]提出的指導本體建立的5個準則:清晰性、一致性、可擴展性、編碼偏好程度最小、本體約定最小。目前大家公認在構建領域本體的過程中需要領域專家的參與。

2 環(huán)保領域本體的構建方法

  目前,國內外關于環(huán)保領域本體的研究較少,可供借鑒參考的先例不多,對于環(huán)保領域的本體構建是一種嘗試。環(huán)保領域本體構建是在相關項目的支持下,由環(huán)保領域專家對本體的概念體系和邏輯結構進行指導與評價。因此,此次構建本體,在七步法的基礎上進行改進,不考慮對現(xiàn)有本體的復用,同時加入本體評價這一步驟。最終,根據(jù)此次領域本體構建的實際情況,提出一種環(huán)保領域本體構建方法,如圖1所示。

001.jpg

3 環(huán)保領域本體構建流程

  3.1 明確本體構建目的和范疇

  本體的構建不是無的放矢,明確領域本體的應用目的,對于限定其范圍、增強針對性,進而降低構建難度、縮短構建時間,具有重要意義[6]。環(huán)保領域本體的構建目的是為了實現(xiàn)語義檢索,即為數(shù)據(jù)集成系統(tǒng)提供一個共享的詞匯庫,在數(shù)據(jù)集成中主要起三大作用:概念定義、查詢模型和推理基礎。通過本體的基礎推理作用,在異構、分布環(huán)境下的數(shù)據(jù)集成中,可以提高數(shù)據(jù)的查全率和查準率[7]。此次構建的本體包含構建對象范疇內需要集成的數(shù)據(jù)涉及的概念和關系。

  環(huán)保領域范圍非常廣泛和復雜,為減少難度,僅對福建省環(huán)境保護部門關于建設項目環(huán)評審批的基本信息數(shù)據(jù)進行本體建模。本體模型采用的詞匯取自國家環(huán)境保護行業(yè)標準HJ/T416-2007《環(huán)境信息術語》、《福建省建設項目環(huán)境影響評價文件分級審批管理規(guī)定》、《建設項目環(huán)境影響評價分類管理名錄》、項目資料以及被大多數(shù)專業(yè)人士認可的環(huán)保領域專業(yè)性詞匯。

  3.2 領域知識的收集和獲取

  確定范圍之后,收集本體所涉及的知識并列出重要的術語。知識的收集和獲取是一個復雜的過程,可以通過網(wǎng)絡、書籍、文獻、專家、項目等渠道獲取相關知識。本次對領域知識的收集,除上述渠道外,還按照構建業(yè)務對象模型的思路對領域知識進行解讀。業(yè)務對象模型將結構的概念與行為的概念結合起來,它探索業(yè)務領域知識的本質,在建設數(shù)據(jù)架構時起著重要的作用,主要體現(xiàn)在數(shù)據(jù)來源分析方面,即“有什么數(shù)據(jù)”。確定業(yè)務對象定義、對象間關系、對象名稱和對象間關系名稱的流程,使得能夠以一種被業(yè)務領域專家理解和驗證的精確方式來表達業(yè)務領域知識,對提取領域內的概念及關系,進而構建本體有極大的幫助。業(yè)務對象模型概念及關系如圖2所示。

002.jpg

  3.3 列舉概念

  在相關業(yè)務人員的幫助下,通過對領域知識的了解,提取領域內的概念和術語。列出一份盡量全的術語清單,而暫時不考慮概念間的關系。

  在確定術語過程中需要注意兩點:(1)此次本體構建的對象是建設項目環(huán)評審批基本信息,只包含建設項目環(huán)評審批工作進行之前需要登記填寫的信息,并不包括審批批文等信息;(2)建設項目的行業(yè)作為建設項目的一個特征,經(jīng)常作為數(shù)據(jù)分類的依據(jù),同時在數(shù)據(jù)表單、數(shù)據(jù)庫中作為一個重要的字段、數(shù)據(jù)項出現(xiàn),因此列舉的概念中需包含建設項目的行業(yè)及其分類。

  參考相關文獻資料,通過與環(huán)保部門業(yè)務人員和領域專家的交流,歸納總結出78個領域概念,行業(yè)及其分類詳見《建設項目環(huán)境影響評價分類管理名錄》,其余包括:項目名稱、建設地點、建設內容、建設規(guī)模、總投資、環(huán)保投資、建設性質、聯(lián)系人、聯(lián)系電話、通信地址、郵政編碼、單位名稱、法人代表、評價經(jīng)費、證書編號、甲級報告書評價范圍、乙級報告書評價范圍、報告表評價范圍、有效期、基本情況、污染物名稱、實際排放總量、核定排放總量、實際排放濃度、允許排放濃度、環(huán)境要素名稱、保護目標、質量等級、涉及敏感區(qū)名稱。

  3.4 確定類和類的層次

  類的層次的定義有3種方法,即自上向下法、自下向上法和混合法[8]?;旌戏▽⒆陨舷蛳路ㄅc自下向上法相結合,先建立那些顯而易見的概念,然后分別向上與向下進行泛化與細化。一般來說,混合法比較適合大部分人員。

  運用混合法,在領域專家的幫助下,經(jīng)過識別、分析和統(tǒng)計,最終確定了行業(yè)、組織機構、建設項目、環(huán)評類型、主要污染物、區(qū)域環(huán)境現(xiàn)狀作為核心概念。核心概念作為整個本體概念模型的頂級概念,可以有子概念,即核心類可以有子類,例如組織機構分為建設單位和環(huán)評機構。本體類層次如圖3所示。

003.jpg

  3.5 定義類的屬性

  類的屬性包括數(shù)據(jù)屬性(DataType property)和對象屬性(Object property)。數(shù)據(jù)屬性的屬性值為基本類型值,即非領域中概念,對象屬性的屬性值為領域中概念。本體概念間的關系主要有4類:屬性關系、繼承關系、整體和部分關系、類和實例關系。上一步所定義的類的層次就是繼承關系。除上述4種常見的關系外,還可以根據(jù)領域知識自定義屬性,如建設項目和行業(yè)之間的具有關系,建設單位和環(huán)評機構之間的委托關系等。自定義關系通過對屬性的定義和約束予以實現(xiàn),約束包括屬性的定義域、值域的約束。對于不同的類,在約束時將相同屬性特征的定義域設置為其父類,根據(jù)子類繼承父類的特性,子類不用定義就會獲得這些特征,減少了冗余。類的屬性可以有多個,并不需要對每個屬性都進行定義,而是要結合領域范圍和本體構建目的,進行適當?shù)娜∩?。此次自定義36個屬性,部分屬性如表1所示。

004.jpg

  當屬性特征確立之后,借助Protégé4.0將屬性進行編輯并存儲,圖4是部分對象屬性的編輯,圖5是部分數(shù)值屬性的編輯。

  3.6 創(chuàng)建實例

  支撐項目從福建省各級環(huán)保部門收集了許多建設項目環(huán)評數(shù)據(jù),這些可以作為本體實例的重要來源。建設項目環(huán)評審批基本信息本體實例的數(shù)量非常巨大,鑒于文章篇幅,也為了便于實驗測試,只列舉少數(shù)實例。

  通過領域專家對所建本體的審核和評價,發(fā)現(xiàn)本體概念體系及邏輯結構的不足,返回前面第三步進行修改。在領域專家的幫助下,經(jīng)過反復修改,最終構建一個簡單的建設項目環(huán)評審批基本信息本體模型。部分本體模型結構在Protégé4.0中的視圖如圖6所示。

005.jpg

4 結論

  建設項目環(huán)評審批基本信息本體只是環(huán)保本體的一部分,也是基于本體的環(huán)保業(yè)務數(shù)據(jù)集成的開端與基礎,最終目的是為了更好地實現(xiàn)環(huán)保業(yè)務數(shù)據(jù)的集成。本文結合本體的應用目的,設計了一種該領域本體的構建方法,提出了基于業(yè)務對象模型分析領域知識的思路,嘗試性地構建了建設項目環(huán)評審批基本信息本體,為基于本體的相關應用奠定了基礎,也在一定程度上促進了環(huán)保領域知識管理的發(fā)展。

  鑒于作者水平所限以及對領域知識了解不夠,本文構建的本體在規(guī)模、深度上都比較簡單,本體的領域范圍和深度都有待擴展。另外,本文無論是概念、關系的獲取,還是本體編碼都是純手工完成,當領域范圍較廣,本體比較復雜時,純手工完成費時又費力,因此,如何半自動、自動化地實現(xiàn)本體的構建也有待繼續(xù)研究。

參考文獻

  [1] STUDER R, RICHARD B, DIETER F. Knowledge engineering: principles and methods[J]. Data and Knowledge Engineering,1998,25(1-2):161-197.

  [2] 蘭春秋,李櫻.音樂領域本體的研究與構建[J].計算機光盤軟件與應用,2014(3):76-79.

  [3] 李勇,張志剛.領域本體構建方法研究[J].計算機工程與科學,2008,30(5):129-131.

  [4] 李恒杰,李軍權,李明.領域本體建模方法研究[J].計算機工程與設計,2008,29(2):381-384.

  [5] GRUBER T R. Towards principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-Computer Studies 1995,43(5/6):907-928.

  [6] 劉紫玉,黃磊.高速鐵路領域本體構建方法研究[J].情報學報,2009,28(2):195-200.

  [7] 李星毅,高文浩,施化吉.基于本體的異構數(shù)據(jù)集成方法[J].計算機工程與設計,2009,30(8):1931-1933.

  [8] 甘健侯,姜躍,夏幼明.本體方法及其應用[M].北京:科學出版社,2011.


此內容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉載。