《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于集對(duì)分析的本體案例檢索模型
基于集對(duì)分析的本體案例檢索模型
2014年微型機(jī)與應(yīng)用第21期
閻紅燦1,王會(huì)芳1,馬會(huì)霞2
(1.河北聯(lián)合大學(xué) 理學(xué)院,河北 唐山 063000 2.河北聯(lián)合大學(xué) 中醫(yī)學(xué)院,河北 唐山 063000)
摘要: 案例檢索是案例推理系統(tǒng)中的一個(gè)關(guān)鍵過程,是近年來人工智能領(lǐng)域的研究熱點(diǎn)之一。案例相似度的計(jì)算方法是案例檢索的關(guān)鍵技術(shù)。將集對(duì)分析理論引入目標(biāo)案例,與案例庫中源案例的相似度比較,建立兩個(gè)比較案例的集對(duì),通過屬性的重要度和聯(lián)系度構(gòu)建了本體案例檢索模型;通過本體的詞義擴(kuò)展解決檢索詞的多詞同義問題,有效提高了不確定性問題的檢索精度。實(shí)驗(yàn)結(jié)果表明,基于集對(duì)分析的本體案例檢索模型不僅減少了運(yùn)算量,還提高了查全率和查準(zhǔn)率
Abstract:
Key words :

  摘 要: 案例檢索是案例推理系統(tǒng)中的一個(gè)關(guān)鍵過程,是近年來人工智能領(lǐng)域的研究熱點(diǎn)之一。案例相似度的計(jì)算方法是案例檢索的關(guān)鍵技術(shù)。將集對(duì)分析理論引入目標(biāo)案例,與案例庫中源案例的相似度比較,建立兩個(gè)比較案例的集對(duì),通過屬性的重要度和聯(lián)系度構(gòu)建了本體案例檢索模型;通過本體的詞義擴(kuò)展解決檢索詞的多詞同義問題,有效提高了不確定性問題的檢索精度。實(shí)驗(yàn)結(jié)果表明,基于集對(duì)分析的本體案例檢索模型不僅減少了運(yùn)算量,還提高了查全率和查準(zhǔn)率。

  關(guān)鍵詞: 案例推理;屬性聯(lián)系度;相似度計(jì)算;本體;集對(duì)分析;語義擴(kuò)展

0 引言

  案例推理[1-2](Case-based Reasoning,CBR)是近年來人工智能領(lǐng)域的一項(xiàng)重要的問題求解和學(xué)習(xí)推理技術(shù),是通過訪問知識(shí)庫中過去同類問題的求解,從而獲得當(dāng)前問題解的一種類比推理模式。案例推理一般要經(jīng)過案例檢索、案例重用、案例修正和案例存儲(chǔ)4個(gè)階段。為了解決問題案例,首先需要從案例庫中搜索與所給問題相似的案例,然后對(duì)檢索出來的案例信息和知識(shí)進(jìn)行重用得到建議解,如果該建議解失敗或不滿意時(shí)需對(duì)其進(jìn)行修正,并將修正后的案例作為新案例存入案例庫。

  案例檢索是案例推理中的關(guān)鍵步驟,在相似性評(píng)估環(huán)節(jié),最常用的相似性評(píng)估方法是通過加權(quán)的海明距離[3]和歐幾里德距離反函數(shù)[4]來計(jì)算兩個(gè)案例的相似度。這些相似性度量方法,只考慮了有確定屬性值的情況, 或者將模糊屬性簡(jiǎn)單地與確定性屬性同等處理,未考慮案例間的相異及相反因素。以這種度量方式計(jì)算案例間的相似度進(jìn)行案例搜索、匹配的CBR 系統(tǒng)處理復(fù)雜問題時(shí),不僅效率低,而且將影響對(duì)所獲得信息的準(zhǔn)確判斷,難以根據(jù)現(xiàn)有的知識(shí)實(shí)現(xiàn)新的知識(shí)推理,也無法處理推理中的信息不確定性問題,進(jìn)而降低決策的質(zhì)量。集對(duì)分析[5](Set Pair Analysis,SPA)是在一定的問題背景下,對(duì)集對(duì)中兩個(gè)集合的確定性與不確定性以及確定性與不確定性的相互作用所進(jìn)行的一種系統(tǒng)和數(shù)學(xué)分析,從同、異、反三個(gè)方面研究事物的確定性和不確定性,并引入聯(lián)系度的公式:u=a +bi+cj來統(tǒng)一描述模糊、隨機(jī)和信息不完全所致的不確定性,進(jìn)而分析不確定因素。由于集對(duì)分析考慮了系統(tǒng)之間的相異及相反等因素,使得對(duì)獲取信息的判斷更加客觀,因而得到較為廣泛的應(yīng)用[6-7]。

  為了提高案例檢索的效率和決策質(zhì)量,本文將集對(duì)分析理論和方法用于案例間相似性評(píng)估,構(gòu)建了基于集對(duì)分析的案例檢索數(shù)學(xué)模型,充分考慮了案例中的不確定信息。通過對(duì)中醫(yī)喘癥醫(yī)案的案例推理應(yīng)用,充分證實(shí)了這種方法能有效提高案例檢索的查全率和查準(zhǔn)率。

1 案例的屬性聯(lián)系度計(jì)算

  集對(duì)分析是一種處理不確定性問題的系統(tǒng)分析方法,其核心思想是先對(duì)兩個(gè)有關(guān)聯(lián)的集合構(gòu)造集對(duì),再對(duì)集對(duì)的特性作同一性、差異性、相反性分析,然后建立集對(duì)的同異反聯(lián)系度。

  定義1 集對(duì)聯(lián)系度:根據(jù)問題W的需要對(duì)集對(duì)H的特性展開分析,共得到N個(gè)特性,其中在S個(gè)特性上具有同一性,在P個(gè)特性上相反,在其余的F=N-S-P個(gè)特性上既不同一,又不相反,即其性質(zhì)不確定,則稱比值:

  S/N為這兩個(gè)集合在問題W下的同一度,簡(jiǎn)稱同一度;

  F/N為這兩個(gè)集合在問題W下的差異度,簡(jiǎn)稱差異度;

  P/N為這兩個(gè)集合在問題W下的相反度,簡(jiǎn)稱相反度,

  用公式EST54Z4Z_ISLA]PEI4HJFAA.png表示集對(duì)H的聯(lián)系度。

  式中的i為差異度標(biāo)記,j為對(duì)立度標(biāo)記,但在運(yùn)算時(shí),i和j又同時(shí)作為系數(shù)參加運(yùn)算。規(guī)定j恒取值-1,而i在[-1,1]區(qū)間視不同情況取值,為簡(jiǎn)便記也可寫成:

  1.png

  顯然,在上述定義下, a、b、c三個(gè)數(shù)滿足歸一化條件,即a+b+c=1。

  為了將集對(duì)分析理論引入案例檢索,給出以下定義:

  定義2 案例集對(duì):?jiǎn)栴}案例q與案例庫中每一個(gè)案例p間存在一定的映射關(guān)系,構(gòu)成案例集對(duì)。并且用(q,p)表示兩者構(gòu)成的案例集對(duì)。

  定義3 案例集對(duì)的屬性集對(duì):?jiǎn)栴}案例q與案例p關(guān)于同一屬性的屬性值構(gòu)成案例集對(duì)的屬性集對(duì)。

  例如,假設(shè)案例集對(duì)(q,p)與n個(gè)屬性有關(guān),分別為x1, x2,…, xn,案例q與案例p關(guān)于這n個(gè)屬性的屬性值分別為xq1, xq2,…, xqn和xp1, xp2,…, xpn ,則(xq1, xp1), (xq2, xp2),…,(xqn, xpn) 均為案例集對(duì)(q,p)的屬性集對(duì)。

  定義4 屬性的聯(lián)系數(shù):每一對(duì)屬性集對(duì)間的聯(lián)系度表達(dá)式稱為屬性的聯(lián)系數(shù)。

  例如,用表達(dá)式ul=al+blil+cljl表示案例集對(duì)(q,p)關(guān)于第l個(gè)屬性的聯(lián)系數(shù),因?yàn)閷傩灾抵挥幸粋€(gè),所以表達(dá)式只有一項(xiàng),如果兩個(gè)案例在第l個(gè)屬性上具有同一性,則聯(lián)系數(shù)記為:ul=al且al=1,若具有差異性則記為:ul=blil且bl=1。

  這樣,在計(jì)算案例屬性聯(lián)系數(shù)時(shí),對(duì)于有屬性值缺失的情況,根據(jù)集對(duì)分析理論,認(rèn)為兩者具有差異性,即性質(zhì)不確定,有效處理了推理中不確定性信息問題。

  在本文實(shí)證研究的中醫(yī)喘癥案例中,從案例庫中獲取案例的屬性特征,假設(shè)與n個(gè)屬性有關(guān),分別為x1, x2,…, xn,然后將問題案例q與案例庫中每一個(gè)案例p的n個(gè)屬性分別進(jìn)行比較,確定案例集對(duì)(q,p)的每一個(gè)屬性集對(duì)聯(lián)系數(shù):

  2.png

  其中,al表示問題案例q與目標(biāo)案例p關(guān)于第l個(gè)屬性的同一度;bl表示它們之間的差異度;cl表示它們之間的相反度,且al+bl+cl=1,則問題案例與目標(biāo)案例間的n個(gè)屬性集對(duì)的聯(lián)系數(shù)分別為:u1, u2,…, un,這是案例相似度計(jì)算中非常重要的一部分。

2 構(gòu)建本體案例的檢索模型

  2.1 案例的結(jié)構(gòu)存儲(chǔ)

  目前的CBR系統(tǒng)大多是用靜態(tài)的框架來描述案例[1,7-8],存在難以擴(kuò)展、可重構(gòu)性和學(xué)習(xí)性差等缺點(diǎn)。而本體[9]作為一種能在語義和知識(shí)層面描述概念的知識(shí)建模工具,概念化地表達(dá)了領(lǐng)域內(nèi)相關(guān)概念和概念之間的關(guān)系,確定了共同認(rèn)可的概念,具有可重用、可共享、語義可擴(kuò)展等優(yōu)點(diǎn),在知識(shí)表示領(lǐng)域得到很好的應(yīng)用[10-12]。雖然在一個(gè)CBR系統(tǒng)中主要的知識(shí)源是以前的經(jīng)驗(yàn)集(案例) ,但是在實(shí)際應(yīng)用中,可以把案例所表達(dá)的具體知識(shí)與一般的領(lǐng)域知識(shí)模型 (用本體表示)進(jìn)行整合,有學(xué)者進(jìn)行了嘗試[13-15]。為了實(shí)現(xiàn)案例檢索屬性關(guān)鍵詞的語義擴(kuò)展,提高案例檢索查全率,本文的醫(yī)案采用本體結(jié)構(gòu)的方式進(jìn)行存儲(chǔ)。

  參考文獻(xiàn)[7]計(jì)算聯(lián)系度時(shí)通過加權(quán)平均的方法盡量減少權(quán)系數(shù)的影響,但仍不能去除人為定制權(quán)系數(shù)的弊端。為了減少人為偏好,本文將案例屬性在本體知識(shí)庫中的層次作為體現(xiàn)屬性重要度的一個(gè)參考,定義位于上一層的屬性比下一層屬性有更高重要度。

  2.2 案例相似度計(jì)算

  假設(shè)案例集對(duì)(q,p)有關(guān)的屬性x1, x2,…, xn的權(quán)重分別為w1, w2,…, wn,則結(jié)合式(1)和式(2),得到問題案例q與目標(biāo)案例p間的案例相似度,記為:

  3.png

  給定合適的i值,可以計(jì)算出問題案例與目標(biāo)案例的相似度值,按照相似度值順序存入目標(biāo)案例庫,相似度值大于預(yù)定閾值的案例即為要找的目標(biāo)案例。

  在有些案例中,特別是醫(yī)學(xué)案例中,由于古醫(yī)案描述的模糊性,人為的理解差異大大影響了數(shù)據(jù)的確定性,因此需要考慮相似度的主觀性認(rèn)識(shí)。一般原則是:依據(jù)同一度A越大越好、對(duì)立度C和差異度B越小越好的原則,選取合適的案例。

  2.3 案例檢索模型的系統(tǒng)架構(gòu)


001.jpg

  圖1展示了案例推理中檢索詞擴(kuò)展、構(gòu)造屬性集對(duì)、屬性聯(lián)系度計(jì)算、案例相似度計(jì)算的處理過程,其所對(duì)應(yīng)的檢索步驟為:

 ?、庞脩糨斎雴栴}案例q的描述信息,抽取問題背景的關(guān)鍵詞;

  ⑵通過本體知識(shí)庫進(jìn)行近義或同義詞的擴(kuò)展,得出問題案例有關(guān)的屬性集合,從而構(gòu)造案例集對(duì)的屬性集對(duì);

 ?、菍?duì)案例庫中的每一個(gè)案例p應(yīng)用式(2)和式(3)計(jì)算案例集對(duì)(q,p)的相似度,如果相似度大于設(shè)定閾值,則將其存入目標(biāo)案例庫;

 ?、热绻繕?biāo)案例庫為空,則可以減小閾值,重復(fù)步驟(3),當(dāng)閾值小到一定程度仍沒有目標(biāo)案例,可以應(yīng)用本體推理進(jìn)一步擴(kuò)展問題背景的屬性集合,轉(zhuǎn)步驟(2),否則轉(zhuǎn)步驟(5);

 ?、砂凑障嗨贫戎涤纱蟮叫≈嘏拍繕?biāo)案例庫。

3 應(yīng)用實(shí)例和分析

  3.1 案例的本體片段和相似度計(jì)算

  本文從中醫(yī)喘癥醫(yī)案中梳理600多條記錄作為案例庫,抽取出相關(guān)屬性,應(yīng)用Protégé 4.1.0編輯器建立的本體片段如圖2所示。

002.jpg

  表1所示為從案例庫中選取的12個(gè)比較有代表性的案例,其中2個(gè)作為問題案例,并附有中醫(yī)專家推薦且結(jié)合本體結(jié)構(gòu)的屬性權(quán)重值。

003.jpg

  為了驗(yàn)證本文提出的案例相似度計(jì)算方法的高效性,尤其是某些屬性信息缺失或不確定情況下對(duì)案例的相似度計(jì)算影響,分別對(duì)問題案例1和問題案例2采用一般相似度(海明距離法)計(jì)算和基于集對(duì)分析的相似度計(jì)算,閾值設(shè)定為λ=0.8。計(jì)算結(jié)果的對(duì)比如表2所示。

3.2 結(jié)果分析


004.jpg


  從表2可以看出,基于集對(duì)分析的相似度計(jì)算方法具有很好的區(qū)分度,對(duì)于問題案例1,用集對(duì)分析方法計(jì)算出大于閾值λ=0.8的案例有4個(gè),用海明距離法有3個(gè),通過觀察表1的數(shù)據(jù)且結(jié)合醫(yī)案的診斷結(jié)果,很明顯案例7與問題案例1相接近,說明基于集對(duì)分析的計(jì)算方法更接近事實(shí)。且用集對(duì)分析計(jì)算目標(biāo)案例與源案例5的相似度值比與源案例9的值大,但是用海明距離法結(jié)果卻相反,原因可能是案例5屬性缺失較多,而集對(duì)分析法能有效地處理這些不確定信息。

  對(duì)于問題案例2,用集對(duì)分析法計(jì)算出大于閾值的案例有0個(gè)而海明距離法有1個(gè),通過觀察表1的數(shù)據(jù)且結(jié)合醫(yī)案的診斷結(jié)果,很明顯,問題案例2與源案例屬性不太接近,而用海明距離法檢索出的案例作為參考,就有可能做出錯(cuò)誤診斷。由此表明,本文的相似度計(jì)算方法比傳統(tǒng)的基于海明距離的方法更加有效。

4 結(jié)束語

  案例推理技術(shù)的優(yōu)勢(shì)主要體現(xiàn)在不需要完整的領(lǐng)域知識(shí),不需要大量完備的數(shù)據(jù),僅需要過去經(jīng)驗(yàn)中的具體案例即可解決新問題,并具有自學(xué)習(xí)的功能。本文將集對(duì)分析應(yīng)用于基于案例推理的相似度評(píng)估,提出了一種新的相似度計(jì)算方法,并實(shí)現(xiàn)了檢索屬性的語義擴(kuò)展。通過中醫(yī)喘癥醫(yī)案的應(yīng)用證明此方法提高了案例檢索效率?;诩瘜?duì)分析的本體案例相似度計(jì)算方法具有以下優(yōu)點(diǎn):⑴本體的應(yīng)用有效處理了一詞多義、多詞同義問題,提高了檢索的查全率;⑵集對(duì)分析考慮了系統(tǒng)之間的相異甚至對(duì)立等因素,使得對(duì)獲取信息的判斷更加客觀,更加全面,提高了檢索算法效率。

  下一步的工作重點(diǎn)是以古醫(yī)案喘癥為研究對(duì)象,應(yīng)用Jena推理引擎實(shí)現(xiàn)本體規(guī)則推理,進(jìn)一步提高案例檢索的查全率。這為案例推理和語義網(wǎng)絡(luò)的進(jìn)一步研究和應(yīng)用提供了理論基礎(chǔ)和技術(shù)支持。

參考文獻(xiàn)

  [1] 王東,劉懷亮,徐國(guó)華. 案例推理在故障診斷系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003,29(12):10-12.

  [2] Liu Chenghang, Chen Longsheng , Hu Chunxin. An association- based case reduction technique for case-based reasoning [J].Information Sciences, 2008(17):3347-3355.

  [3] Armengol E, Plaza E. Using symbolic descriptions to explain similarity on CBR[J].Artificial Intelligence Research and Development,2005,131:239-246.

  [4] Gu Yinshan,Hua Qiang,Zhan Yan. Case-base maintenance based on representative selection for 1-NN algorithm[C].In:Machine Learning and Cybernetics,2003 International Conference on,2003:242l-2425.

  [5] 趙克勤. 集對(duì)分析對(duì)不確定性的描述和處理[J].信息與控制,1995,24(3):162-166.

  [6] 王文圣,向紅蓮,丁晶. 集對(duì)分析在水文地質(zhì)單元相似性選擇中的應(yīng)用[C]. 中國(guó)水論壇第四屆學(xué)術(shù)研討會(huì),鄭州,2006:320-323.

  [7] 阮光冊(cè). 基于SPA案例推理的海關(guān)風(fēng)險(xiǎn)識(shí)別研究[J]. 情報(bào)學(xué)報(bào), 2012,31(10):1090-1095.

  [8] 李鋒剛,倪志偉,郜巒. 基于案例推理和多策略相似性檢索的中醫(yī)處方自動(dòng)生成[J]. 計(jì)算機(jī)應(yīng)用研究, 2010,27(2):544-547 .

  [9] Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineer,pnnciplesand methods[J]. Data and Knowledge Engineering,1998,25(1-2):161-197.

  [10] 蔣宏潮,王大亮,張德政. 基于領(lǐng)域本體的中醫(yī)知識(shí)獲取方法[J]. 計(jì)算機(jī)工程,2008,34(12):16-19.

  [11] 閻紅燦, 李敏強(qiáng), 任蘊(yùn)麗, 等. 結(jié)構(gòu)和內(nèi)容聯(lián)合提取的XML網(wǎng)頁分類研究[J]. 天津大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2009,11(5):272-276.

  [12] 黃風(fēng)華, 晏路明. 基于Jena的臺(tái)風(fēng)災(zāi)害領(lǐng)域本體模型推理[J]. 計(jì)算機(jī)應(yīng)用,2013,33(3):771-775.

  [13] 徐桂臣. 基于本體的醫(yī)學(xué)案例推理研究[D]. 杭州:浙江工業(yè)大學(xué), 2011.

  [14] 王海棠,顧君忠,楊靜,等. 基于本體的相似性計(jì)算實(shí)現(xiàn)高性能案例推理[J]. 計(jì)算機(jī)時(shí)代, 2009(1):58-60.

  [15] 謝紅薇,李建偉. 基于本體的案例推理模型研究[J]. 計(jì)算機(jī)應(yīng)用研究,2009,26(4):1422-1424.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。