《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于HowNet的詞語(yǔ)相關(guān)度計(jì)算模型
基于HowNet的詞語(yǔ)相關(guān)度計(jì)算模型
來(lái)源:微型機(jī)與應(yīng)用2012年第8期
曾淑琴,吳揚(yáng)揚(yáng)
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門(mén)361021)
摘要: 提出了詞語(yǔ)相關(guān)度模型,作為在數(shù)據(jù)空間中發(fā)現(xiàn)數(shù)據(jù)源內(nèi)容關(guān)聯(lián)的一個(gè)基礎(chǔ)。本模型基于HowNet,可以計(jì)算同種詞性以及不同詞性之間的相關(guān)度,融合了詞語(yǔ)的相似度、關(guān)聯(lián)度和實(shí)例因素,綜合獲得詞語(yǔ)的內(nèi)在相關(guān)性。通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),本模型所計(jì)算的詞語(yǔ)相關(guān)度值更加符合人們主觀上對(duì)詞語(yǔ)相關(guān)性的認(rèn)識(shí)。
Abstract:
Key words :

摘  要: 提出了詞語(yǔ)相關(guān)度模型,作為在數(shù)據(jù)空間中發(fā)現(xiàn)數(shù)據(jù)源內(nèi)容關(guān)聯(lián)的一個(gè)基礎(chǔ)。本模型基于HowNet,可以計(jì)算同種詞性以及不同詞性之間的相關(guān)度,融合了詞語(yǔ)的相似度、關(guān)聯(lián)度和實(shí)例因素,綜合獲得詞語(yǔ)的內(nèi)在相關(guān)性。通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),本模型所計(jì)算的詞語(yǔ)相關(guān)度值更加符合人們主觀上對(duì)詞語(yǔ)相關(guān)性的認(rèn)識(shí)。
關(guān)鍵詞: 數(shù)據(jù)空間;HowNet;詞語(yǔ)相關(guān)度

    語(yǔ)義相關(guān)度的研究是自然語(yǔ)義處理NLP(Natural Language Processing)的基礎(chǔ),廣泛用于語(yǔ)義消歧、信息檢索、文本分類(lèi)、文本聚類(lèi)等領(lǐng)域。本文將其作為數(shù)據(jù)空間[1]研究課題的基礎(chǔ)性內(nèi)容來(lái)研究,旨在從內(nèi)容上發(fā)現(xiàn)數(shù)據(jù)空間中的數(shù)據(jù)源之間的關(guān)聯(lián)。
    關(guān)于語(yǔ)義相關(guān)度的研究在國(guó)外較多,目前的方法一般分為兩類(lèi)[2]:一種是統(tǒng)計(jì)方法,另一種是基于語(yǔ)義詞典方法。Jiang和Conrath利用Wordnet圖的上位關(guān)系,通過(guò)合并概念c1和c2的信息內(nèi)容以及最小的共同類(lèi)屬者,綜合基于邊以及結(jié)點(diǎn)的技術(shù),再用語(yǔ)料庫(kù)統(tǒng)計(jì)作為輔助因素進(jìn)行矯正[2];Banerjee和Pedersen在Wordnet的英文語(yǔ)境下,將單詞的解釋中重疊的單詞數(shù)量的平方,及含有上下文等關(guān)系類(lèi)型的詞語(yǔ)的單詞重疊的數(shù)量的平方之和,共同作為最后詞語(yǔ)相關(guān)度的值[2]。
    國(guó)內(nèi)在語(yǔ)義相關(guān)方面的研究還較欠缺,且大多數(shù)選擇英文環(huán)境,主要基于HowNet、詞林、維基百科等知識(shí)庫(kù)[3-5]。參考文獻(xiàn)[3]根據(jù)知網(wǎng)中的特征文件下位義原和上位義原擁有的屬性以及縱向語(yǔ)義聯(lián)系和實(shí)例信息計(jì)算詞語(yǔ)的相關(guān)度。參考文獻(xiàn)[4]通過(guò)挖掘直接或間接的關(guān)系而提出的新的語(yǔ)義相關(guān)度計(jì)算模型,適用于類(lèi)似知網(wǎng)的知識(shí)體系??偨Y(jié)基于語(yǔ)義詞典度量語(yǔ)義相關(guān)度所考慮的因素,即最短路徑長(zhǎng)度、局部網(wǎng)絡(luò)密度、結(jié)點(diǎn)在層次中的深度、連接的類(lèi)型、概念結(jié)點(diǎn)的信息含量以及概念的釋義,將上述6個(gè)因素歸為三大類(lèi):結(jié)構(gòu)特點(diǎn)、信息量和概念釋義。
    本文在綜合了參考文獻(xiàn)[3]中所提到的基本義原相似度和關(guān)聯(lián)度以及其他相關(guān)研究的基礎(chǔ)上定義了一個(gè)詞語(yǔ)相關(guān)度算法模型,實(shí)現(xiàn)計(jì)算同種詞性、不同詞性詞語(yǔ)之間的相關(guān)度。
1 知網(wǎng)
    中國(guó)人民大學(xué)的董振東教授等人編寫(xiě)的《知網(wǎng)》以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,包含豐富詞匯,反映概念的共性和個(gè)性,是以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。
    知網(wǎng)中的語(yǔ)義通過(guò)義原描述,共有1 618個(gè)義原被分成 10大類(lèi),每一類(lèi)都是由一個(gè)樹(shù)結(jié)構(gòu)來(lái)存儲(chǔ),而不同類(lèi)之間的義原構(gòu)成一個(gè)網(wǎng)狀結(jié)構(gòu),它們通過(guò)解釋義原關(guān)聯(lián)起來(lái)。知網(wǎng)中的詞語(yǔ)關(guān)系類(lèi)型[6]如表1所示。


2 語(yǔ)義相關(guān)度模型
2.1 語(yǔ)義相關(guān)概念

    定義1 語(yǔ)義相似度是指兩個(gè)詞在不同的上下文中可以互相替換使用而不改變文本的句法語(yǔ)義結(jié)構(gòu)的程度[7]。
    定義2 詞語(yǔ)關(guān)聯(lián)度是指詞語(yǔ)在概念解釋上所存在的語(yǔ)義關(guān)系的程度。
    定義3 詞語(yǔ)相關(guān)度是指詞語(yǔ)間含有表1中的關(guān)系類(lèi)型或存在詞語(yǔ)隱含傳遞等相互關(guān)聯(lián)的特性,即兩個(gè)詞語(yǔ)相互關(guān)聯(lián)的程度從側(cè)面反映了兩個(gè)詞語(yǔ)在同一個(gè)語(yǔ)境中共現(xiàn)的可能性,其影響因素有詞語(yǔ)的相似性以及關(guān)聯(lián)性等。
    鑒于目前國(guó)內(nèi)還沒(méi)有對(duì)相關(guān)度判斷的標(biāo)準(zhǔn)和類(lèi)似的專門(mén)人工判斷的詞集,本實(shí)驗(yàn)中對(duì)相關(guān)度的判斷主要從兩個(gè)方面來(lái)界定:一是依據(jù)上文的定義;二是通過(guò)對(duì)比參考文獻(xiàn)[3]中相關(guān)度的實(shí)驗(yàn)結(jié)果,改進(jìn)其中一些明顯不合理的實(shí)驗(yàn)結(jié)果來(lái)確認(rèn)本方法的改進(jìn)性。
2.2 建立詞語(yǔ)語(yǔ)義相關(guān)度模型
    通過(guò)對(duì)知網(wǎng)結(jié)構(gòu)的分析,根據(jù)如下幾個(gè)因素計(jì)算語(yǔ)義相關(guān)度:
    (1)詞語(yǔ)的相似度
    知網(wǎng)中的詞語(yǔ)通過(guò)一個(gè)記錄來(lái)表示,其中有一項(xiàng)語(yǔ)義表達(dá)式DEF對(duì)該詞語(yǔ)進(jìn)行描述,語(yǔ)義表達(dá)式由概念和義原組成。知網(wǎng)中義原有3個(gè)類(lèi)別,另有一些關(guān)系符號(hào)對(duì)概念的語(yǔ)義進(jìn)行描述的義原,因此,可以將義原分為基本義原、其他義原、關(guān)系義原以及關(guān)系符號(hào)義原。詞語(yǔ)的相似度可以通過(guò)這4種義原類(lèi)型求得。
    采用下列方法計(jì)算兩個(gè)詞語(yǔ)之間的相似度:將兩個(gè)詞語(yǔ)的語(yǔ)義表達(dá)式中的義原抽取出來(lái),計(jì)算對(duì)應(yīng)義原類(lèi)型的相似度。如果某一義原類(lèi)型的對(duì)應(yīng)項(xiàng)為空,則將任何義原(或具體詞)與空值的相似度定義為一個(gè)比較小的常數(shù);如果某一義原類(lèi)型包含多個(gè)義原,則將各個(gè)義原的相似度加權(quán)平均作為該類(lèi)型義原的相似度[7]。
      第一基本義原即主要特征義原,兩個(gè)詞語(yǔ)的這一部分的相似度采用式(1)計(jì)算:
     
    關(guān)系義原即對(duì)應(yīng)于所有關(guān)系義原描述式,其值是一個(gè)特征結(jié)構(gòu),記為:sim3(p1,p2)。
    關(guān)系符號(hào)義原即對(duì)應(yīng)于關(guān)系符號(hào)描述式,其值是一個(gè)特征結(jié)構(gòu),記為:sim4(p1,p2)。
    于是,兩個(gè)概念(義項(xiàng))語(yǔ)義表達(dá)式的整體相似度為[6]:
  
    (3)實(shí)例因素
    實(shí)例因素模型即義項(xiàng)的實(shí)例單詞的集合,實(shí)例因素對(duì)相關(guān)度的影響[3]:
  

 


    從表2可知,“中國(guó)”和“美國(guó)”在參考文獻(xiàn)[7]中的相似度特別高。主要是它用其距離的倒數(shù)作為其第一義原,會(huì)出現(xiàn)分類(lèi)不明確的情況,本文采用的S型激活函數(shù)所劃分的區(qū)域,分類(lèi)比線性劃分精確合理,所計(jì)算值也更合理。“男人”和“父親”的相似度為1,“香蕉”和“蘋(píng)果”也為1,顯然太過(guò)粗糙,這種劃分分類(lèi)的方法確實(shí)存在著許多缺陷,且算出的值在客觀事實(shí)之外,本文通過(guò)修改第一義原的定義和計(jì)算,所得出的相似度分別為0.408 88和0.525 797,相比而言更合理。
    上述實(shí)驗(yàn)都是同種詞性的相似度,而相似只是相關(guān)的一個(gè)方面,故而進(jìn)行下面實(shí)驗(yàn),進(jìn)一步量化同種詞性和不同詞性之間的相關(guān)度,通過(guò)對(duì)比參考文獻(xiàn)[3]的結(jié)果進(jìn)行說(shuō)明。結(jié)果如表3所示。
    由表3可以看出,用參考文獻(xiàn)[7]所述方法算出的相似度比較粗糙,例如面包和報(bào)紙的相似度比面包和蘋(píng)果的相似度還要高,這顯然不太合理,在義原樹(shù)中,僅僅考慮語(yǔ)義距離,確實(shí)“面包”和“報(bào)紙”的距離更近,分析發(fā)現(xiàn),這是因?yàn)闆](méi)有考慮義原關(guān)聯(lián)度原因?qū)е碌?,而本文?jì)算出來(lái)的結(jié)果對(duì)比參考文獻(xiàn)[7]和參考文獻(xiàn)[3],結(jié)果更合理些。

    在參考文獻(xiàn)[3]的結(jié)果中,“面包”和“巧克力”的相關(guān)度為1,這顯然與事實(shí)不符,通常認(rèn)為相關(guān)度為1是完全相關(guān),趨于同一個(gè)事物,雖然這兩個(gè)詞語(yǔ)同屬于“食品”范疇,關(guān)聯(lián)度方面確實(shí)很大,可是相似度方面卻相差甚遠(yuǎn),因此其相關(guān)度值不可能為1。此外,對(duì)事物的看法傾向于一個(gè)動(dòng)賓方式,“削”和“皮”與“削”和“刀”,后者的搭配中表明用“刀”進(jìn)行“削”,但是也存在用別的東西來(lái)“削”,而“削皮”這個(gè)搭配在人的直觀認(rèn)知中應(yīng)該更加相關(guān),故而“削”和“皮”的相關(guān)度應(yīng)該更甚于“削”和“刀”,在本文方法中前者為0.096 533,后者為0.058 880,也符合習(xí)慣使用上對(duì)相關(guān)度的主觀判斷。另外經(jīng)分析可以看出,本文方法計(jì)算出來(lái)的數(shù)值都會(huì)偏小一些,且不會(huì)出現(xiàn)極端值問(wèn)題,比較平穩(wěn),從整體上改進(jìn)了參考文獻(xiàn)[3]中的實(shí)驗(yàn)結(jié)果。
    實(shí)驗(yàn)所存在的不足是結(jié)果對(duì)比不夠明顯,只是改進(jìn)了偏差比較大的結(jié)果,其原因有兩方面,一是對(duì)于相關(guān)度的度量確實(shí)是一個(gè)比較主觀的做法,且目前沒(méi)有基于統(tǒng)計(jì)的相關(guān)度的判斷標(biāo)準(zhǔn),因此很難從微觀上細(xì)小地區(qū)分方法的優(yōu)劣;其次,知網(wǎng)本身有待進(jìn)一步完善和補(bǔ)充外,通過(guò)義原的相似度(相對(duì)稀疏的層次結(jié)構(gòu))來(lái)反映大量詞語(yǔ)之間的相似度(相對(duì)密集)的方法本身是否存在一定的上限還需要進(jìn)一步深入研究,且許多詞語(yǔ)的編撰的定義項(xiàng)存在著一些不完整的方面。
    本實(shí)驗(yàn)通過(guò)自適應(yīng)的參數(shù)來(lái)進(jìn)行調(diào)整,沒(méi)有固定權(quán)值,考慮到的是動(dòng)詞間、名詞間以及名詞之間和動(dòng)詞間,其所側(cè)重的因素不同,如名詞之間的相關(guān)度計(jì)算,相似度占的比重更大,而在動(dòng)詞和名詞間,相似度比重應(yīng)該較小,關(guān)聯(lián)度應(yīng)占更大的比重,這樣才更加合理,因此,自動(dòng)調(diào)整好各參數(shù),偏向各自比較側(cè)重的因素,以便獲得更好的效果。
    詞語(yǔ)的語(yǔ)義相關(guān)度研究在國(guó)內(nèi)并不多,本文以知網(wǎng)為知識(shí)庫(kù),在參考文獻(xiàn)[3]的基礎(chǔ)上改進(jìn)算法模型,以此提出的相關(guān)度模型所得出的結(jié)果比較符合人類(lèi)主觀上對(duì)相關(guān)度的認(rèn)識(shí)。
    今后的工作主要是將此詞語(yǔ)相關(guān)度模型應(yīng)用到數(shù)據(jù)空間中數(shù)據(jù)源內(nèi)容關(guān)聯(lián)性的發(fā)現(xiàn)機(jī)制中去,提出一個(gè)基于語(yǔ)義模式匹配的相關(guān)性匹配策略,以本文中的詞語(yǔ)相關(guān)度模型為依托,從而發(fā)現(xiàn)數(shù)據(jù)空間內(nèi)部的各種數(shù)據(jù)源的聯(lián)系性。
參考文獻(xiàn)
[1] 李玉坤,孟小峰,張相於.數(shù)據(jù)空間技術(shù)研究[J].軟件學(xué)報(bào),2008,19(8):2018-2031.
[2] Hua Yu,Jiang Hong,Zhu Yifeng,et al.Smart Store:a new metadata organization paradigm with metadata semantic-awareness for next-generation file systems[C].University of Nebraska-Liclon,Computer Science and Engineering,2008.
[3] 許云,樊孝忠,張鋒.基于知網(wǎng)的語(yǔ)義相關(guān)度計(jì)算[J].北京理工大學(xué)學(xué)報(bào),2005,25(5):411-414.
[4] 王紅玲,呂強(qiáng),徐瑞.一種基于知網(wǎng)的中文語(yǔ)義相關(guān)度計(jì)算模型[C].蘇州:第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議,2007.
[5] 李峰,李芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算—基于知網(wǎng)2000[J].中文信息學(xué)報(bào),2007,21(3):101-107.
[6] 李素建.基于語(yǔ)義計(jì)算的語(yǔ)句相關(guān)度研究[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(7):75-76.
[7] 劉群,李素健.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C].臺(tái)北:第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì),2002.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。