123,123

基于HowNet的词语相关度计算模型

来源：微型机与应用2012年第8期

曾淑琴，吴扬扬

(华侨大学计算机科学与技术学院，福建厦门361021)

摘要： 提出了词语相关度模型，作为在数据空间中发现数据源内容关联的一个基础。本模型基于HowNet，可以计算同种词性以及不同词性之间的相关度，融合了词语的相似度、关联度和实例因素,综合获得词语的内在相关性。通过对比实验发现，本模型所计算的词语相关度值更加符合人们主观上对词语相关性的认识。

關(guān)鍵詞： 软件数据空间 HowNet 词语相关度

Abstract：

Key words :

摘要： 提出了詞語相關(guān)度模型，作為在數(shù)據(jù)空間中發(fā)現(xiàn)數(shù)據(jù)源內(nèi)容關(guān)聯(lián)的一個(gè)基礎(chǔ)。本模型基于HowNet，可以計(jì)算同種詞性以及不同詞性之間的相關(guān)度，融合了詞語的相似度、關(guān)聯(lián)度和實(shí)例因素,綜合獲得詞語的內(nèi)在相關(guān)性。通過對比實(shí)驗(yàn)發(fā)現(xiàn)，本模型所計(jì)算的詞語相關(guān)度值更加符合人們主觀上對詞語相關(guān)性的認(rèn)識。
關(guān)鍵詞： 數(shù)據(jù)空間；HowNet；詞語相關(guān)度

    語義相關(guān)度的研究是自然語義處理NLP(Natural Language Processing)的基礎(chǔ)，廣泛用于語義消歧、信息檢索、文本分類、文本聚類等領(lǐng)域。本文將其作為數(shù)據(jù)空間[1]研究課題的基礎(chǔ)性內(nèi)容來研究，旨在從內(nèi)容上發(fā)現(xiàn)數(shù)據(jù)空間中的數(shù)據(jù)源之間的關(guān)聯(lián)。
   關(guān)于語義相關(guān)度的研究在國外較多，目前的方法一般分為兩類[2]：一種是統(tǒng)計(jì)方法，另一種是基于語義詞典方法。Jiang和Conrath利用Wordnet圖的上位關(guān)系，通過合并概念c1和c2的信息內(nèi)容以及最小的共同類屬者，綜合基于邊以及結(jié)點(diǎn)的技術(shù)，再用語料庫統(tǒng)計(jì)作為輔助因素進(jìn)行矯正[2]；Banerjee和Pedersen在Wordnet的英文語境下，將單詞的解釋中重疊的單詞數(shù)量的平方，及含有上下文等關(guān)系類型的詞語的單詞重疊的數(shù)量的平方之和，共同作為最后詞語相關(guān)度的值[2]。
   國內(nèi)在語義相關(guān)方面的研究還較欠缺，且大多數(shù)選擇英文環(huán)境，主要基于HowNet、詞林、維基百科等知識庫[3-5]。參考文獻(xiàn)[3]根據(jù)知網(wǎng)中的特征文件下位義原和上位義原擁有的屬性以及縱向語義聯(lián)系和實(shí)例信息計(jì)算詞語的相關(guān)度。參考文獻(xiàn)[4]通過挖掘直接或間接的關(guān)系而提出的新的語義相關(guān)度計(jì)算模型，適用于類似知網(wǎng)的知識體系?？偨Y(jié)基于語義詞典度量語義相關(guān)度所考慮的因素，即最短路徑長度、局部網(wǎng)絡(luò)密度、結(jié)點(diǎn)在層次中的深度、連接的類型、概念結(jié)點(diǎn)的信息含量以及概念的釋義，將上述6個(gè)因素歸為三大類：結(jié)構(gòu)特點(diǎn)、信息量和概念釋義。
   本文在綜合了參考文獻(xiàn)[3]中所提到的基本義原相似度和關(guān)聯(lián)度以及其他相關(guān)研究的基礎(chǔ)上定義了一個(gè)詞語相關(guān)度算法模型，實(shí)現(xiàn)計(jì)算同種詞性、不同詞性詞語之間的相關(guān)度。
1 知網(wǎng)
   中國人民大學(xué)的董振東教授等人編寫的《知網(wǎng)》以漢語和英語的詞語所代表的概念為描述對象，包含豐富詞匯，反映概念的共性和個(gè)性，是以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。
   知網(wǎng)中的語義通過義原描述，共有1 618個(gè)義原被分成 10大類，每一類都是由一個(gè)樹結(jié)構(gòu)來存儲，而不同類之間的義原構(gòu)成一個(gè)網(wǎng)狀結(jié)構(gòu)，它們通過解釋義原關(guān)聯(lián)起來。知網(wǎng)中的詞語關(guān)系類型[6]如表1所示。

2 語義相關(guān)度模型
2.1 語義相關(guān)概念
   定義1 語義相似度是指兩個(gè)詞在不同的上下文中可以互相替換使用而不改變文本的句法語義結(jié)構(gòu)的程度[7]。
   定義2 詞語關(guān)聯(lián)度是指詞語在概念解釋上所存在的語義關(guān)系的程度。
   定義3 詞語相關(guān)度是指詞語間含有表1中的關(guān)系類型或存在詞語隱含傳遞等相互關(guān)聯(lián)的特性，即兩個(gè)詞語相互關(guān)聯(lián)的程度從側(cè)面反映了兩個(gè)詞語在同一個(gè)語境中共現(xiàn)的可能性，其影響因素有詞語的相似性以及關(guān)聯(lián)性等。
   鑒于目前國內(nèi)還沒有對相關(guān)度判斷的標(biāo)準(zhǔn)和類似的專門人工判斷的詞集，本實(shí)驗(yàn)中對相關(guān)度的判斷主要從兩個(gè)方面來界定：一是依據(jù)上文的定義；二是通過對比參考文獻(xiàn)[3]中相關(guān)度的實(shí)驗(yàn)結(jié)果，改進(jìn)其中一些明顯不合理的實(shí)驗(yàn)結(jié)果來確認(rèn)本方法的改進(jìn)性。
2.2 建立詞語語義相關(guān)度模型
   通過對知網(wǎng)結(jié)構(gòu)的分析，根據(jù)如下幾個(gè)因素計(jì)算語義相關(guān)度：
   （1）詞語的相似度
   知網(wǎng)中的詞語通過一個(gè)記錄來表示，其中有一項(xiàng)語義表達(dá)式DEF對該詞語進(jìn)行描述，語義表達(dá)式由概念和義原組成。知網(wǎng)中義原有3個(gè)類別，另有一些關(guān)系符號對概念的語義進(jìn)行描述的義原，因此，可以將義原分為基本義原、其他義原、關(guān)系義原以及關(guān)系符號義原。詞語的相似度可以通過這4種義原類型求得。
   采用下列方法計(jì)算兩個(gè)詞語之間的相似度：將兩個(gè)詞語的語義表達(dá)式中的義原抽取出來，計(jì)算對應(yīng)義原類型的相似度。如果某一義原類型的對應(yīng)項(xiàng)為空，則將任何義原(或具體詞)與空值的相似度定義為一個(gè)比較小的常數(shù)；如果某一義原類型包含多個(gè)義原，則將各個(gè)義原的相似度加權(quán)平均作為該類型義原的相似度[7]。
      第一基本義原即主要特征義原，兩個(gè)詞語的這一部分的相似度采用式（1）計(jì)算：

    關(guān)系義原即對應(yīng)于所有關(guān)系義原描述式，其值是一個(gè)特征結(jié)構(gòu)，記為：sim3(p1，p2)。
   關(guān)系符號義原即對應(yīng)于關(guān)系符號描述式，其值是一個(gè)特征結(jié)構(gòu)，記為：sim4(p1，p2)。
   于是，兩個(gè)概念(義項(xiàng))語義表達(dá)式的整體相似度為[6]：

    （3）實(shí)例因素
   實(shí)例因素模型即義項(xiàng)的實(shí)例單詞的集合，實(shí)例因素對相關(guān)度的影響[3]：

    從表2可知，“中國”和“美國”在參考文獻(xiàn)[7]中的相似度特別高。主要是它用其距離的倒數(shù)作為其第一義原，會出現(xiàn)分類不明確的情況，本文采用的S型激活函數(shù)所劃分的區(qū)域，分類比線性劃分精確合理，所計(jì)算值也更合理。“男人”和“父親”的相似度為1，“香蕉”和“蘋果”也為1，顯然太過粗糙，這種劃分分類的方法確實(shí)存在著許多缺陷，且算出的值在客觀事實(shí)之外，本文通過修改第一義原的定義和計(jì)算，所得出的相似度分別為0.408 88和0.525 797，相比而言更合理。
   上述實(shí)驗(yàn)都是同種詞性的相似度，而相似只是相關(guān)的一個(gè)方面，故而進(jìn)行下面實(shí)驗(yàn)，進(jìn)一步量化同種詞性和不同詞性之間的相關(guān)度，通過對比參考文獻(xiàn)[3]的結(jié)果進(jìn)行說明。結(jié)果如表3所示。
   由表3可以看出，用參考文獻(xiàn)[7]所述方法算出的相似度比較粗糙，例如面包和報(bào)紙的相似度比面包和蘋果的相似度還要高，這顯然不太合理，在義原樹中，僅僅考慮語義距離，確實(shí)“面包”和“報(bào)紙”的距離更近，分析發(fā)現(xiàn)，這是因?yàn)闆]有考慮義原關(guān)聯(lián)度原因?qū)е碌?，而本文?jì)算出來的結(jié)果對比參考文獻(xiàn)[7]和參考文獻(xiàn)[3]，結(jié)果更合理些。

    在參考文獻(xiàn)[3]的結(jié)果中，“面包”和“巧克力”的相關(guān)度為1，這顯然與事實(shí)不符，通常認(rèn)為相關(guān)度為1是完全相關(guān)，趨于同一個(gè)事物，雖然這兩個(gè)詞語同屬于“食品”范疇，關(guān)聯(lián)度方面確實(shí)很大，可是相似度方面卻相差甚遠(yuǎn)，因此其相關(guān)度值不可能為1。此外，對事物的看法傾向于一個(gè)動賓方式，“削”和“皮”與“削”和“刀”，后者的搭配中表明用“刀”進(jìn)行“削”，但是也存在用別的東西來“削”，而“削皮”這個(gè)搭配在人的直觀認(rèn)知中應(yīng)該更加相關(guān)，故而“削”和“皮”的相關(guān)度應(yīng)該更甚于“削”和“刀”，在本文方法中前者為0.096 533，后者為0.058 880，也符合習(xí)慣使用上對相關(guān)度的主觀判斷。另外經(jīng)分析可以看出，本文方法計(jì)算出來的數(shù)值都會偏小一些，且不會出現(xiàn)極端值問題，比較平穩(wěn)，從整體上改進(jìn)了參考文獻(xiàn)[3]中的實(shí)驗(yàn)結(jié)果。
   實(shí)驗(yàn)所存在的不足是結(jié)果對比不夠明顯，只是改進(jìn)了偏差比較大的結(jié)果，其原因有兩方面，一是對于相關(guān)度的度量確實(shí)是一個(gè)比較主觀的做法，且目前沒有基于統(tǒng)計(jì)的相關(guān)度的判斷標(biāo)準(zhǔn)，因此很難從微觀上細(xì)小地區(qū)分方法的優(yōu)劣；其次，知網(wǎng)本身有待進(jìn)一步完善和補(bǔ)充外，通過義原的相似度(相對稀疏的層次結(jié)構(gòu))來反映大量詞語之間的相似度(相對密集)的方法本身是否存在一定的上限還需要進(jìn)一步深入研究，且許多詞語的編撰的定義項(xiàng)存在著一些不完整的方面。
   本實(shí)驗(yàn)通過自適應(yīng)的參數(shù)來進(jìn)行調(diào)整，沒有固定權(quán)值，考慮到的是動詞間、名詞間以及名詞之間和動詞間，其所側(cè)重的因素不同，如名詞之間的相關(guān)度計(jì)算，相似度占的比重更大，而在動詞和名詞間，相似度比重應(yīng)該較小，關(guān)聯(lián)度應(yīng)占更大的比重，這樣才更加合理，因此，自動調(diào)整好各參數(shù)，偏向各自比較側(cè)重的因素，以便獲得更好的效果。
   詞語的語義相關(guān)度研究在國內(nèi)并不多，本文以知網(wǎng)為知識庫，在參考文獻(xiàn)[3]的基礎(chǔ)上改進(jìn)算法模型，以此提出的相關(guān)度模型所得出的結(jié)果比較符合人類主觀上對相關(guān)度的認(rèn)識。
   今后的工作主要是將此詞語相關(guān)度模型應(yīng)用到數(shù)據(jù)空間中數(shù)據(jù)源內(nèi)容關(guān)聯(lián)性的發(fā)現(xiàn)機(jī)制中去，提出一個(gè)基于語義模式匹配的相關(guān)性匹配策略，以本文中的詞語相關(guān)度模型為依托，從而發(fā)現(xiàn)數(shù)據(jù)空間內(nèi)部的各種數(shù)據(jù)源的聯(lián)系性。
參考文獻(xiàn)
[1] 李玉坤,孟小峰，張相於.數(shù)據(jù)空間技術(shù)研究[J].軟件學(xué)報(bào)，2008，19(8)：2018-2031.
[2] Hua Yu，Jiang Hong，Zhu Yifeng，et al.Smart Store：a new metadata organization paradigm with metadata semantic-awareness for next-generation file systems[C].University of Nebraska-Liclon，Computer Science and Engineering，2008.
[3] 許云，樊孝忠，張鋒.基于知網(wǎng)的語義相關(guān)度計(jì)算[J].北京理工大學(xué)學(xué)報(bào)，2005，25(5)：411-414.
[4] 王紅玲，呂強(qiáng)，徐瑞.一種基于知網(wǎng)的中文語義相關(guān)度計(jì)算模型[C].蘇州：第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議，2007.
[5] 李峰，李芳.中文詞語語義相似度計(jì)算—基于知網(wǎng)2000[J].中文信息學(xué)報(bào)，2007，21(3)：101-107.
[6] 李素建.基于語義計(jì)算的語句相關(guān)度研究[J].計(jì)算機(jī)工程與應(yīng)用，2002，38(7)：75-76.
[7] 劉群，李素健.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[C].臺北：第三屆漢語詞匯語義學(xué)研討會，2002.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容