123,123,123

中文客户评论对象特征的抽取与聚类方法

2014年微型机与应用第17期

周红庆，吴扬扬

华侨大学计算机科学与技术学院，福建厦门 361021

摘要： 提出了一种评价对象特征抽取与聚类方法，其基本思想是：首先运用Apriori算法和剪枝方法从客户评论中抽取评论对象特征集；然后，以特征之间的基于Hownet的词语相似度和特征与观点共现的信息作为聚类依据，对特征进行聚类。采用通过从互联网获得的客户评论语料对该方法进行了实验，实验结果验证了该方法的有效性。

關(guān)鍵詞： 关联规则特征抽取特征聚类语义相关度

Abstract：

Key words :

　　摘要：提出了一種評(píng)價(jià)對(duì)象特征抽取與聚類方法，其基本思想是：首先運(yùn)用Apriori算法和剪枝方法從客戶評(píng)論中抽取評(píng)論對(duì)象特征集；然后，以特征之間的基于Hownet的詞語(yǔ)相似度和特征與觀點(diǎn)共現(xiàn)的信息作為聚類依據(jù)，對(duì)特征進(jìn)行聚類。采用通過從互聯(lián)網(wǎng)獲得的客戶評(píng)論語(yǔ)料對(duì)該方法進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。

　　關(guān)鍵詞：關(guān)聯(lián)規(guī)則；特征抽取；特征聚類；語(yǔ)義相關(guān)度；相鄰共現(xiàn)

　　隨著互聯(lián)網(wǎng)的高速發(fā)展，網(wǎng)絡(luò)已經(jīng)成為人們生活中不可或缺的一部分。網(wǎng)絡(luò)改變了人們表達(dá)觀點(diǎn)的方式，人們可將對(duì)某些產(chǎn)品的評(píng)論發(fā)布到商品網(wǎng)站上，或者在論壇、討論組、博客中表達(dá)自己的觀點(diǎn)。這些在線評(píng)價(jià)行為不僅為商家提供了一個(gè)信息的展示平臺(tái)，也為消費(fèi)者提供了一個(gè)產(chǎn)品使用經(jīng)驗(yàn)交流以及質(zhì)量評(píng)價(jià)的平臺(tái)。因此很多網(wǎng)民在購(gòu)買某類產(chǎn)品前，往往會(huì)選擇先上網(wǎng)瀏覽一些相關(guān)產(chǎn)品的信息，了解其他消費(fèi)者的使用體驗(yàn)，深入比較產(chǎn)品之間的性能，從而使自己的消費(fèi)更趨理想化[1]。

　　評(píng)論對(duì)象特征抽取作為評(píng)價(jià)意見挖掘的一項(xiàng)研究?jī)?nèi)容，旨在通過對(duì)客戶評(píng)論進(jìn)行分析，挖掘出用戶們感興趣的對(duì)象特征。由于網(wǎng)上評(píng)論中，評(píng)論對(duì)象特征過于繁多，同類的特征可以有多種描述，如產(chǎn)品的“外觀”和“外形”描述的就是同一類特征。因此，準(zhǔn)確抽取評(píng)價(jià)對(duì)象特征是一個(gè)必須解決的關(guān)鍵問題。

　　本文首先運(yùn)用Apriori算法和鄰近規(guī)則從客戶評(píng)論中提取候選特征集；然后，根據(jù)特征之間的語(yǔ)義相關(guān)度及特征和觀點(diǎn)共現(xiàn)的信息對(duì)特征進(jìn)行自動(dòng)聚類。提出了一種新的計(jì)算特征之間相似度的方法，基于這種相似度聚類特征能達(dá)到較好的聚類效果，解決了特征在評(píng)論中擁有不同表述的問題。

1 相關(guān)研究

　　自動(dòng)提取評(píng)價(jià)對(duì)象特征主要使用詞性標(biāo)注、句法分析、文本模式等自然語(yǔ)言技術(shù)對(duì)客戶評(píng)論中的語(yǔ)句進(jìn)行分析，從而自動(dòng)發(fā)現(xiàn)產(chǎn)品特征[2]。具有代表性的工作是Hu Mingqing和Liu Bing基于關(guān)聯(lián)規(guī)則算法從英文評(píng)論語(yǔ)料中抽取頻繁項(xiàng)，再根據(jù)兩條啟發(fā)式規(guī)則對(duì)頻繁項(xiàng)進(jìn)行過濾得到特征集合[3]。Yi J等人定義基本名詞短語(yǔ)模式，并使用混合模型和相似度測(cè)試抽取特征[4]。POPE SCV A M采用KnowItAll中人工定義的抽取指定關(guān)系(part-of關(guān)系is-a關(guān)系)的文本模式抽取產(chǎn)品特征[5]等。

　　在特征詞聚類方面，也有一些學(xué)者做了一些研究，如CareninE G等人采用建立相似度矩陣，將一些特征映射到用戶定義的特征分類上的方法進(jìn)行特征分類[6]。其中相似度的計(jì)算方法有Consine、Jaccard等[7]。Guo H等人提出了mLSA的無(wú)監(jiān)督算法進(jìn)行特征分類，該算法將LaSA模型建立了兩次[8]。Zhai zhongwei等人提出了一種SC-EM算法[9]。

2 中文客戶評(píng)論對(duì)象特征的抽取

　　在實(shí)際應(yīng)用中用戶比較關(guān)注的對(duì)象特征在評(píng)論中出現(xiàn)就比較頻繁。因此，本文首先運(yùn)用Apriori算法從客戶評(píng)論中提取具有一定支持度的頻繁出現(xiàn)的名詞或名詞短語(yǔ)；然后對(duì)提取的頻繁項(xiàng)集進(jìn)行剪枝，去掉一些不合適的頻繁項(xiàng)。

　　首先需要對(duì)將評(píng)論庫(kù)中的數(shù)據(jù)進(jìn)行預(yù)處理。對(duì)評(píng)論庫(kù)中的文本數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注。本文的分詞工具采用中科院計(jì)算所所研發(fā)的ICTCLAS系統(tǒng)，利用該工具對(duì)評(píng)論文本語(yǔ)料進(jìn)行分詞和二級(jí)詞性標(biāo)注。名詞短語(yǔ)的提取遵循兩點(diǎn)：⑴有兩個(gè)或3個(gè)名詞相鄰的短語(yǔ)；⑵名詞與名詞之間僅有結(jié)構(gòu)助詞“的”相連。在進(jìn)行二級(jí)詞性標(biāo)注后，可根據(jù)上面的兩個(gè)原則提取名詞短語(yǔ)。然后，利用詞性標(biāo)注后的評(píng)論語(yǔ)料創(chuàng)建關(guān)聯(lián)規(guī)則事務(wù)文件。以評(píng)論句為事務(wù)單位，提取出其中的名詞和名詞短語(yǔ)作為項(xiàng)，組成一個(gè)個(gè)事務(wù)。將所有評(píng)論語(yǔ)料中的事務(wù)都存儲(chǔ)在一個(gè)事務(wù)文件中。

　　利用Apriori算法與剪枝方法抽取頻繁特征集。首先，運(yùn)用Apriori算法從評(píng)論語(yǔ)料事務(wù)文件中抽取出支持度大于最小支持度的1-k維頻繁項(xiàng)集。然后進(jìn)行鄰近規(guī)則剪枝，去掉不在其相鄰位置的頻繁項(xiàng)；利用獨(dú)立支持度剪枝，去掉包含在其他項(xiàng)中冗余頻繁項(xiàng)；最后，去除單字(因評(píng)論對(duì)象的特征一般不是單字)得到評(píng)價(jià)對(duì)象特征集。

3 評(píng)價(jià)對(duì)象特征的聚類

　　由于同類的特征可能有不同的表述，所以需要對(duì)挖掘出來(lái)的眾多候選評(píng)價(jià)對(duì)象特征進(jìn)行自動(dòng)聚類。

　　因?yàn)橥愄卣骶哂邢嘟x，所以將特征語(yǔ)義相似度作為聚類依據(jù)。同時(shí)，在評(píng)論中，特征詞和觀點(diǎn)詞經(jīng)常是成對(duì)出現(xiàn)的，對(duì)于同類特征其對(duì)應(yīng)的觀點(diǎn)詞往往是相同或相近的，所以將特征的觀點(diǎn)詞集相似度也作為聚類依據(jù)。

　　3.1 特征的語(yǔ)義相似度相似度度量

　　3.1.1 基于Hownet的詞語(yǔ)相似度計(jì)算

　　在知網(wǎng)的基礎(chǔ)上，劉群和李素建[11]提出了一種基于Hownet的詞語(yǔ)相似度的計(jì)算方法。對(duì)于兩個(gè)漢語(yǔ)詞語(yǔ)W1和W2，如果W1有n個(gè)義項(xiàng)（概念）：S11,S12,…,S1n，W2有m個(gè)義項(xiàng)（概念）：S21,S22,…,S2m，對(duì)兩個(gè)詞語(yǔ)的概念任意兩兩組合進(jìn)行相似度計(jì)算，取最大的概念相似度作為詞語(yǔ)之間的相似度，計(jì)算公式如下：

　　將兩個(gè)詞語(yǔ)之間的相似度的問題歸結(jié)為兩個(gè)概念之間的問題。

　　基于Hownet的特征相似度算法的具體步驟描述如下：

　?。?）獲得輸入：兩個(gè)特征W1和W2。

　?。?）查找hownet的語(yǔ)義網(wǎng)絡(luò)文件，獲得W1的概念集合（S11,S12,…,S1n）和W2的概念集合（S21,S22,…,S2m）。

　　（3）選擇兩個(gè)概念S1i，S2j，通過hownet的詞典數(shù)據(jù)庫(kù)計(jì)算兩個(gè)概念的相似度。

　?。?）重復(fù)步驟（3），獲得兩個(gè)詞語(yǔ)每一對(duì)概念之間的相似度值，根據(jù)式（1），從中選擇最大值作為最終的詞語(yǔ)相似度值。

　　算法主要利用詞語(yǔ)的概念間相似度來(lái)衡量特征詞語(yǔ)的相似度，但由于在分詞階段“詞義排岐”（能根據(jù)詞語(yǔ)所在上下文確定該詞語(yǔ)的正確解釋義項(xiàng)）還是一個(gè)無(wú)法解決的問題，因此該種算法考慮的都是孤立的兩個(gè)詞語(yǔ)的相似度。為了使本文的研究更加準(zhǔn)確，需要考慮到特征的上下文信息，即特征和觀點(diǎn)的共現(xiàn)信息。

　　3.1.2 基于特征和觀點(diǎn)共現(xiàn)信息的特征相似度計(jì)算

　　在評(píng)論中，由于特征與觀點(diǎn)詞的共現(xiàn)關(guān)系，將同時(shí)出現(xiàn)的特征和觀點(diǎn)稱為“特征—觀點(diǎn)對(duì)”，那么對(duì)于一個(gè)特征可能對(duì)應(yīng)多個(gè)觀點(diǎn)詞。運(yùn)用向量空間模型（VSM）表示產(chǎn)品特征信息，特征向量化為feather(O1,O2,…,Om)，O1到Om表示feather所對(duì)應(yīng)的全部觀點(diǎn)詞。

　　基于向量空間模型提起特征的觀點(diǎn)詞集的具體步驟如下：

　　步驟1：確定觀點(diǎn)句：分析評(píng)論庫(kù)中的每一個(gè)句子，如果該句中包含形容詞，則確定該句為觀點(diǎn)句。

　　步驟2：提取特征的觀點(diǎn)詞集：通過分析上一步確定的觀點(diǎn)句，以單句為單位，將所有的形容詞與評(píng)價(jià)對(duì)象的候選特征按出現(xiàn)在句子中的順序存放在文件中。提取與形容詞距離最近的特征，遍歷特征的向量空間模型中的項(xiàng)，查看該形容詞是否已經(jīng)存在模型中。如果已經(jīng)存在，將與形容詞一樣的項(xiàng)的權(quán)重加1；如果還未存在，將該形容詞作為項(xiàng)加入到特征的向量空間模型中，并將該項(xiàng)的權(quán)重設(shè)置為1。

　　則特征t1和t2的相似度定義如下：

　　simA(Oi，Oj)為特征t1的觀點(diǎn)詞Oj和特征t2的觀點(diǎn)詞Oj基于hownet的詞語(yǔ)相似度。

　　3.1.3 特征間的語(yǔ)義相似度計(jì)算

　　結(jié)合上面兩種相似度算法定義特征間的語(yǔ)義相似度算法，按式（3）計(jì)算特征Si和Sj之間的相似度：

　　式中，simA(Si，Sj)為特征之間基于hownet的詞語(yǔ)相似度；simA(Si，Sj)為基于特征和觀點(diǎn)信息共現(xiàn)的特征相似度；a和b為參數(shù)，其中a+b=1。其中基于特征和觀點(diǎn)共現(xiàn)信息的特征相似度的比重更大點(diǎn)。則將參數(shù)b從0.5~0.9每隔0.1運(yùn)行一次，經(jīng)過試驗(yàn)發(fā)現(xiàn)參數(shù)a取0.3，b取0.7特征的相似結(jié)果最好。

　　3.2 特征聚類

　　在聚類過程中，首先將每個(gè)特征看成包含一個(gè)特征的簇，以特征之間的相似度大小聚類，使得每個(gè)特征與該簇其他特征之間的相似度均超過設(shè)置的閾值missing image file，具體算法如下。

　　算法2特征的聚類算法

　　輸入：候選評(píng)價(jià)對(duì)象特征集D，閾值missing image file

　　輸出：特征簇集合F

　　for each seed∈D do //對(duì)所有特征掃描一遍

　　if seed不是任何特征簇中的特征 then

　　Seedlist.add(seed); //將seed加入種子隊(duì)列中

　　for each t∈D do

　　if (t≠seed)AND(t不是任何特征簇中的特征) then

　　if sim(t,seed)>missing image filethen //將所有與特征seed相似度大于missing image file的

　　SimItem.add(t); //未聚類特征加入待聚類集合中

　　end if

　　end for

　　for each f∈SimItem do //將SimItem中所有待聚類特征掃描一遍

　　d=Seedlist.gethead(); //取出種子隊(duì)列的隊(duì)頭種子d

　　if sim(f,d)>missing image filethen //若特征f與種子d的相似度大于missing image file，

　　Seedlist.add(t); //則將f加入種子隊(duì)列成為新的種子

　　end if

　　end for

　　C={f|f存在于Seedlist } //將種子隊(duì)列中的特征一同放入特征簇中

　　Seedlist.clear(); //清空種子隊(duì)列

　　F=∪{C} //將得到的特征簇加入到特征簇集合中

　　end if

　　end for

4 實(shí)驗(yàn)結(jié)果與分析

　　4.1 實(shí)驗(yàn)語(yǔ)料及性能評(píng)價(jià)指標(biāo)

　　本文選取的是從網(wǎng)絡(luò)上下載下來(lái)的評(píng)論數(shù)據(jù)，選取5種產(chǎn)品的客戶評(píng)論作為實(shí)驗(yàn)語(yǔ)料進(jìn)行實(shí)驗(yàn)，這5種商品分別為手機(jī)(三星Note2 N7100)、數(shù)碼相機(jī)(索尼DSC-RX100)、DVD機(jī)(飛利浦DVP3600)、mp3播放器(蘋果iPod touch4)以及書籍（《達(dá)芬奇的密碼》）。為了選取合適的閾值，還需要一些評(píng)論語(yǔ)料作為訓(xùn)練語(yǔ)料，選取3種產(chǎn)品的客戶評(píng)論作為訓(xùn)練語(yǔ)料，這3種產(chǎn)品分別為手機(jī)（諾基亞N9 ）、數(shù)碼相機(jī)（cannon EOS 70D、sony HX50 ）。針對(duì)每一種產(chǎn)品評(píng)論，用人工標(biāo)注的方法對(duì)評(píng)價(jià)對(duì)象特征進(jìn)行標(biāo)注得到特征集。

　　按照前面的方法利用C#語(yǔ)言開發(fā)了一個(gè)實(shí)驗(yàn)系統(tǒng)。為了評(píng)估方法的性能，本文采用Rand Statistics評(píng)價(jià)聚類的有效性。該聚類評(píng)價(jià)標(biāo)準(zhǔn)的具體內(nèi)容[9]是：假設(shè)特征集L的一個(gè)聚類結(jié)果是R={R1,R2,…,Rk}特征集的已知?jiǎng)澐譃镃={C1,C2,…,Cs}，可以通過比較R與C的差異性來(lái)評(píng)價(jià)聚類的質(zhì)量。對(duì)于特征集的任意一對(duì)特征（li，lj）統(tǒng)計(jì)下列項(xiàng)。

　　SS：li，lj在C中屬于同一個(gè)類，在R中也屬于同一個(gè)類。

　　SD：li，lj在C中屬于同一個(gè)類，在R中不屬于同一個(gè)類。

　　DS：li，lj在C中不屬于同一個(gè)類，在R中屬于同一個(gè)類。

　　DD：li，lj在C中不屬于同一個(gè)類，在R中也不屬于同一個(gè)類。

　　用a、b、c、d來(lái)表示SS、SD、DS、DD的數(shù)目。設(shè)a+b+c+d=n，n為N個(gè)特征中所有特征對(duì)的個(gè)數(shù)，n=N(N-1)/2，那么R與C之間的相似程度可用如下公式表明：Rand Statistic S=(a+b)/n。Rand Statistic的值介于0和1之間，該值越大，表明R與C的相似程度越大，聚類效果越好。

　　4.2 實(shí)驗(yàn)結(jié)果

　　根據(jù)上述方法，實(shí)現(xiàn)了一個(gè)評(píng)價(jià)對(duì)象特征抽取與聚類的程序模塊。

　　在評(píng)價(jià)對(duì)象特征的抽取階段，利用Apriori算法抽取頻繁特征時(shí)，采用的最小支持度minsupport為2%。由于3項(xiàng)以上的頻繁項(xiàng)可以很明顯的看出不是評(píng)價(jià)對(duì)象特征，所以頻繁項(xiàng)的最高維度k設(shè)置為3。通過對(duì)這5種產(chǎn)品的評(píng)論語(yǔ)料進(jìn)行特征抽取實(shí)驗(yàn)得到各評(píng)價(jià)對(duì)象的特征。

　　在評(píng)價(jià)對(duì)象特征的聚類過程中，聚類算法中閾值 UGFDHY}XOZB7NKXK}WJHF]0.jpg 均是非常重要的參數(shù)，在本實(shí)驗(yàn)中，經(jīng)過對(duì)訓(xùn)練語(yǔ)料進(jìn)行的閾值訓(xùn)練，的值取0.45，實(shí)驗(yàn)?zāi)艿玫捷^好的聚類結(jié)果。

　　表1列出了關(guān)于手機(jī)的幾個(gè)具有代表性的特征聚類結(jié)果。

　　實(shí)驗(yàn)的聚類結(jié)果如表2所示。

　　網(wǎng)絡(luò)上出現(xiàn)的用戶評(píng)論蘊(yùn)含了大量有價(jià)值的信息，對(duì)企業(yè)管理具有巨大的價(jià)值，也是用戶決策的有效依據(jù)。評(píng)論中評(píng)價(jià)對(duì)象特征的提取是評(píng)論挖掘領(lǐng)域的基礎(chǔ)關(guān)鍵性技術(shù)之一。

　　本文通過基于頻繁項(xiàng)算法和剪枝方法提取評(píng)價(jià)對(duì)象特征，提出了一種基于hownet的詞語(yǔ)相似度和特征與觀點(diǎn)共現(xiàn)的信息的聚類方法，解決了特征在語(yǔ)料中擁有不同表述方式的問題，取得了較好的聚類結(jié)果。

　　鑒于特征抽取的準(zhǔn)確率還不夠理想，下一步將致力于提高評(píng)價(jià)對(duì)象特征抽取的準(zhǔn)確率。同時(shí)，針對(duì)已經(jīng)挖掘出來(lái)的評(píng)價(jià)對(duì)象特征，進(jìn)一步判斷客戶評(píng)論中對(duì)于這些評(píng)價(jià)對(duì)象特征的情感傾向分布。

參考文獻(xiàn)

　　[1] SENECALS,NANTELJ.The influence of online product recommendations on consumers’ online choices[J].Journal of Retailing,2004（80）:159-169.

　　[2] 伍星，何中市，黃永文.產(chǎn)品評(píng)論挖掘研究綜述[J].計(jì)算機(jī)工程與應(yīng)用，2008,44（36）：37-40.

　　[3] HU M, LIU B. Mining opinion features in customer reviews[J].In AAAI Conference on Artificial Intelligence, San Jose, California, USA, 2004: 755-760.

　　[4] YI J,NASUKAWA T, BUNESCUR R, et al. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques[C].Proceedings of the 3rd IEEE International Conference on Data Mining. Washington: IEEE Computer Society, 2003: 427-434.

　　[5] POPESCUA M, ETZIONI O. Extracting product features and opinions from reviews[C]. Proceedings of HLT-EMNLP Vancouver, 2005, ACL, 2005: 339-346.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容