摘 要: 提出了一種評(píng)價(jià)對(duì)象特征抽取與聚類方法,其基本思想是:首先運(yùn)用Apriori算法和剪枝方法從客戶評(píng)論中抽取評(píng)論對(duì)象特征集;然后,以特征之間的基于Hownet的詞語(yǔ)相似度和特征與觀點(diǎn)共現(xiàn)的信息作為聚類依據(jù),對(duì)特征進(jìn)行聚類。采用通過(guò)從互聯(lián)網(wǎng)獲得的客戶評(píng)論語(yǔ)料對(duì)該方法進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。
關(guān)鍵詞: 關(guān)聯(lián)規(guī)則;特征抽??;特征聚類;語(yǔ)義相關(guān)度;相鄰共現(xiàn)
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們生活中不可或缺的一部分。網(wǎng)絡(luò)改變了人們表達(dá)觀點(diǎn)的方式,人們可將對(duì)某些產(chǎn)品的評(píng)論發(fā)布到商品網(wǎng)站上,或者在論壇、討論組、博客中表達(dá)自己的觀點(diǎn)。這些在線評(píng)價(jià)行為不僅為商家提供了一個(gè)信息的展示平臺(tái),也為消費(fèi)者提供了一個(gè)產(chǎn)品使用經(jīng)驗(yàn)交流以及質(zhì)量評(píng)價(jià)的平臺(tái)。因此很多網(wǎng)民在購(gòu)買某類產(chǎn)品前,往往會(huì)選擇先上網(wǎng)瀏覽一些相關(guān)產(chǎn)品的信息,了解其他消費(fèi)者的使用體驗(yàn),深入比較產(chǎn)品之間的性能,從而使自己的消費(fèi)更趨理想化[1]。
評(píng)論對(duì)象特征抽取作為評(píng)價(jià)意見挖掘的一項(xiàng)研究?jī)?nèi)容,旨在通過(guò)對(duì)客戶評(píng)論進(jìn)行分析,挖掘出用戶們感興趣的對(duì)象特征。由于網(wǎng)上評(píng)論中,評(píng)論對(duì)象特征過(guò)于繁多,同類的特征可以有多種描述,如產(chǎn)品的“外觀”和“外形”描述的就是同一類特征。因此,準(zhǔn)確抽取評(píng)價(jià)對(duì)象特征是一個(gè)必須解決的關(guān)鍵問(wèn)題。
本文首先運(yùn)用Apriori算法和鄰近規(guī)則從客戶評(píng)論中提取候選特征集;然后,根據(jù)特征之間的語(yǔ)義相關(guān)度及特征和觀點(diǎn)共現(xiàn)的信息對(duì)特征進(jìn)行自動(dòng)聚類。提出了一種新的計(jì)算特征之間相似度的方法,基于這種相似度聚類特征能達(dá)到較好的聚類效果,解決了特征在評(píng)論中擁有不同表述的問(wèn)題。
1 相關(guān)研究
自動(dòng)提取評(píng)價(jià)對(duì)象特征主要使用詞性標(biāo)注、句法分析、文本模式等自然語(yǔ)言技術(shù)對(duì)客戶評(píng)論中的語(yǔ)句進(jìn)行分析,從而自動(dòng)發(fā)現(xiàn)產(chǎn)品特征[2]。具有代表性的工作是Hu Mingqing和Liu Bing基于關(guān)聯(lián)規(guī)則算法從英文評(píng)論語(yǔ)料中抽取頻繁項(xiàng),再根據(jù)兩條啟發(fā)式規(guī)則對(duì)頻繁項(xiàng)進(jìn)行過(guò)濾得到特征集合[3]。Yi J等人定義基本名詞短語(yǔ)模式,并使用混合模型和相似度測(cè)試抽取特征[4]。POPE SCV A M采用KnowItAll中人工定義的抽取指定關(guān)系(part-of關(guān)系is-a關(guān)系)的文本模式抽取產(chǎn)品特征[5]等。
在特征詞聚類方面,也有一些學(xué)者做了一些研究,如CareninE G等人采用建立相似度矩陣,將一些特征映射到用戶定義的特征分類上的方法進(jìn)行特征分類[6]。其中相似度的計(jì)算方法有Consine、Jaccard等[7]。Guo H等人提出了mLSA的無(wú)監(jiān)督算法進(jìn)行特征分類,該算法將LaSA模型建立了兩次[8]。Zhai zhongwei等人提出了一種SC-EM算法[9]。
2 中文客戶評(píng)論對(duì)象特征的抽取
在實(shí)際應(yīng)用中用戶比較關(guān)注的對(duì)象特征在評(píng)論中出現(xiàn)就比較頻繁。因此,本文首先運(yùn)用Apriori算法從客戶評(píng)論中提取具有一定支持度的頻繁出現(xiàn)的名詞或名詞短語(yǔ);然后對(duì)提取的頻繁項(xiàng)集進(jìn)行剪枝,去掉一些不合適的頻繁項(xiàng)。
首先需要對(duì)將評(píng)論庫(kù)中的數(shù)據(jù)進(jìn)行預(yù)處理。對(duì)評(píng)論庫(kù)中的文本數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注。本文的分詞工具采用中科院計(jì)算所所研發(fā)的ICTCLAS系統(tǒng),利用該工具對(duì)評(píng)論文本語(yǔ)料進(jìn)行分詞和二級(jí)詞性標(biāo)注。名詞短語(yǔ)的提取遵循兩點(diǎn):⑴有兩個(gè)或3個(gè)名詞相鄰的短語(yǔ);⑵名詞與名詞之間僅有結(jié)構(gòu)助詞“的”相連。在進(jìn)行二級(jí)詞性標(biāo)注后,可根據(jù)上面的兩個(gè)原則提取名詞短語(yǔ)。然后,利用詞性標(biāo)注后的評(píng)論語(yǔ)料創(chuàng)建關(guān)聯(lián)規(guī)則事務(wù)文件。以評(píng)論句為事務(wù)單位,提取出其中的名詞和名詞短語(yǔ)作為項(xiàng),組成一個(gè)個(gè)事務(wù)。將所有評(píng)論語(yǔ)料中的事務(wù)都存儲(chǔ)在一個(gè)事務(wù)文件中。
利用Apriori算法與剪枝方法抽取頻繁特征集。首先,運(yùn)用Apriori算法從評(píng)論語(yǔ)料事務(wù)文件中抽取出支持度大于最小支持度的1-k維頻繁項(xiàng)集。然后進(jìn)行鄰近規(guī)則剪枝,去掉不在其相鄰位置的頻繁項(xiàng);利用獨(dú)立支持度剪枝,去掉包含在其他項(xiàng)中冗余頻繁項(xiàng);最后,去除單字(因評(píng)論對(duì)象的特征一般不是單字)得到評(píng)價(jià)對(duì)象特征集。
3 評(píng)價(jià)對(duì)象特征的聚類
由于同類的特征可能有不同的表述,所以需要對(duì)挖掘出來(lái)的眾多候選評(píng)價(jià)對(duì)象特征進(jìn)行自動(dòng)聚類。
因?yàn)橥愄卣骶哂邢嘟x,所以將特征語(yǔ)義相似度作為聚類依據(jù)。同時(shí),在評(píng)論中,特征詞和觀點(diǎn)詞經(jīng)常是成對(duì)出現(xiàn)的,對(duì)于同類特征其對(duì)應(yīng)的觀點(diǎn)詞往往是相同或相近的,所以將特征的觀點(diǎn)詞集相似度也作為聚類依據(jù)。
3.1 特征的語(yǔ)義相似度相似度度量
3.1.1 基于Hownet的詞語(yǔ)相似度計(jì)算
在知網(wǎng)的基礎(chǔ)上,劉群和李素建[11]提出了一種基于Hownet的詞語(yǔ)相似度的計(jì)算方法。對(duì)于兩個(gè)漢語(yǔ)詞語(yǔ)W1和W2,如果W1有n個(gè)義項(xiàng)(概念):S11,S12,…,S1n,W2有m個(gè)義項(xiàng)(概念):S21,S22,…,S2m,對(duì)兩個(gè)詞語(yǔ)的概念任意兩兩組合進(jìn)行相似度計(jì)算,取最大的概念相似度作為詞語(yǔ)之間的相似度,計(jì)算公式如下:
將兩個(gè)詞語(yǔ)之間的相似度的問(wèn)題歸結(jié)為兩個(gè)概念之間的問(wèn)題。
基于Hownet的特征相似度算法的具體步驟描述如下:
(1)獲得輸入:兩個(gè)特征W1和W2。
?。?)查找hownet的語(yǔ)義網(wǎng)絡(luò)文件,獲得W1的概念集合(S11,S12,…,S1n)和W2的概念集合(S21,S22,…,S2m)。
(3)選擇兩個(gè)概念S1i,S2j,通過(guò)hownet的詞典數(shù)據(jù)庫(kù)計(jì)算兩個(gè)概念的相似度。
?。?)重復(fù)步驟(3),獲得兩個(gè)詞語(yǔ)每一對(duì)概念之間的相似度值,根據(jù)式(1),從中選擇最大值作為最終的詞語(yǔ)相似度值。
算法主要利用詞語(yǔ)的概念間相似度來(lái)衡量特征詞語(yǔ)的相似度,但由于在分詞階段“詞義排岐”(能根據(jù)詞語(yǔ)所在上下文確定該詞語(yǔ)的正確解釋義項(xiàng))還是一個(gè)無(wú)法解決的問(wèn)題,因此該種算法考慮的都是孤立的兩個(gè)詞語(yǔ)的相似度。為了使本文的研究更加準(zhǔn)確,需要考慮到特征的上下文信息,即特征和觀點(diǎn)的共現(xiàn)信息。
3.1.2 基于特征和觀點(diǎn)共現(xiàn)信息的特征相似度計(jì)算
在評(píng)論中,由于特征與觀點(diǎn)詞的共現(xiàn)關(guān)系,將同時(shí)出現(xiàn)的特征和觀點(diǎn)稱為“特征—觀點(diǎn)對(duì)”,那么對(duì)于一個(gè)特征可能對(duì)應(yīng)多個(gè)觀點(diǎn)詞。運(yùn)用向量空間模型(VSM)表示產(chǎn)品特征信息,特征向量化為feather(O1,O2,…,Om),O1到Om表示feather所對(duì)應(yīng)的全部觀點(diǎn)詞。
基于向量空間模型提起特征的觀點(diǎn)詞集的具體步驟如下:
步驟1:確定觀點(diǎn)句:分析評(píng)論庫(kù)中的每一個(gè)句子,如果該句中包含形容詞,則確定該句為觀點(diǎn)句。
步驟2:提取特征的觀點(diǎn)詞集:通過(guò)分析上一步確定的觀點(diǎn)句,以單句為單位,將所有的形容詞與評(píng)價(jià)對(duì)象的候選特征按出現(xiàn)在句子中的順序存放在文件中。提取與形容詞距離最近的特征,遍歷特征的向量空間模型中的項(xiàng),查看該形容詞是否已經(jīng)存在模型中。如果已經(jīng)存在,將與形容詞一樣的項(xiàng)的權(quán)重加1;如果還未存在,將該形容詞作為項(xiàng)加入到特征的向量空間模型中,并將該項(xiàng)的權(quán)重設(shè)置為1。
則特征t1和t2的相似度定義如下:
simA(Oi,Oj)為特征t1的觀點(diǎn)詞Oj和特征t2的觀點(diǎn)詞Oj基于hownet的詞語(yǔ)相似度。
3.1.3 特征間的語(yǔ)義相似度計(jì)算
結(jié)合上面兩種相似度算法定義特征間的語(yǔ)義相似度算法,按式(3)計(jì)算特征Si和Sj之間的相似度:
式中,simA(Si,Sj)為特征之間基于hownet的詞語(yǔ)相似度;simA(Si,Sj)為基于特征和觀點(diǎn)信息共現(xiàn)的特征相似度;a和b為參數(shù),其中a+b=1。其中基于特征和觀點(diǎn)共現(xiàn)信息的特征相似度的比重更大點(diǎn)。則將參數(shù)b從0.5~0.9每隔0.1運(yùn)行一次,經(jīng)過(guò)試驗(yàn)發(fā)現(xiàn)參數(shù)a取0.3,b取0.7特征的相似結(jié)果最好。
3.2 特征聚類
在聚類過(guò)程中,首先將每個(gè)特征看成包含一個(gè)特征的簇,以特征之間的相似度大小聚類,使得每個(gè)特征與該簇其他特征之間的相似度均超過(guò)設(shè)置的閾值missing image file,具體算法如下。
算法2特征的聚類算法
輸入:候選評(píng)價(jià)對(duì)象特征集D,閾值missing image file
輸出:特征簇集合F
for each seed∈D do //對(duì)所有特征掃描一遍
if seed不是任何特征簇中的特征 then
Seedlist.add(seed); //將seed加入種子隊(duì)列中
for each t∈D do
if (t≠seed)AND(t不是任何特征簇中的特征) then
if sim(t,seed)>missing image filethen //將所有與特征seed相 似度大于missing image file的
SimItem.add(t); //未聚類特征加入待聚 類集合中
end if
end if
end for
for each f∈SimItem do //將SimItem中所有待聚 類特征掃描一遍
d=Seedlist.gethead(); //取出種子隊(duì)列的隊(duì)頭種 子d
if sim(f,d)>missing image filethen //若特征f與種子d的相 似度大于missing image file,
Seedlist.add(t); //則將f加入種子隊(duì)列 成為新的種子
end if
end for
C={f|f存在于Seedlist } //將種子隊(duì)列中的特征一同 放入特征簇中
Seedlist.clear(); //清空種子隊(duì)列
F=∪{C} //將得到的特征簇加入到特征簇 集合中
end if
end for
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)語(yǔ)料及性能評(píng)價(jià)指標(biāo)
本文選取的是從網(wǎng)絡(luò)上下載下來(lái)的評(píng)論數(shù)據(jù),選取5種產(chǎn)品的客戶評(píng)論作為實(shí)驗(yàn)語(yǔ)料進(jìn)行實(shí)驗(yàn),這5種商品分別為手機(jī)(三星Note2 N7100)、數(shù)碼相機(jī)(索尼DSC-RX100)、DVD機(jī)(飛利浦DVP3600)、mp3播放器(蘋果iPod touch4)以及書籍(《達(dá)芬奇的密碼》)。為了選取合適的閾值,還需要一些評(píng)論語(yǔ)料作為訓(xùn)練語(yǔ)料,選取3種產(chǎn)品的客戶評(píng)論作為訓(xùn)練語(yǔ)料,這3種產(chǎn)品分別為手機(jī)(諾基亞N9 )、數(shù)碼相機(jī)(cannon EOS 70D、sony HX50 )。針對(duì)每一種產(chǎn)品評(píng)論,用人工標(biāo)注的方法對(duì)評(píng)價(jià)對(duì)象特征進(jìn)行標(biāo)注得到特征集。
按照前面的方法利用C#語(yǔ)言開發(fā)了一個(gè)實(shí)驗(yàn)系統(tǒng)。為了評(píng)估方法的性能,本文采用Rand Statistics評(píng)價(jià)聚類的有效性。該聚類評(píng)價(jià)標(biāo)準(zhǔn)的具體內(nèi)容[9]是:假設(shè)特征集L的一個(gè)聚類結(jié)果是R={R1,R2,…,Rk}特征集的已知?jiǎng)澐譃镃={C1,C2,…,Cs},可以通過(guò)比較R與C的差異性來(lái)評(píng)價(jià)聚類的質(zhì)量。對(duì)于特征集的任意一對(duì)特征(li,lj)統(tǒng)計(jì)下列項(xiàng)。
SS:li,lj在C中屬于同一個(gè)類,在R中也屬于同一個(gè)類。
SD:li,lj在C中屬于同一個(gè)類,在R中不屬于同一個(gè)類。
DS:li,lj在C中不屬于同一個(gè)類,在R中屬于同一個(gè)類。
DD:li,lj在C中不屬于同一個(gè)類,在R中也不屬于同一個(gè)類。
用a、b、c、d來(lái)表示SS、SD、DS、DD的數(shù)目。設(shè)a+b+c+d=n,n為N個(gè)特征中所有特征對(duì)的個(gè)數(shù),n=N(N-1)/2,那么R與C之間的相似程度可用如下公式表明:Rand Statistic S=(a+b)/n。Rand Statistic的值介于0和1之間,該值越大,表明R與C的相似程度越大,聚類效果越好。
4.2 實(shí)驗(yàn)結(jié)果
根據(jù)上述方法,實(shí)現(xiàn)了一個(gè)評(píng)價(jià)對(duì)象特征抽取與聚類的程序模塊。
在評(píng)價(jià)對(duì)象特征的抽取階段,利用Apriori算法抽取頻繁特征時(shí),采用的最小支持度minsupport為2%。由于3項(xiàng)以上的頻繁項(xiàng)可以很明顯的看出不是評(píng)價(jià)對(duì)象特征,所以頻繁項(xiàng)的最高維度k設(shè)置為3。通過(guò)對(duì)這5種產(chǎn)品的評(píng)論語(yǔ)料進(jìn)行特征抽取實(shí)驗(yàn)得到各評(píng)價(jià)對(duì)象的特征。
在評(píng)價(jià)對(duì)象特征的聚類過(guò)程中,聚類算法中閾值均是非常重要的參數(shù),在本實(shí)驗(yàn)中,經(jīng)過(guò)對(duì)訓(xùn)練語(yǔ)料進(jìn)行的閾值訓(xùn)練,
的值取0.45,實(shí)驗(yàn)?zāi)艿玫捷^好的聚類結(jié)果。
表1列出了關(guān)于手機(jī)的幾個(gè)具有代表性的特征聚類結(jié)果。
實(shí)驗(yàn)的聚類結(jié)果如表2所示。
網(wǎng)絡(luò)上出現(xiàn)的用戶評(píng)論蘊(yùn)含了大量有價(jià)值的信息,對(duì)企業(yè)管理具有巨大的價(jià)值,也是用戶決策的有效依據(jù)。評(píng)論中評(píng)價(jià)對(duì)象特征的提取是評(píng)論挖掘領(lǐng)域的基礎(chǔ)關(guān)鍵性技術(shù)之一。
本文通過(guò)基于頻繁項(xiàng)算法和剪枝方法提取評(píng)價(jià)對(duì)象特征,提出了一種基于hownet的詞語(yǔ)相似度和特征與觀點(diǎn)共現(xiàn)的信息的聚類方法,解決了特征在語(yǔ)料中擁有不同表述方式的問(wèn)題,取得了較好的聚類結(jié)果。
鑒于特征抽取的準(zhǔn)確率還不夠理想,下一步將致力于提高評(píng)價(jià)對(duì)象特征抽取的準(zhǔn)確率。同時(shí),針對(duì)已經(jīng)挖掘出來(lái)的評(píng)價(jià)對(duì)象特征,進(jìn)一步判斷客戶評(píng)論中對(duì)于這些評(píng)價(jià)對(duì)象特征的情感傾向分布。
參考文獻(xiàn)
[1] SENECALS,NANTELJ.The influence of online product recommendations on consumers’ online choices[J].Journal of Retailing,2004(80):159-169.
[2] 伍星,何中市,黃永文.產(chǎn)品評(píng)論挖掘研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(36):37-40.
[3] HU M, LIU B. Mining opinion features in customer reviews[J].In AAAI Conference on Artificial Intelligence, San Jose, California, USA, 2004: 755-760.
[4] YI J,NASUKAWA T, BUNESCUR R, et al. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques[C].Proceedings of the 3rd IEEE International Conference on Data Mining. Washington: IEEE Computer Society, 2003: 427-434.
[5] POPESCUA M, ETZIONI O. Extracting product features and opinions from reviews[C]. Proceedings of HLT-EMNLP Vancouver, 2005, ACL, 2005: 339-346.