摘 要: 提出了一種評價對象特征抽取與聚類方法,其基本思想是:首先運用Apriori算法和剪枝方法從客戶評論中抽取評論對象特征集;然后,以特征之間的基于Hownet的詞語相似度和特征與觀點共現(xiàn)的信息作為聚類依據(jù),對特征進(jìn)行聚類。采用通過從互聯(lián)網(wǎng)獲得的客戶評論語料對該方法進(jìn)行了實驗,實驗結(jié)果驗證了該方法的有效性。
關(guān)鍵詞: 關(guān)聯(lián)規(guī)則;特征抽取;特征聚類;語義相關(guān)度;相鄰共現(xiàn)
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們生活中不可或缺的一部分。網(wǎng)絡(luò)改變了人們表達(dá)觀點的方式,人們可將對某些產(chǎn)品的評論發(fā)布到商品網(wǎng)站上,或者在論壇、討論組、博客中表達(dá)自己的觀點。這些在線評價行為不僅為商家提供了一個信息的展示平臺,也為消費者提供了一個產(chǎn)品使用經(jīng)驗交流以及質(zhì)量評價的平臺。因此很多網(wǎng)民在購買某類產(chǎn)品前,往往會選擇先上網(wǎng)瀏覽一些相關(guān)產(chǎn)品的信息,了解其他消費者的使用體驗,深入比較產(chǎn)品之間的性能,從而使自己的消費更趨理想化[1]。
評論對象特征抽取作為評價意見挖掘的一項研究內(nèi)容,旨在通過對客戶評論進(jìn)行分析,挖掘出用戶們感興趣的對象特征。由于網(wǎng)上評論中,評論對象特征過于繁多,同類的特征可以有多種描述,如產(chǎn)品的“外觀”和“外形”描述的就是同一類特征。因此,準(zhǔn)確抽取評價對象特征是一個必須解決的關(guān)鍵問題。
本文首先運用Apriori算法和鄰近規(guī)則從客戶評論中提取候選特征集;然后,根據(jù)特征之間的語義相關(guān)度及特征和觀點共現(xiàn)的信息對特征進(jìn)行自動聚類。提出了一種新的計算特征之間相似度的方法,基于這種相似度聚類特征能達(dá)到較好的聚類效果,解決了特征在評論中擁有不同表述的問題。
1 相關(guān)研究
自動提取評價對象特征主要使用詞性標(biāo)注、句法分析、文本模式等自然語言技術(shù)對客戶評論中的語句進(jìn)行分析,從而自動發(fā)現(xiàn)產(chǎn)品特征[2]。具有代表性的工作是Hu Mingqing和Liu Bing基于關(guān)聯(lián)規(guī)則算法從英文評論語料中抽取頻繁項,再根據(jù)兩條啟發(fā)式規(guī)則對頻繁項進(jìn)行過濾得到特征集合[3]。Yi J等人定義基本名詞短語模式,并使用混合模型和相似度測試抽取特征[4]。POPE SCV A M采用KnowItAll中人工定義的抽取指定關(guān)系(part-of關(guān)系is-a關(guān)系)的文本模式抽取產(chǎn)品特征[5]等。
在特征詞聚類方面,也有一些學(xué)者做了一些研究,如CareninE G等人采用建立相似度矩陣,將一些特征映射到用戶定義的特征分類上的方法進(jìn)行特征分類[6]。其中相似度的計算方法有Consine、Jaccard等[7]。Guo H等人提出了mLSA的無監(jiān)督算法進(jìn)行特征分類,該算法將LaSA模型建立了兩次[8]。Zhai zhongwei等人提出了一種SC-EM算法[9]。
2 中文客戶評論對象特征的抽取
在實際應(yīng)用中用戶比較關(guān)注的對象特征在評論中出現(xiàn)就比較頻繁。因此,本文首先運用Apriori算法從客戶評論中提取具有一定支持度的頻繁出現(xiàn)的名詞或名詞短語;然后對提取的頻繁項集進(jìn)行剪枝,去掉一些不合適的頻繁項。
首先需要對將評論庫中的數(shù)據(jù)進(jìn)行預(yù)處理。對評論庫中的文本數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注。本文的分詞工具采用中科院計算所所研發(fā)的ICTCLAS系統(tǒng),利用該工具對評論文本語料進(jìn)行分詞和二級詞性標(biāo)注。名詞短語的提取遵循兩點:⑴有兩個或3個名詞相鄰的短語;⑵名詞與名詞之間僅有結(jié)構(gòu)助詞“的”相連。在進(jìn)行二級詞性標(biāo)注后,可根據(jù)上面的兩個原則提取名詞短語。然后,利用詞性標(biāo)注后的評論語料創(chuàng)建關(guān)聯(lián)規(guī)則事務(wù)文件。以評論句為事務(wù)單位,提取出其中的名詞和名詞短語作為項,組成一個個事務(wù)。將所有評論語料中的事務(wù)都存儲在一個事務(wù)文件中。
利用Apriori算法與剪枝方法抽取頻繁特征集。首先,運用Apriori算法從評論語料事務(wù)文件中抽取出支持度大于最小支持度的1-k維頻繁項集。然后進(jìn)行鄰近規(guī)則剪枝,去掉不在其相鄰位置的頻繁項;利用獨立支持度剪枝,去掉包含在其他項中冗余頻繁項;最后,去除單字(因評論對象的特征一般不是單字)得到評價對象特征集。
3 評價對象特征的聚類
由于同類的特征可能有不同的表述,所以需要對挖掘出來的眾多候選評價對象特征進(jìn)行自動聚類。
因為同類特征具有相近含義,所以將特征語義相似度作為聚類依據(jù)。同時,在評論中,特征詞和觀點詞經(jīng)常是成對出現(xiàn)的,對于同類特征其對應(yīng)的觀點詞往往是相同或相近的,所以將特征的觀點詞集相似度也作為聚類依據(jù)。
3.1 特征的語義相似度相似度度量
3.1.1 基于Hownet的詞語相似度計算
在知網(wǎng)的基礎(chǔ)上,劉群和李素建[11]提出了一種基于Hownet的詞語相似度的計算方法。對于兩個漢語詞語W1和W2,如果W1有n個義項(概念):S11,S12,…,S1n,W2有m個義項(概念):S21,S22,…,S2m,對兩個詞語的概念任意兩兩組合進(jìn)行相似度計算,取最大的概念相似度作為詞語之間的相似度,計算公式如下:
將兩個詞語之間的相似度的問題歸結(jié)為兩個概念之間的問題。
基于Hownet的特征相似度算法的具體步驟描述如下:
?。?)獲得輸入:兩個特征W1和W2。
(2)查找hownet的語義網(wǎng)絡(luò)文件,獲得W1的概念集合(S11,S12,…,S1n)和W2的概念集合(S21,S22,…,S2m)。
?。?)選擇兩個概念S1i,S2j,通過hownet的詞典數(shù)據(jù)庫計算兩個概念的相似度。
?。?)重復(fù)步驟(3),獲得兩個詞語每一對概念之間的相似度值,根據(jù)式(1),從中選擇最大值作為最終的詞語相似度值。
算法主要利用詞語的概念間相似度來衡量特征詞語的相似度,但由于在分詞階段“詞義排岐”(能根據(jù)詞語所在上下文確定該詞語的正確解釋義項)還是一個無法解決的問題,因此該種算法考慮的都是孤立的兩個詞語的相似度。為了使本文的研究更加準(zhǔn)確,需要考慮到特征的上下文信息,即特征和觀點的共現(xiàn)信息。
3.1.2 基于特征和觀點共現(xiàn)信息的特征相似度計算
在評論中,由于特征與觀點詞的共現(xiàn)關(guān)系,將同時出現(xiàn)的特征和觀點稱為“特征—觀點對”,那么對于一個特征可能對應(yīng)多個觀點詞。運用向量空間模型(VSM)表示產(chǎn)品特征信息,特征向量化為feather(O1,O2,…,Om),O1到Om表示feather所對應(yīng)的全部觀點詞。
基于向量空間模型提起特征的觀點詞集的具體步驟如下:
步驟1:確定觀點句:分析評論庫中的每一個句子,如果該句中包含形容詞,則確定該句為觀點句。
步驟2:提取特征的觀點詞集:通過分析上一步確定的觀點句,以單句為單位,將所有的形容詞與評價對象的候選特征按出現(xiàn)在句子中的順序存放在文件中。提取與形容詞距離最近的特征,遍歷特征的向量空間模型中的項,查看該形容詞是否已經(jīng)存在模型中。如果已經(jīng)存在,將與形容詞一樣的項的權(quán)重加1;如果還未存在,將該形容詞作為項加入到特征的向量空間模型中,并將該項的權(quán)重設(shè)置為1。
則特征t1和t2的相似度定義如下:
simA(Oi,Oj)為特征t1的觀點詞Oj和特征t2的觀點詞Oj基于hownet的詞語相似度。
3.1.3 特征間的語義相似度計算
結(jié)合上面兩種相似度算法定義特征間的語義相似度算法,按式(3)計算特征Si和Sj之間的相似度:
式中,simA(Si,Sj)為特征之間基于hownet的詞語相似度;simA(Si,Sj)為基于特征和觀點信息共現(xiàn)的特征相似度;a和b為參數(shù),其中a+b=1。其中基于特征和觀點共現(xiàn)信息的特征相似度的比重更大點。則將參數(shù)b從0.5~0.9每隔0.1運行一次,經(jīng)過試驗發(fā)現(xiàn)參數(shù)a取0.3,b取0.7特征的相似結(jié)果最好。
3.2 特征聚類
在聚類過程中,首先將每個特征看成包含一個特征的簇,以特征之間的相似度大小聚類,使得每個特征與該簇其他特征之間的相似度均超過設(shè)置的閾值missing image file,具體算法如下。
算法2特征的聚類算法
輸入:候選評價對象特征集D,閾值missing image file
輸出:特征簇集合F
for each seed∈D do //對所有特征掃描一遍
if seed不是任何特征簇中的特征 then
Seedlist.add(seed); //將seed加入種子隊列中
for each t∈D do
if (t≠seed)AND(t不是任何特征簇中的特征) then
if sim(t,seed)>missing image filethen //將所有與特征seed相 似度大于missing image file的
SimItem.add(t); //未聚類特征加入待聚 類集合中
end if
end if
end for
for each f∈SimItem do //將SimItem中所有待聚 類特征掃描一遍
d=Seedlist.gethead(); //取出種子隊列的隊頭種 子d
if sim(f,d)>missing image filethen //若特征f與種子d的相 似度大于missing image file,
Seedlist.add(t); //則將f加入種子隊列 成為新的種子
end if
end for
C={f|f存在于Seedlist } //將種子隊列中的特征一同 放入特征簇中
Seedlist.clear(); //清空種子隊列
F=∪{C} //將得到的特征簇加入到特征簇 集合中
end if
end for
4 實驗結(jié)果與分析
4.1 實驗語料及性能評價指標(biāo)
本文選取的是從網(wǎng)絡(luò)上下載下來的評論數(shù)據(jù),選取5種產(chǎn)品的客戶評論作為實驗語料進(jìn)行實驗,這5種商品分別為手機(jī)(三星Note2 N7100)、數(shù)碼相機(jī)(索尼DSC-RX100)、DVD機(jī)(飛利浦DVP3600)、mp3播放器(蘋果iPod touch4)以及書籍(《達(dá)芬奇的密碼》)。為了選取合適的閾值,還需要一些評論語料作為訓(xùn)練語料,選取3種產(chǎn)品的客戶評論作為訓(xùn)練語料,這3種產(chǎn)品分別為手機(jī)(諾基亞N9 )、數(shù)碼相機(jī)(cannon EOS 70D、sony HX50 )。針對每一種產(chǎn)品評論,用人工標(biāo)注的方法對評價對象特征進(jìn)行標(biāo)注得到特征集。
按照前面的方法利用C#語言開發(fā)了一個實驗系統(tǒng)。為了評估方法的性能,本文采用Rand Statistics評價聚類的有效性。該聚類評價標(biāo)準(zhǔn)的具體內(nèi)容[9]是:假設(shè)特征集L的一個聚類結(jié)果是R={R1,R2,…,Rk}特征集的已知劃分為C={C1,C2,…,Cs},可以通過比較R與C的差異性來評價聚類的質(zhì)量。對于特征集的任意一對特征(li,lj)統(tǒng)計下列項。
SS:li,lj在C中屬于同一個類,在R中也屬于同一個類。
SD:li,lj在C中屬于同一個類,在R中不屬于同一個類。
DS:li,lj在C中不屬于同一個類,在R中屬于同一個類。
DD:li,lj在C中不屬于同一個類,在R中也不屬于同一個類。
用a、b、c、d來表示SS、SD、DS、DD的數(shù)目。設(shè)a+b+c+d=n,n為N個特征中所有特征對的個數(shù),n=N(N-1)/2,那么R與C之間的相似程度可用如下公式表明:Rand Statistic S=(a+b)/n。Rand Statistic的值介于0和1之間,該值越大,表明R與C的相似程度越大,聚類效果越好。
4.2 實驗結(jié)果
根據(jù)上述方法,實現(xiàn)了一個評價對象特征抽取與聚類的程序模塊。
在評價對象特征的抽取階段,利用Apriori算法抽取頻繁特征時,采用的最小支持度minsupport為2%。由于3項以上的頻繁項可以很明顯的看出不是評價對象特征,所以頻繁項的最高維度k設(shè)置為3。通過對這5種產(chǎn)品的評論語料進(jìn)行特征抽取實驗得到各評價對象的特征。
在評價對象特征的聚類過程中,聚類算法中閾值均是非常重要的參數(shù),在本實驗中,經(jīng)過對訓(xùn)練語料進(jìn)行的閾值訓(xùn)練,的值取0.45,實驗?zāi)艿玫捷^好的聚類結(jié)果。
表1列出了關(guān)于手機(jī)的幾個具有代表性的特征聚類結(jié)果。
實驗的聚類結(jié)果如表2所示。
網(wǎng)絡(luò)上出現(xiàn)的用戶評論蘊含了大量有價值的信息,對企業(yè)管理具有巨大的價值,也是用戶決策的有效依據(jù)。評論中評價對象特征的提取是評論挖掘領(lǐng)域的基礎(chǔ)關(guān)鍵性技術(shù)之一。
本文通過基于頻繁項算法和剪枝方法提取評價對象特征,提出了一種基于hownet的詞語相似度和特征與觀點共現(xiàn)的信息的聚類方法,解決了特征在語料中擁有不同表述方式的問題,取得了較好的聚類結(jié)果。
鑒于特征抽取的準(zhǔn)確率還不夠理想,下一步將致力于提高評價對象特征抽取的準(zhǔn)確率。同時,針對已經(jīng)挖掘出來的評價對象特征,進(jìn)一步判斷客戶評論中對于這些評價對象特征的情感傾向分布。
參考文獻(xiàn)
[1] SENECALS,NANTELJ.The influence of online product recommendations on consumers’ online choices[J].Journal of Retailing,2004(80):159-169.
[2] 伍星,何中市,黃永文.產(chǎn)品評論挖掘研究綜述[J].計算機(jī)工程與應(yīng)用,2008,44(36):37-40.
[3] HU M, LIU B. Mining opinion features in customer reviews[J].In AAAI Conference on Artificial Intelligence, San Jose, California, USA, 2004: 755-760.
[4] YI J,NASUKAWA T, BUNESCUR R, et al. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques[C].Proceedings of the 3rd IEEE International Conference on Data Mining. Washington: IEEE Computer Society, 2003: 427-434.
[5] POPESCUA M, ETZIONI O. Extracting product features and opinions from reviews[C]. Proceedings of HLT-EMNLP Vancouver, 2005, ACL, 2005: 339-346.