摘 要: 通過利用Apriori算法抽取評價對象的候選特征集,結(jié)合計算領(lǐng)域一致度和領(lǐng)域相關(guān)度對候選特征進行過濾,實現(xiàn)了對中文客戶評論的對象特征挖掘,并且用實驗驗證了該方法的有效性。
關(guān)鍵詞: 特征挖掘;領(lǐng)域一致度;領(lǐng)域相關(guān)度
評論挖掘是一種以從評論數(shù)據(jù)中探尋有用信息為目標(biāo)的非結(jié)構(gòu)化數(shù)據(jù)挖掘技術(shù),主要包含評論對象的特征挖掘、評論觀點挖掘、評論觀點的極性以及強度判斷、評論挖掘結(jié)果的匯總以及按用戶觀點排序4個子任務(wù)[1]。
評價對象的特征挖掘是指從大量的客戶評論中挖掘出用戶關(guān)注的評價對象特征。這一技術(shù)是分析用戶對評價對象的具體特征所持的情感傾向的前提,其準(zhǔn)確性和全面性是非常重要的。近年來,國內(nèi)外研究人員對評價對象的特征挖掘進行深入研究,他們采用很多不同方法來對特征進行挖掘[2-6]。本文針對中文客戶評論的特征挖掘的性能不夠理想的問題[7],提出了一種基于Apriori算法抽取候選特征集,集成領(lǐng)域一致度和領(lǐng)域相關(guān)度方法對候選特征進行過濾的方法,實現(xiàn)中文客戶評論對象的特征挖掘,并且通過實驗驗證這一方法的有效性。
1 評論對象的特征挖掘
中文客戶評論對象的特征挖掘過程如圖1所示。首先,輸入不同評論對象的評論語料;然后對這些評論語料進行預(yù)處理,利用中科院計算所所研發(fā)的ICTCLAS系統(tǒng)對評論文本語料進行分詞和二級詞性標(biāo)注,以評論語料中句子為單位,進行詞性過濾,提取出評論語料中名詞和具有名詞功能的形容詞或者動詞或者名詞短語作為項,每一篇評論項組合起來作為一個事務(wù)在事務(wù)文件中存為一行。將每個評論對象的所有評論語料中的事務(wù)都存儲在一個事務(wù)文件中。經(jīng)過預(yù)處理后,每個評論對象均有一個事務(wù)文件。然后,應(yīng)用Apriori算法從事務(wù)文件中提取頻繁項集,并通過剪枝方法去除掉一些不合適的頻繁項,得到評價對象的候選特征集。最后,利用特征的領(lǐng)域相關(guān)度和領(lǐng)域一致度定義綜合評定指標(biāo),根據(jù)該指標(biāo)對候選特征進行過濾,得到評價對象的特征。
1.1 評價對象的候選特征挖掘
定義1 頻繁項:設(shè)I是m個項目的集合,T是n個事務(wù)集合,其中每個事務(wù)S是一個項目集合,并滿足S?哿I。由I中的若干項組成的集合稱為項集,包含k個項的項集稱為k-項集,包含項集的事務(wù)數(shù)稱為該項集的出現(xiàn)頻度。如果該項集的出現(xiàn)頻度大于或等于預(yù)先設(shè)定的最小支持度,則稱項集為頻繁項。
定義2 鄰近規(guī)則:假設(shè)f是頻繁項,而且f包含n個詞,評論句s包含f,而且在f中的詞出現(xiàn)在s中的順序為:w1,w2,…,wn。如果在s中wi和wi+1(i=1,…n-1)的距離不超過兩個詞,則可以說f在s中是鄰近的。
定義3 獨立支持度:頻繁項f的獨立支持度是指包含f本身但不包含f的超集的句子數(shù)量,即f的支持度減去f的超集支持度之和。若f的獨立支持度大于最小支持度,則其符合獨立支持度規(guī)則。
挖掘評價對象的候選特征過程如算法1所示。首先,應(yīng)用Apriori算法從預(yù)處理得到的評價對象的事務(wù)文件中,提取滿足最小支持度的頻繁項集。通過分析評論對象特征的特性,發(fā)現(xiàn)3維以上頻繁項不可能是特征,所以只提取3維及其以下的頻繁項;然后,根據(jù)鄰近規(guī)則,去掉不在其相鄰位置的頻繁項;根據(jù)獨立支持度剪枝去掉被包含在其他頻繁項的冗余頻繁項;因為單字不可能是評價對象的特征,所以,刪去頻繁項集中的單字。
算法1 評價對象的候選特征挖掘
輸入:評論語料事務(wù)文件W,評論語料庫T
輸出:頻繁特征集L
方法:
int minsupport,int k;
//初始化最小支持度和頻繁項集的最高維度
L0=Apriori(W,minsupport,k);
//通過Apriori算法得到頻繁項集L0
for each f∈L0 do
//對于L0中的大于一維的項根據(jù)鄰近規(guī)則重新計算支持度
if f.dimension﹥1 then//如果f的維度大于1
f.count=0;//f的支持度重新設(shè)置為0
for each t∈T do//對所有事務(wù)掃描一遍
if f在t中是鄰近的do//若f在t中符合鄰近規(guī)則
f.count++;//f的支持度加1
end if
end for
end if
end for
L1={f∈L0|f.count≧minsupport};
//刪除支持度小于最小支持度的項集
for each f∈L1 do
//掃描候選項集L1計算每個一維頻繁項的獨立支持度
if f.dimension=1 then//若f的維度為1
S={l∈L1|fl,f≠l};
//得到包含項f的多維頻繁項集S
for each l∈S do//掃描S中的多維頻繁項
S.count+=l.count;
//S的支持度為項的支持度S中項的支持度之和
end for
f.count=f.count-S.count;//得到f的獨立支持度
end if
end for
L2={l∈L1|f.count≧minsupport};
//刪除獨立支持度小于最小支持度的項
return L={l∈L2|f.length﹥1};//刪除單字
其中,minsupport表示給定的最小支持度,k表示給定的頻繁項集的最高維度。
1.2 評價對象的特征過濾
將不同的評價對象的評論語料看成是不同的領(lǐng)域的評論語料。真正的特征應(yīng)該在不同領(lǐng)域的評論分布不均勻,在其相關(guān)領(lǐng)域的評論文檔集中應(yīng)分布比較均勻。
因此,本文通過計算特征的領(lǐng)域相關(guān)度及領(lǐng)域一致度,并對領(lǐng)域相關(guān)度和領(lǐng)域一致度進行量化,定義一個綜合評定指標(biāo),根據(jù)這個指標(biāo)可對應(yīng)用Apriori算法挖掘出來的候選特征進行過濾。
?。?)特征的領(lǐng)域相關(guān)度計算
特征的領(lǐng)域相關(guān)度表示特征與領(lǐng)域的相關(guān)程度。設(shè)總共有n個領(lǐng)域{D1,D2,…,Dn},則候選特征t對于某領(lǐng)域Di的領(lǐng)域相關(guān)度定義為:
?。?)特征的領(lǐng)域一致度計算
特征的領(lǐng)域一致度表示特征在領(lǐng)域中的分布均勻度。設(shè)領(lǐng)域Di中有m個評論文檔{d1,d2,…,dm},則候選特征t對于Di的領(lǐng)域一致度定義為:
其中,ft,dj表示特征t在文檔dj中的頻度。在式(3)中, H(t,Di)為信息熵,其值越大,表明t在各文檔中分布越均勻,t是該領(lǐng)域的可能性就越大。當(dāng)t在各文檔中出現(xiàn)的頻度相等的時候,H(t,Di)的值最大。
?。?)綜合評定指標(biāo)的定義
當(dāng)候選評價對象特征的領(lǐng)域相關(guān)度和領(lǐng)域一致度都很大時,該候選特征就可能是該領(lǐng)域的真正特征。因此,通過對兩者的加權(quán)平均,可以定義候選評價對象特征t對領(lǐng)域Di的一個綜合評定指標(biāo):
DW(t,Di)=α·DR(t|Di)+β·DC(t,Di)(5)
計算所有候選特征對于領(lǐng)域Di的DW(t,Di)值,按照從大到小排序。設(shè)置閾值θ,使得DW(t,Di)的值大于θ的候選特征為所選取的評價對象特征,小于θ的候選特征將從候選特征集中去除。
2 實驗結(jié)果與分析
2.1 實驗語料與性能評價指標(biāo)
因中文產(chǎn)品評論觀點挖掘發(fā)展還不成熟,缺少公開的、標(biāo)準(zhǔn)的語料庫,目前研究主要采用從指定的網(wǎng)站(如英文的www.Amazon.com,中文的pinglun.IT168.com等)獲取某類產(chǎn)品的產(chǎn)品評論來構(gòu)建產(chǎn)品評論語料庫[7]。所以本文選取的是從上述網(wǎng)站上下載下來的評論數(shù)據(jù),包括手機、數(shù)碼相機、DVD機、書籍以及服飾5類產(chǎn)品各1 000條評論數(shù)據(jù)。針對每一種產(chǎn)品評論,用人工標(biāo)注的方法對評價對象特征進行識別和標(biāo)注,不考慮那些在評論中沒有出現(xiàn)或是出現(xiàn)的頻率太低的特征,那么標(biāo)注時要保證特征的支持度要大于Apriori算法中的最小支持度。
為了評估方法的性能,本文采取了查全率(recall),查準(zhǔn)率(precision),F(xiàn)1-score來評價特征抽取的有效性。公式如下:
2.2 實驗結(jié)果
在抽取評價對象的候選特征集階段,利用Apriori算法抽取頻繁項集時,選取的最小支持度為2%。綜合5種商品的實驗結(jié)果如表1所示,平均查全率為81.72%,平均查準(zhǔn)率為62.87%。
在此實驗中,一種產(chǎn)品的評論語料作為領(lǐng)域語料,那么其他4種評論語料則是作為過濾語料。比如手機的評論數(shù)據(jù)作為領(lǐng)域語料,那么數(shù)碼相機、DVD機、書籍和服飾的評論數(shù)據(jù)將作為過濾語料。在量化特征的領(lǐng)域一致度和領(lǐng)域相關(guān)度后,對過濾的綜合評定指標(biāo)定義時,經(jīng)過試驗比較發(fā)現(xiàn),α值取0.9左右,β值取0.25左右,閾值θ取1.8。過濾后的5種商品的實驗結(jié)果如表2所示,平均查全率為77.07%,平均查準(zhǔn)率為70.89%,比未過濾前查準(zhǔn)率提高了8.02%。
特征過濾的實驗結(jié)果與基于Apriori算法抽取候選特征的實驗結(jié)果以及HU M等人的英文評論挖掘結(jié)果進行比較。以F1-score值作為參考,利用3個實驗中都有的產(chǎn)品手機、數(shù)碼相機和書籍的實驗結(jié)果作比較,如表3所示。與基于Apriori算法抽取候選特征的實驗結(jié)果來看,平均F1-score值提高了3.2%。以HU M和LIU B的實驗結(jié)果來看,平均F1-score值提高了1.48。本方法提高了中文客戶評論對象的特征挖掘性能。
本文通過利用Apriori算法抽取評價對象的候選特征集,結(jié)合計算領(lǐng)域一致度和領(lǐng)域相關(guān)度對候選特征進行過濾,實現(xiàn)了對中文客戶評論的對象特征挖掘。通過實驗驗證了通過結(jié)合領(lǐng)域一致度和領(lǐng)域相關(guān)度的過濾效果,特征挖掘的性能得到提高,且略優(yōu)于參考文獻[2]關(guān)于英文評論的抽取性能。
在今后的工作中,將建立一個中文客戶評論挖掘框架,在本文的基礎(chǔ)上,針對已經(jīng)挖掘出來的評價對象特征,進一步判斷客戶評論中對于這些評價對象特征的情感傾向分布。
參考文獻
[1] POPESCU A M, ETZIONI O. Extracting product featuresand opinionsfrom reviews[J]. Proceedings of HLT-EMNLPVancouver, 2007:9-28.
[2] HU M, LIU B. Mining opinion featuresin customer reviews[C]. Proceedings of the Tenth ACM SIGKDD International Conerence on Knowledge Discovery and Data Mining, ACM, 2004:168-177.
[3] 姚天昉,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統(tǒng)[C].中文信息處理前沿進展——中國中文信息學(xué)會成立二十五周年學(xué)術(shù)會議論文集.北京:中國中文信息學(xué)會,2006:260-281.
[4] YI J, NASUKAWA T, BUNESCUR R, et al. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques[C]. Proceeding of the 3rd IEEE International Conference on Data Mining,Washington: IEEE Computer Society, 2003:427-434.
[5] SOMPRASERTSRI G, LALITROJWONG P. A maximum entropy model for product feature extraction in online customer reviews[C]. Proceeding of the 3rd IEEE International Conference on Data Mining, Washington: IEEE Computer Society, 2008: 575-580.
[6] ZHENG Y, YE L, WU G, et al. Extracting product features from chinese customer reviews[A]. Proceedings of 2008 3rd IEEE International Conference on Intelligent System and Knowledge Engineering[C]. 2008(1-2):285-290.
[7] 伍星,何中市,黃永文.產(chǎn)品評論挖掘研究綜述[J].計算機工程與應(yīng)用,2008,44(36):37-40.