摘 要: 通過(guò)利用Apriori算法抽取評(píng)價(jià)對(duì)象的候選特征集,結(jié)合計(jì)算領(lǐng)域一致度和領(lǐng)域相關(guān)度對(duì)候選特征進(jìn)行過(guò)濾,實(shí)現(xiàn)了對(duì)中文客戶評(píng)論的對(duì)象特征挖掘,并且用實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
關(guān)鍵詞: 特征挖掘;領(lǐng)域一致度;領(lǐng)域相關(guān)度
評(píng)論挖掘是一種以從評(píng)論數(shù)據(jù)中探尋有用信息為目標(biāo)的非結(jié)構(gòu)化數(shù)據(jù)挖掘技術(shù),主要包含評(píng)論對(duì)象的特征挖掘、評(píng)論觀點(diǎn)挖掘、評(píng)論觀點(diǎn)的極性以及強(qiáng)度判斷、評(píng)論挖掘結(jié)果的匯總以及按用戶觀點(diǎn)排序4個(gè)子任務(wù)[1]。
評(píng)價(jià)對(duì)象的特征挖掘是指從大量的客戶評(píng)論中挖掘出用戶關(guān)注的評(píng)價(jià)對(duì)象特征。這一技術(shù)是分析用戶對(duì)評(píng)價(jià)對(duì)象的具體特征所持的情感傾向的前提,其準(zhǔn)確性和全面性是非常重要的。近年來(lái),國(guó)內(nèi)外研究人員對(duì)評(píng)價(jià)對(duì)象的特征挖掘進(jìn)行深入研究,他們采用很多不同方法來(lái)對(duì)特征進(jìn)行挖掘[2-6]。本文針對(duì)中文客戶評(píng)論的特征挖掘的性能不夠理想的問(wèn)題[7],提出了一種基于Apriori算法抽取候選特征集,集成領(lǐng)域一致度和領(lǐng)域相關(guān)度方法對(duì)候選特征進(jìn)行過(guò)濾的方法,實(shí)現(xiàn)中文客戶評(píng)論對(duì)象的特征挖掘,并且通過(guò)實(shí)驗(yàn)驗(yàn)證這一方法的有效性。
1 評(píng)論對(duì)象的特征挖掘
中文客戶評(píng)論對(duì)象的特征挖掘過(guò)程如圖1所示。首先,輸入不同評(píng)論對(duì)象的評(píng)論語(yǔ)料;然后對(duì)這些評(píng)論語(yǔ)料進(jìn)行預(yù)處理,利用中科院計(jì)算所所研發(fā)的ICTCLAS系統(tǒng)對(duì)評(píng)論文本語(yǔ)料進(jìn)行分詞和二級(jí)詞性標(biāo)注,以評(píng)論語(yǔ)料中句子為單位,進(jìn)行詞性過(guò)濾,提取出評(píng)論語(yǔ)料中名詞和具有名詞功能的形容詞或者動(dòng)詞或者名詞短語(yǔ)作為項(xiàng),每一篇評(píng)論項(xiàng)組合起來(lái)作為一個(gè)事務(wù)在事務(wù)文件中存為一行。將每個(gè)評(píng)論對(duì)象的所有評(píng)論語(yǔ)料中的事務(wù)都存儲(chǔ)在一個(gè)事務(wù)文件中。經(jīng)過(guò)預(yù)處理后,每個(gè)評(píng)論對(duì)象均有一個(gè)事務(wù)文件。然后,應(yīng)用Apriori算法從事務(wù)文件中提取頻繁項(xiàng)集,并通過(guò)剪枝方法去除掉一些不合適的頻繁項(xiàng),得到評(píng)價(jià)對(duì)象的候選特征集。最后,利用特征的領(lǐng)域相關(guān)度和領(lǐng)域一致度定義綜合評(píng)定指標(biāo),根據(jù)該指標(biāo)對(duì)候選特征進(jìn)行過(guò)濾,得到評(píng)價(jià)對(duì)象的特征。
1.1 評(píng)價(jià)對(duì)象的候選特征挖掘
定義1 頻繁項(xiàng):設(shè)I是m個(gè)項(xiàng)目的集合,T是n個(gè)事務(wù)集合,其中每個(gè)事務(wù)S是一個(gè)項(xiàng)目集合,并滿足S?哿I。由I中的若干項(xiàng)組成的集合稱(chēng)為項(xiàng)集,包含k個(gè)項(xiàng)的項(xiàng)集稱(chēng)為k-項(xiàng)集,包含項(xiàng)集的事務(wù)數(shù)稱(chēng)為該項(xiàng)集的出現(xiàn)頻度。如果該項(xiàng)集的出現(xiàn)頻度大于或等于預(yù)先設(shè)定的最小支持度,則稱(chēng)項(xiàng)集為頻繁項(xiàng)。
定義2 鄰近規(guī)則:假設(shè)f是頻繁項(xiàng),而且f包含n個(gè)詞,評(píng)論句s包含f,而且在f中的詞出現(xiàn)在s中的順序?yàn)椋簑1,w2,…,wn。如果在s中wi和wi+1(i=1,…n-1)的距離不超過(guò)兩個(gè)詞,則可以說(shuō)f在s中是鄰近的。
定義3 獨(dú)立支持度:頻繁項(xiàng)f的獨(dú)立支持度是指包含f本身但不包含f的超集的句子數(shù)量,即f的支持度減去f的超集支持度之和。若f的獨(dú)立支持度大于最小支持度,則其符合獨(dú)立支持度規(guī)則。
挖掘評(píng)價(jià)對(duì)象的候選特征過(guò)程如算法1所示。首先,應(yīng)用Apriori算法從預(yù)處理得到的評(píng)價(jià)對(duì)象的事務(wù)文件中,提取滿足最小支持度的頻繁項(xiàng)集。通過(guò)分析評(píng)論對(duì)象特征的特性,發(fā)現(xiàn)3維以上頻繁項(xiàng)不可能是特征,所以只提取3維及其以下的頻繁項(xiàng);然后,根據(jù)鄰近規(guī)則,去掉不在其相鄰位置的頻繁項(xiàng);根據(jù)獨(dú)立支持度剪枝去掉被包含在其他頻繁項(xiàng)的冗余頻繁項(xiàng);因?yàn)閱巫植豢赡苁窃u(píng)價(jià)對(duì)象的特征,所以,刪去頻繁項(xiàng)集中的單字。
算法1 評(píng)價(jià)對(duì)象的候選特征挖掘
輸入:評(píng)論語(yǔ)料事務(wù)文件W,評(píng)論語(yǔ)料庫(kù)T
輸出:頻繁特征集L
方法:
int minsupport,int k;
//初始化最小支持度和頻繁項(xiàng)集的最高維度
L0=Apriori(W,minsupport,k);
//通過(guò)Apriori算法得到頻繁項(xiàng)集L0
for each f∈L0 do
//對(duì)于L0中的大于一維的項(xiàng)根據(jù)鄰近規(guī)則重新計(jì)算支持度
if f.dimension﹥1 then//如果f的維度大于1
f.count=0;//f的支持度重新設(shè)置為0
for each t∈T do//對(duì)所有事務(wù)掃描一遍
if f在t中是鄰近的do//若f在t中符合鄰近規(guī)則
f.count++;//f的支持度加1
end if
end for
end if
end for
L1={f∈L0|f.count≧minsupport};
//刪除支持度小于最小支持度的項(xiàng)集
for each f∈L1 do
//掃描候選項(xiàng)集L1計(jì)算每個(gè)一維頻繁項(xiàng)的獨(dú)立支持度
if f.dimension=1 then//若f的維度為1
S={l∈L1|fl,f≠l};
//得到包含項(xiàng)f的多維頻繁項(xiàng)集S
for each l∈S do//掃描S中的多維頻繁項(xiàng)
S.count+=l.count;
//S的支持度為項(xiàng)的支持度S中項(xiàng)的支持度之和
end for
f.count=f.count-S.count;//得到f的獨(dú)立支持度
end if
end for
L2={l∈L1|f.count≧minsupport};
//刪除獨(dú)立支持度小于最小支持度的項(xiàng)
return L={l∈L2|f.length﹥1};//刪除單字
其中,minsupport表示給定的最小支持度,k表示給定的頻繁項(xiàng)集的最高維度。
1.2 評(píng)價(jià)對(duì)象的特征過(guò)濾
將不同的評(píng)價(jià)對(duì)象的評(píng)論語(yǔ)料看成是不同的領(lǐng)域的評(píng)論語(yǔ)料。真正的特征應(yīng)該在不同領(lǐng)域的評(píng)論分布不均勻,在其相關(guān)領(lǐng)域的評(píng)論文檔集中應(yīng)分布比較均勻。
因此,本文通過(guò)計(jì)算特征的領(lǐng)域相關(guān)度及領(lǐng)域一致度,并對(duì)領(lǐng)域相關(guān)度和領(lǐng)域一致度進(jìn)行量化,定義一個(gè)綜合評(píng)定指標(biāo),根據(jù)這個(gè)指標(biāo)可對(duì)應(yīng)用Apriori算法挖掘出來(lái)的候選特征進(jìn)行過(guò)濾。
?。?)特征的領(lǐng)域相關(guān)度計(jì)算
特征的領(lǐng)域相關(guān)度表示特征與領(lǐng)域的相關(guān)程度。設(shè)總共有n個(gè)領(lǐng)域{D1,D2,…,Dn},則候選特征t對(duì)于某領(lǐng)域Di的領(lǐng)域相關(guān)度定義為:
?。?)特征的領(lǐng)域一致度計(jì)算
特征的領(lǐng)域一致度表示特征在領(lǐng)域中的分布均勻度。設(shè)領(lǐng)域Di中有m個(gè)評(píng)論文檔{d1,d2,…,dm},則候選特征t對(duì)于Di的領(lǐng)域一致度定義為:
其中,ft,dj表示特征t在文檔dj中的頻度。在式(3)中, H(t,Di)為信息熵,其值越大,表明t在各文檔中分布越均勻,t是該領(lǐng)域的可能性就越大。當(dāng)t在各文檔中出現(xiàn)的頻度相等的時(shí)候,H(t,Di)的值最大。
(3)綜合評(píng)定指標(biāo)的定義
當(dāng)候選評(píng)價(jià)對(duì)象特征的領(lǐng)域相關(guān)度和領(lǐng)域一致度都很大時(shí),該候選特征就可能是該領(lǐng)域的真正特征。因此,通過(guò)對(duì)兩者的加權(quán)平均,可以定義候選評(píng)價(jià)對(duì)象特征t對(duì)領(lǐng)域Di的一個(gè)綜合評(píng)定指標(biāo):
DW(t,Di)=α·DR(t|Di)+β·DC(t,Di)(5)
計(jì)算所有候選特征對(duì)于領(lǐng)域Di的DW(t,Di)值,按照從大到小排序。設(shè)置閾值θ,使得DW(t,Di)的值大于θ的候選特征為所選取的評(píng)價(jià)對(duì)象特征,小于θ的候選特征將從候選特征集中去除。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)語(yǔ)料與性能評(píng)價(jià)指標(biāo)
因中文產(chǎn)品評(píng)論觀點(diǎn)挖掘發(fā)展還不成熟,缺少公開(kāi)的、標(biāo)準(zhǔn)的語(yǔ)料庫(kù),目前研究主要采用從指定的網(wǎng)站(如英文的www.Amazon.com,中文的pinglun.IT168.com等)獲取某類(lèi)產(chǎn)品的產(chǎn)品評(píng)論來(lái)構(gòu)建產(chǎn)品評(píng)論語(yǔ)料庫(kù)[7]。所以本文選取的是從上述網(wǎng)站上下載下來(lái)的評(píng)論數(shù)據(jù),包括手機(jī)、數(shù)碼相機(jī)、DVD機(jī)、書(shū)籍以及服飾5類(lèi)產(chǎn)品各1 000條評(píng)論數(shù)據(jù)。針對(duì)每一種產(chǎn)品評(píng)論,用人工標(biāo)注的方法對(duì)評(píng)價(jià)對(duì)象特征進(jìn)行識(shí)別和標(biāo)注,不考慮那些在評(píng)論中沒(méi)有出現(xiàn)或是出現(xiàn)的頻率太低的特征,那么標(biāo)注時(shí)要保證特征的支持度要大于Apriori算法中的最小支持度。
為了評(píng)估方法的性能,本文采取了查全率(recall),查準(zhǔn)率(precision),F(xiàn)1-score來(lái)評(píng)價(jià)特征抽取的有效性。公式如下:
2.2 實(shí)驗(yàn)結(jié)果
在抽取評(píng)價(jià)對(duì)象的候選特征集階段,利用Apriori算法抽取頻繁項(xiàng)集時(shí),選取的最小支持度為2%。綜合5種商品的實(shí)驗(yàn)結(jié)果如表1所示,平均查全率為81.72%,平均查準(zhǔn)率為62.87%。
在此實(shí)驗(yàn)中,一種產(chǎn)品的評(píng)論語(yǔ)料作為領(lǐng)域語(yǔ)料,那么其他4種評(píng)論語(yǔ)料則是作為過(guò)濾語(yǔ)料。比如手機(jī)的評(píng)論數(shù)據(jù)作為領(lǐng)域語(yǔ)料,那么數(shù)碼相機(jī)、DVD機(jī)、書(shū)籍和服飾的評(píng)論數(shù)據(jù)將作為過(guò)濾語(yǔ)料。在量化特征的領(lǐng)域一致度和領(lǐng)域相關(guān)度后,對(duì)過(guò)濾的綜合評(píng)定指標(biāo)定義時(shí),經(jīng)過(guò)試驗(yàn)比較發(fā)現(xiàn),α值取0.9左右,β值取0.25左右,閾值θ取1.8。過(guò)濾后的5種商品的實(shí)驗(yàn)結(jié)果如表2所示,平均查全率為77.07%,平均查準(zhǔn)率為70.89%,比未過(guò)濾前查準(zhǔn)率提高了8.02%。
特征過(guò)濾的實(shí)驗(yàn)結(jié)果與基于Apriori算法抽取候選特征的實(shí)驗(yàn)結(jié)果以及HU M等人的英文評(píng)論挖掘結(jié)果進(jìn)行比較。以F1-score值作為參考,利用3個(gè)實(shí)驗(yàn)中都有的產(chǎn)品手機(jī)、數(shù)碼相機(jī)和書(shū)籍的實(shí)驗(yàn)結(jié)果作比較,如表3所示。與基于Apriori算法抽取候選特征的實(shí)驗(yàn)結(jié)果來(lái)看,平均F1-score值提高了3.2%。以HU M和LIU B的實(shí)驗(yàn)結(jié)果來(lái)看,平均F1-score值提高了1.48。本方法提高了中文客戶評(píng)論對(duì)象的特征挖掘性能。
本文通過(guò)利用Apriori算法抽取評(píng)價(jià)對(duì)象的候選特征集,結(jié)合計(jì)算領(lǐng)域一致度和領(lǐng)域相關(guān)度對(duì)候選特征進(jìn)行過(guò)濾,實(shí)現(xiàn)了對(duì)中文客戶評(píng)論的對(duì)象特征挖掘。通過(guò)實(shí)驗(yàn)驗(yàn)證了通過(guò)結(jié)合領(lǐng)域一致度和領(lǐng)域相關(guān)度的過(guò)濾效果,特征挖掘的性能得到提高,且略優(yōu)于參考文獻(xiàn)[2]關(guān)于英文評(píng)論的抽取性能。
在今后的工作中,將建立一個(gè)中文客戶評(píng)論挖掘框架,在本文的基礎(chǔ)上,針對(duì)已經(jīng)挖掘出來(lái)的評(píng)價(jià)對(duì)象特征,進(jìn)一步判斷客戶評(píng)論中對(duì)于這些評(píng)價(jià)對(duì)象特征的情感傾向分布。
參考文獻(xiàn)
[1] POPESCU A M, ETZIONI O. Extracting product featuresand opinionsfrom reviews[J]. Proceedings of HLT-EMNLPVancouver, 2007:9-28.
[2] HU M, LIU B. Mining opinion featuresin customer reviews[C]. Proceedings of the Tenth ACM SIGKDD International Conerence on Knowledge Discovery and Data Mining, ACM, 2004:168-177.
[3] 姚天昉,聶青陽(yáng),李建超,等.一個(gè)用于漢語(yǔ)汽車(chē)評(píng)論的意見(jiàn)挖掘系統(tǒng)[C].中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)成立二十五周年學(xué)術(shù)會(huì)議論文集.北京:中國(guó)中文信息學(xué)會(huì),2006:260-281.
[4] YI J, NASUKAWA T, BUNESCUR R, et al. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques[C]. Proceeding of the 3rd IEEE International Conference on Data Mining,Washington: IEEE Computer Society, 2003:427-434.
[5] SOMPRASERTSRI G, LALITROJWONG P. A maximum entropy model for product feature extraction in online customer reviews[C]. Proceeding of the 3rd IEEE International Conference on Data Mining, Washington: IEEE Computer Society, 2008: 575-580.
[6] ZHENG Y, YE L, WU G, et al. Extracting product features from chinese customer reviews[A]. Proceedings of 2008 3rd IEEE International Conference on Intelligent System and Knowledge Engineering[C]. 2008(1-2):285-290.
[7] 伍星,何中市,黃永文.產(chǎn)品評(píng)論挖掘研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(36):37-40.