包亮1, 張莉2,許鑫3
(1. 南京思杰系統(tǒng)信息技術(shù)有限公司,江蘇 南京 211106; 2.南京大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,江蘇 南京 210093;3.華東師范大學(xué) 信息管理系,上海 200241)
摘要:對(duì)抓取的蘇州園林網(wǎng)絡(luò)評(píng)論進(jìn)行意見(jiàn)挖掘,基于詞、詞性和句法模式利用CRF模型抽取評(píng)論句中的評(píng)價(jià)對(duì)象,利用SVM分類(lèi)算法對(duì)評(píng)論句中蘊(yùn)含的情感進(jìn)行分類(lèi),獲得了較為理想的實(shí)驗(yàn)結(jié)果,表明所采用的算法較為有效,有一定的實(shí)用價(jià)值。進(jìn)一步,基于評(píng)論意見(jiàn)挖掘結(jié)果,對(duì)蘇州園林中的5個(gè)典型園林主要從整體用戶情感傾向判斷和尋找園林特質(zhì)這兩方面進(jìn)行分析探討,揭示意見(jiàn)挖掘的重要應(yīng)用價(jià)值。
關(guān)鍵詞:意見(jiàn)挖掘;特征提取;情感分類(lèi);條件隨機(jī)場(chǎng);支持向量機(jī)
0引言
旅行地的口碑是旅行者非常關(guān)注的問(wèn)題,而在互聯(lián)網(wǎng)上搜索總結(jié)景點(diǎn)評(píng)價(jià)費(fèi)時(shí)費(fèi)力且完整性差,情感分析正是一種利用計(jì)算機(jī)來(lái)自動(dòng)識(shí)別主觀文本中的情感傾向的一種技術(shù)。隨著需求的增加,人們除了想獲知對(duì)于某個(gè)對(duì)象的情感外,還希望獲知所評(píng)價(jià)對(duì)象的若干方面的屬性。Hu和Liu等[1]在2004年首次提出了基于產(chǎn)品屬性總結(jié)對(duì)象的情感,這種技術(shù)是情感分析的進(jìn)一步發(fā)展,被稱為意見(jiàn)挖掘。
本文將利用意見(jiàn)挖掘技術(shù)抽取攜程網(wǎng)、同程網(wǎng)和驢媽媽旅游網(wǎng)上游客對(duì)于5A級(jí)景區(qū)蘇州園林的游記評(píng)論中的評(píng)價(jià)對(duì)象以及相應(yīng)的情感傾向,并基于意見(jiàn)挖掘結(jié)果進(jìn)一步揭示其隱含的應(yīng)用價(jià)值。
1相關(guān)工作
意見(jiàn)挖掘通常包括三方面工作:主題抽取(也稱為評(píng)價(jià)對(duì)象抽取或特征抽?。?、觀點(diǎn)表達(dá)抽取和情感判斷,當(dāng)然也可以直接根據(jù)情感詞典進(jìn)行情感分類(lèi)而不單獨(dú)抽取觀點(diǎn)表達(dá)。意見(jiàn)挖掘自問(wèn)世以來(lái)就引起了廣泛的關(guān)注,成為國(guó)內(nèi)外自然語(yǔ)言處理和數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)。
評(píng)價(jià)對(duì)象抽取主要采用三種技術(shù),一是利用領(lǐng)域知識(shí)相關(guān)的規(guī)則和模板,二是基于領(lǐng)域本體知識(shí)庫(kù),三是基于語(yǔ)言模型或機(jī)器學(xué)習(xí)算法。其中機(jī)器學(xué)習(xí)算法是目前評(píng)價(jià)對(duì)象抽取的主流技術(shù),它可以減少人工參與且能獲得不錯(cuò)的效果。蒙新泛等人[2]和張盛等人[3]均利用條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF)進(jìn)行評(píng)價(jià)對(duì)象抽取,劉非凡等[4]利用層級(jí)隱馬模型(Hidden Markov Models,HMM)識(shí)別產(chǎn)品評(píng)價(jià)對(duì)象。
情感分類(lèi)方面,可以根據(jù)情感分類(lèi)的粒度將其分為兩大類(lèi),一是單個(gè)詞匯的情感分類(lèi),二是短語(yǔ)、句子和文檔的情感分類(lèi)。與評(píng)價(jià)對(duì)象抽取一樣,機(jī)器學(xué)習(xí)算法也是主流的情感分類(lèi)技術(shù),例如PANG B等人[5]在2002年首次使用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)算法樸素貝葉斯(NB)、最大熵(ME)和支持向量機(jī)(SVM)進(jìn)行文本的情感分類(lèi)比較,唐慧豐等人[6]將此研究在中文文本上進(jìn)行了實(shí)踐;劉康等人[7]基于層疊CRFs對(duì)句子的情感進(jìn)行了分類(lèi)。
本文將使用目前的主流技術(shù)即機(jī)器學(xué)習(xí)算法抽取評(píng)價(jià)對(duì)象和進(jìn)行情感分類(lèi),評(píng)價(jià)對(duì)象抽取使用CRF模型,情感分類(lèi)將使用SVM分類(lèi)算法。
2網(wǎng)絡(luò)評(píng)論意見(jiàn)挖掘方案
本文意見(jiàn)挖掘研究方案分為抽取評(píng)價(jià)對(duì)象和情感分類(lèi)兩部分。例如對(duì)于評(píng)論句“蘇州園林中的建筑物都很氣派?!保枰槿〉脑u(píng)價(jià)對(duì)象為“蘇州園林中的建筑物”,情感為“褒義”。
2.1基于CRF的評(píng)價(jià)對(duì)象抽取
條件隨機(jī)場(chǎng)模型(CRF)[8]是一種十分流行且有效的有監(jiān)督學(xué)習(xí)算法?;谥暗膶?shí)驗(yàn)結(jié)果[9],本文選擇詞、詞性和若干個(gè)長(zhǎng)度不超過(guò)5個(gè)詞的典型的評(píng)價(jià)對(duì)象句法模式(結(jié)構(gòu))作為CRF的語(yǔ)言特征。句法模式如[狀中結(jié)構(gòu)+主謂關(guān)系](如“今日游客”),其以主謂關(guān)系為中心,在實(shí)際標(biāo)注過(guò)程中,由程序自動(dòng)按照模式順序?qū)⒃O(shè)定的句圖1利用CRF抽取評(píng)價(jià)對(duì)象實(shí)驗(yàn)結(jié)果圖2用SVM進(jìn)行情感分類(lèi)的實(shí)驗(yàn)結(jié)果法模式標(biāo)出。
2.2基于SVM的情感分類(lèi)
PANG B等人[5]和唐慧豐等人[6]分別使用NB、ME和SVM這三種經(jīng)典的機(jī)器學(xué)習(xí)算法對(duì)英文文本和中文文本進(jìn)行情感分類(lèi)并進(jìn)行比較,本文作者也在混合領(lǐng)域的語(yǔ)料上做了相似的工作[10],幾個(gè)實(shí)驗(yàn)結(jié)果都可看出SVM在情感分類(lèi)上具有明顯優(yōu)勢(shì),本文將選擇SVM作為情感分類(lèi)算法。
本文采用詞作為向量空間模型的文本特征,考慮到數(shù)據(jù)稀疏問(wèn)題,選擇部分特有詞性的詞作為文本特征,唐慧豐等人[6]選取了名詞、動(dòng)詞、形容詞和副詞這四種詞性進(jìn)行了實(shí)驗(yàn),結(jié)果表明這四種詞性的合集已經(jīng)能夠近似地反映整個(gè)文檔的情感特征,本文又補(bǔ)充了名詞修飾詞、習(xí)語(yǔ)和縮略語(yǔ),實(shí)驗(yàn)結(jié)果表明性能有所提高。因此,本文選用的詞共有7種。
本文選擇最常用的權(quán)重計(jì)算函數(shù)TFIDF表示特征,使用經(jīng)典的特征選擇方法信息增益(IG)選擇特征。
3實(shí)驗(yàn)結(jié)果與分析
3.1實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
本文所用的實(shí)驗(yàn)數(shù)據(jù)為2015年2月從攜程網(wǎng)、同程網(wǎng)和驢媽媽旅游網(wǎng)上采集的游客對(duì)于蘇州園林的游記評(píng)論,最終選取了有評(píng)價(jià)對(duì)象的4 697條評(píng)論,包含4 906個(gè)評(píng)價(jià)對(duì)象。由兩名標(biāo)注者對(duì)評(píng)論句中的評(píng)價(jià)對(duì)象、觀點(diǎn)和極性進(jìn)行標(biāo)注,最后由第三名標(biāo)注者進(jìn)行統(tǒng)一,例如對(duì)于評(píng)論句“蘇州園林中的建筑物都很氣派?!保斯?biāo)注出評(píng)價(jià)對(duì)象、觀點(diǎn)和極性,即:
{蘇州園林中的建筑物; 很氣派;1}
基于標(biāo)注數(shù)據(jù)利用CRF和SVM分別抽取評(píng)價(jià)對(duì)象并進(jìn)行情感分類(lèi)。
3.2實(shí)驗(yàn)過(guò)程和結(jié)果
(1)基于CRF的評(píng)價(jià)對(duì)象抽取
在使用CRF進(jìn)行評(píng)價(jià)對(duì)象抽取前,首先通過(guò)自行編寫(xiě)的Python程序?qū)⒃u(píng)論語(yǔ)句按照所選擇的特征轉(zhuǎn)化為組塊(token)的格式。評(píng)價(jià)對(duì)象的抽取特征包含了詞、詞性和設(shè)定模式的句法結(jié)構(gòu),使用CRF(本文使用了CRF++0.58)進(jìn)行訓(xùn)練需要使用的特征模板,詞、詞性和句法模式所選擇的特征窗口均為5,范圍是{-2, -1, 0, 1, 2}。
將標(biāo)注后的數(shù)據(jù)文件交由CRF++0.58進(jìn)行訓(xùn)練,利用上述模板生成模型,然后基于模型對(duì)待標(biāo)注的評(píng)論句進(jìn)行學(xué)習(xí),本文使用5折交叉驗(yàn)證。將學(xué)習(xí)后的文件交由conlleval工具統(tǒng)計(jì)精確率(Precision,簡(jiǎn)稱P值)、召回率(Recall,簡(jiǎn)稱R值)和調(diào)和均值(Fmeasure,簡(jiǎn)稱F值),實(shí)驗(yàn)結(jié)果如圖1所示。
從圖1可以看到,對(duì)于4 697條評(píng)論句中的4 906個(gè)評(píng)價(jià)對(duì)象,本算法共找到3 812個(gè),其中正確的為3 559個(gè),P值、R值和F值分別為93.36%、72.54%和81.65%。
(2)基于SVM的情感分類(lèi)
對(duì)于4 697條評(píng)論句中標(biāo)出的觀點(diǎn)表達(dá),利用自行編寫(xiě)的Python程序選擇其中的名詞、動(dòng)詞、形容詞、副詞、名詞修飾詞、習(xí)語(yǔ)和縮略語(yǔ)這7種詞性的詞或短語(yǔ),并利用TFIDF權(quán)重函數(shù)計(jì)算它們的權(quán)重。利用著名的數(shù)據(jù)處理工具Weka[11]將處理后的VSM表示文件導(dǎo)入Weka中。
首先利用Weka中的信息增益函數(shù)進(jìn)行特征選擇,使用默認(rèn)參數(shù)值,然后使用分類(lèi)算法SVM進(jìn)行情感分類(lèi),本文使用臺(tái)灣大學(xué)林智仁教授等開(kāi)發(fā)的LIBSVM[12]并將其加入Weka 中,使用線性核函數(shù)(Linear),參數(shù)使用默認(rèn)值,同樣采用5折交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果如圖2所示。
3.3Baseline
將基于詞和詞性利用CRF進(jìn)行評(píng)價(jià)對(duì)象抽取以及使用唐慧豐等人[6]提出的選擇四種詞性利用SVM進(jìn)行情感分類(lèi)作為Baseline與本文提出的方法做比較,實(shí)驗(yàn)對(duì)比結(jié)果如圖3和圖4所示。
3.4實(shí)驗(yàn)結(jié)果分析
從3.2節(jié)“基于CRF的評(píng)價(jià)對(duì)象抽取”的實(shí)驗(yàn)結(jié)果來(lái)看,評(píng)價(jià)對(duì)象抽取的F值為81.65%,該結(jié)果在目前的同類(lèi)研究中相對(duì)較好,但是也可以看到,算法執(zhí)行后P值較高,R值還有一定的提升空間,究其原因是有部分評(píng)價(jià)對(duì)象因?yàn)榫W(wǎng)絡(luò)評(píng)論句本身表現(xiàn)形式自由,因此在詞性和句法模式上難以用統(tǒng)一的固定模式去限制和選擇,所以導(dǎo)致有些評(píng)論句未抽取出評(píng)價(jià)對(duì)象,由此R值并不理想。而從另一個(gè)方面來(lái)看,只要是模式規(guī)范或相對(duì)規(guī)范的句式則抽取的準(zhǔn)確率都很高,由此可以獲得較理想的P值。從圖3與僅僅使用詞和詞性這兩個(gè)基本的語(yǔ)言特征利用CRF進(jìn)行評(píng)價(jià)對(duì)象抽取的實(shí)驗(yàn)結(jié)果比較來(lái)看,增加句法模式這一語(yǔ)言特征對(duì)于CRF的特征抽取是有幫助的(F值提高了5.34%)。
從3.2節(jié)“基于SVM的情感分類(lèi)”的實(shí)驗(yàn)結(jié)果來(lái)看,基于7種詞性,利用TFI-DF作為權(quán)重計(jì)算函數(shù),IG作為特征選擇方法,SVM作為分類(lèi)算法可以獲得較為理想的實(shí)驗(yàn)結(jié)果,表明了所選擇的策略和算法是正確的。另外從實(shí)驗(yàn)結(jié)果也可以看到,貶義情感分類(lèi)的R值很低(0.533),表明有較多的貶義情感沒(méi)有正確確定,究其原因是因?yàn)楸疚乃玫膶?shí)驗(yàn)數(shù)據(jù)中包含貶義情感的評(píng)論句比例很低(10.7%),因此難以獲得較高的召回率。而與唐慧豐等選擇四種詞性的特征表示方法相比(圖4),本文提出的方法在貶義情感識(shí)別上有比較好的表現(xiàn),R值提高了9%,F(xiàn)值提高了7.7%,在褒義情感識(shí)別上性能也有所提高,整體來(lái)看F值有1.2%的提高。
4基于評(píng)論意見(jiàn)挖掘的旅游領(lǐng)域應(yīng)用
可以基于CRF和SVM抽取的評(píng)價(jià)對(duì)象和情感傾向判斷結(jié)果對(duì)數(shù)據(jù)中蘊(yùn)含的其他信息進(jìn)行揭示,其結(jié)果可以進(jìn)一步應(yīng)用在園林和其他旅游領(lǐng)域。本文以蘇州園林中5個(gè)典型的園林為例進(jìn)行若干數(shù)據(jù)分析,主要從整體用戶情感傾向判斷和尋找園林特質(zhì)這兩方面進(jìn)行應(yīng)用分析。
4.1整體用戶情感傾向判斷
以拙政園、留園、獅子林、網(wǎng)師園和耦園這5個(gè)最具代表性的蘇州園林為例,通過(guò)自動(dòng)統(tǒng)計(jì)用戶對(duì)其的評(píng)論得到整體用戶的感情傾向,結(jié)果如圖5所示。
從圖5可以看出,用戶對(duì)5個(gè)園林的褒貶評(píng)價(jià)不一,拙政園的貶義評(píng)價(jià)最多,達(dá)25.67%,網(wǎng)師園的貶義評(píng)價(jià)最少,只有2.45%,這可能是因?yàn)樽菊@在5個(gè)園林中最為有名,游客對(duì)其期望值較高容易產(chǎn)生失望。通過(guò)對(duì)貶義用戶評(píng)論進(jìn)行簡(jiǎn)單的詞頻統(tǒng)計(jì)發(fā)現(xiàn),事實(shí)與猜測(cè)相符,用戶的貶義評(píng)論主要集中在門(mén)票貴和人多這兩個(gè)焦點(diǎn)上,而對(duì)于網(wǎng)師園和耦園由于游客的期望值不如拙政園,實(shí)際游玩時(shí)反而能夠有驚喜因此負(fù)面評(píng)價(jià)少。
4.2尋找園林特質(zhì)
根據(jù)用戶評(píng)論中的情感詞可以大致判斷出某個(gè)園林的特質(zhì),本文通過(guò)對(duì)觀點(diǎn)表達(dá)自動(dòng)分詞以及利用同義詞詞林聚類(lèi)統(tǒng)計(jì)得到5個(gè)園林的褒義評(píng)價(jià)詞,據(jù)此尋找園林特質(zhì)。表1所示為每個(gè)園林的前10個(gè)褒義評(píng)價(jià)詞。
通過(guò)集合操作可以去掉5組評(píng)價(jià)中共同包含的詞如“美”和相當(dāng)于共同包含的詞如“精美”和“精致”(因?yàn)橐寻懊馈保梢哉J(rèn)為“精美”=“精致”+“美”),大致可以得出每個(gè)園林的代表特質(zhì),例如拙政園與其他4個(gè)園林相比有“大”和“大氣”的特點(diǎn),如果喜歡有趣味的園林則可以選擇獅子林,而網(wǎng)師園和耦園相對(duì)安靜。
以上通過(guò)結(jié)合集合操作得到的結(jié)論也可以通過(guò)UCINET和NetDraw所生成的社會(huì)網(wǎng)絡(luò)圖推導(dǎo)得來(lái)。圖6所示為利用5個(gè)園林的褒義評(píng)價(jià)詞(包括了所有的褒義評(píng)價(jià)詞,并且沒(méi)有進(jìn)行進(jìn)一步嚴(yán)格的詞合并)生成的社會(huì)網(wǎng)絡(luò)圖,在圖中仍然可以看出拙政園與其他園林之間有較大的差別,拙政園和獅子林更具有自己的特色,網(wǎng)師園和耦園相對(duì)安靜。
基于網(wǎng)絡(luò)意見(jiàn)挖掘結(jié)果對(duì)整體用戶情感傾向進(jìn)行判斷以及對(duì)園林特質(zhì)尋找等進(jìn)行分析,園林管理方可以根據(jù)圖6基于用戶褒義評(píng)價(jià)的園林特質(zhì)關(guān)系網(wǎng)絡(luò)圖其結(jié)果發(fā)揚(yáng)或改善園林的優(yōu)缺點(diǎn),用戶則可以基于這些結(jié)果進(jìn)行游覽的選擇。依此構(gòu)建用戶推薦系統(tǒng),有利于后續(xù)形成旅游產(chǎn)品開(kāi)發(fā)方案或游覽路線設(shè)計(jì)方案。
5結(jié)論
本文提出利用CRF對(duì)蘇州園林的評(píng)論抽取其評(píng)價(jià)對(duì)象,并且利用SVM對(duì)情感進(jìn)行分類(lèi),獲得了較理想的實(shí)驗(yàn)結(jié)果,表明所用算法較好,有一定的實(shí)用效果,后續(xù)將繼續(xù)采集更多的網(wǎng)絡(luò)評(píng)論,并擴(kuò)展CRF所使用的語(yǔ)言特征以期獲得更好的效果。同時(shí)基于意見(jiàn)挖掘結(jié)果從整體用戶評(píng)論情感傾向和園林特質(zhì)這兩方面進(jìn)行分析探討,揭示其蘊(yùn)含的應(yīng)用價(jià)值。
本文提出的算法并不局限于某一個(gè)或一類(lèi)景區(qū),對(duì)其他景區(qū)同樣適用,同時(shí),這些算法也不僅僅適合旅游領(lǐng)域,除了傳統(tǒng)的產(chǎn)品和電影等領(lǐng)域外,也同樣適合用于微博和書(shū)評(píng)的意見(jiàn)挖掘中。
目前在人工標(biāo)注方面較為費(fèi)時(shí)費(fèi)力,如何半自動(dòng)地進(jìn)行標(biāo)注是今后研究的一個(gè)方向。另外,對(duì)于一個(gè)范圍內(nèi)各個(gè)園林或其他景區(qū)的自動(dòng)聚類(lèi)并為不同需求的用戶推薦游覽路線也將是今后研究的重點(diǎn)。
參考文獻(xiàn)
?。?] Hu Mingqing, Liu Bing. Mining and summarizing customer reviews[C]. In Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004:168177.[2] 蒙新泛,王厚峰. 基于CRF 的對(duì)象抽取及對(duì)象抽取的領(lǐng)域特定性研究[C]. 第一屆中文傾向性分析評(píng)測(cè)論文集.北京:第一屆中文傾向性分析評(píng)測(cè)委員會(huì),2008:3237.
?。?] 張盛,李芳.基于迭代兩步CRF模型的評(píng)價(jià)對(duì)象與極性抽取研究[J].中文信息學(xué)報(bào),2015,29(1):163169.
?。?] 劉非凡,趙軍,呂碧波,等.面向商務(wù)信息抽取的產(chǎn)品評(píng)價(jià)對(duì)象識(shí)別研究[J].中文信息學(xué)報(bào), 2006,20(1):1720.
?。?] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning teehniques[C]. EMNLP’02,2002:7986.
?。?] 唐慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的中文情感分類(lèi)技術(shù)比較研究[J].
中文信息學(xué)報(bào),2007,21(6):5594.
[7] 劉康,趙軍.基于層疊CRFs模型的句子褒貶度分析研究[J].中文信息學(xué)報(bào),2008,22(l):123128.
?。?] LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: probabilistic models for segmenting and labeling or sequence data[C]. ICML 2001,2001:282289.
[9] 張莉,錢(qián)玲飛,許鑫.基于核心句及句法關(guān)系的評(píng)價(jià)對(duì)象抽?。跩].中文信息學(xué)報(bào),2011,25(3):2329.
?。?0] 張莉. 跨領(lǐng)域中文評(píng)論的情感分類(lèi)研究[J].計(jì)算機(jī)應(yīng)用研究,2013,30(3):736741.
?。?1] Lin Zhiren. Machine learning group at the university of Waikato. Weka[EB/OL]. (20131220) [20151022].http://www.cs.waikato.ac.nz/ml/weka/.
?。?2] CHANG C C, LIN C J. LIBSVM算法[EB/OL].(20151214) [20151218]. http://www.csie.ntu.edu.tw/~cjlin/libsvm/.