包亮1, 張莉2,許鑫3
?。?. 南京思杰系統(tǒng)信息技術有限公司,江蘇 南京 211106; 2.南京大學 計算機科學與技術系,江蘇 南京 210093;3.華東師范大學 信息管理系,上海 200241)
摘要:對抓取的蘇州園林網絡評論進行意見挖掘,基于詞、詞性和句法模式利用CRF模型抽取評論句中的評價對象,利用SVM分類算法對評論句中蘊含的情感進行分類,獲得了較為理想的實驗結果,表明所采用的算法較為有效,有一定的實用價值。進一步,基于評論意見挖掘結果,對蘇州園林中的5個典型園林主要從整體用戶情感傾向判斷和尋找園林特質這兩方面進行分析探討,揭示意見挖掘的重要應用價值。
關鍵詞:意見挖掘;特征提取;情感分類;條件隨機場;支持向量機
0引言
旅行地的口碑是旅行者非常關注的問題,而在互聯(lián)網上搜索總結景點評價費時費力且完整性差,情感分析正是一種利用計算機來自動識別主觀文本中的情感傾向的一種技術。隨著需求的增加,人們除了想獲知對于某個對象的情感外,還希望獲知所評價對象的若干方面的屬性。Hu和Liu等[1]在2004年首次提出了基于產品屬性總結對象的情感,這種技術是情感分析的進一步發(fā)展,被稱為意見挖掘。
本文將利用意見挖掘技術抽取攜程網、同程網和驢媽媽旅游網上游客對于5A級景區(qū)蘇州園林的游記評論中的評價對象以及相應的情感傾向,并基于意見挖掘結果進一步揭示其隱含的應用價值。
1相關工作
意見挖掘通常包括三方面工作:主題抽取(也稱為評價對象抽取或特征抽?。⒂^點表達抽取和情感判斷,當然也可以直接根據情感詞典進行情感分類而不單獨抽取觀點表達。意見挖掘自問世以來就引起了廣泛的關注,成為國內外自然語言處理和數(shù)據挖掘領域的一個研究熱點。
評價對象抽取主要采用三種技術,一是利用領域知識相關的規(guī)則和模板,二是基于領域本體知識庫,三是基于語言模型或機器學習算法。其中機器學習算法是目前評價對象抽取的主流技術,它可以減少人工參與且能獲得不錯的效果。蒙新泛等人[2]和張盛等人[3]均利用條件隨機場模型(Conditional Random Fields,CRF)進行評價對象抽取,劉非凡等[4]利用層級隱馬模型(Hidden Markov Models,HMM)識別產品評價對象。
情感分類方面,可以根據情感分類的粒度將其分為兩大類,一是單個詞匯的情感分類,二是短語、句子和文檔的情感分類。與評價對象抽取一樣,機器學習算法也是主流的情感分類技術,例如PANG B等人[5]在2002年首次使用標準的機器學習算法樸素貝葉斯(NB)、最大熵(ME)和支持向量機(SVM)進行文本的情感分類比較,唐慧豐等人[6]將此研究在中文文本上進行了實踐;劉康等人[7]基于層疊CRFs對句子的情感進行了分類。
本文將使用目前的主流技術即機器學習算法抽取評價對象和進行情感分類,評價對象抽取使用CRF模型,情感分類將使用SVM分類算法。
2網絡評論意見挖掘方案
本文意見挖掘研究方案分為抽取評價對象和情感分類兩部分。例如對于評論句“蘇州園林中的建筑物都很氣派。”,需要抽取的評價對象為“蘇州園林中的建筑物”,情感為“褒義”。
2.1基于CRF的評價對象抽取
條件隨機場模型(CRF)[8]是一種十分流行且有效的有監(jiān)督學習算法?;谥暗膶嶒灲Y果[9],本文選擇詞、詞性和若干個長度不超過5個詞的典型的評價對象句法模式(結構)作為CRF的語言特征。句法模式如[狀中結構+主謂關系](如“今日游客”),其以主謂關系為中心,在實際標注過程中,由程序自動按照模式順序將設定的句圖1利用CRF抽取評價對象實驗結果圖2用SVM進行情感分類的實驗結果法模式標出。
2.2基于SVM的情感分類
PANG B等人[5]和唐慧豐等人[6]分別使用NB、ME和SVM這三種經典的機器學習算法對英文文本和中文文本進行情感分類并進行比較,本文作者也在混合領域的語料上做了相似的工作[10],幾個實驗結果都可看出SVM在情感分類上具有明顯優(yōu)勢,本文將選擇SVM作為情感分類算法。
本文采用詞作為向量空間模型的文本特征,考慮到數(shù)據稀疏問題,選擇部分特有詞性的詞作為文本特征,唐慧豐等人[6]選取了名詞、動詞、形容詞和副詞這四種詞性進行了實驗,結果表明這四種詞性的合集已經能夠近似地反映整個文檔的情感特征,本文又補充了名詞修飾詞、習語和縮略語,實驗結果表明性能有所提高。因此,本文選用的詞共有7種。
本文選擇最常用的權重計算函數(shù)TFIDF表示特征,使用經典的特征選擇方法信息增益(IG)選擇特征。
3實驗結果與分析
3.1實驗數(shù)據準備
本文所用的實驗數(shù)據為2015年2月從攜程網、同程網和驢媽媽旅游網上采集的游客對于蘇州園林的游記評論,最終選取了有評價對象的4 697條評論,包含4 906個評價對象。由兩名標注者對評論句中的評價對象、觀點和極性進行標注,最后由第三名標注者進行統(tǒng)一,例如對于評論句“蘇州園林中的建筑物都很氣派?!?,人工標注出評價對象、觀點和極性,即:
{蘇州園林中的建筑物; 很氣派;1}
基于標注數(shù)據利用CRF和SVM分別抽取評價對象并進行情感分類。
3.2實驗過程和結果
(1)基于CRF的評價對象抽取
在使用CRF進行評價對象抽取前,首先通過自行編寫的Python程序將評論語句按照所選擇的特征轉化為組塊(token)的格式。評價對象的抽取特征包含了詞、詞性和設定模式的句法結構,使用CRF(本文使用了CRF++0.58)進行訓練需要使用的特征模板,詞、詞性和句法模式所選擇的特征窗口均為5,范圍是{-2, -1, 0, 1, 2}。
將標注后的數(shù)據文件交由CRF++0.58進行訓練,利用上述模板生成模型,然后基于模型對待標注的評論句進行學習,本文使用5折交叉驗證。將學習后的文件交由conlleval工具統(tǒng)計精確率(Precision,簡稱P值)、召回率(Recall,簡稱R值)和調和均值(Fmeasure,簡稱F值),實驗結果如圖1所示。
從圖1可以看到,對于4 697條評論句中的4 906個評價對象,本算法共找到3 812個,其中正確的為3 559個,P值、R值和F值分別為93.36%、72.54%和81.65%。
(2)基于SVM的情感分類
對于4 697條評論句中標出的觀點表達,利用自行編寫的Python程序選擇其中的名詞、動詞、形容詞、副詞、名詞修飾詞、習語和縮略語這7種詞性的詞或短語,并利用TFIDF權重函數(shù)計算它們的權重。利用著名的數(shù)據處理工具Weka[11]將處理后的VSM表示文件導入Weka中。
首先利用Weka中的信息增益函數(shù)進行特征選擇,使用默認參數(shù)值,然后使用分類算法SVM進行情感分類,本文使用臺灣大學林智仁教授等開發(fā)的LIBSVM[12]并將其加入Weka 中,使用線性核函數(shù)(Linear),參數(shù)使用默認值,同樣采用5折交叉驗證,實驗結果如圖2所示。
3.3Baseline
將基于詞和詞性利用CRF進行評價對象抽取以及使用唐慧豐等人[6]提出的選擇四種詞性利用SVM進行情感分類作為Baseline與本文提出的方法做比較,實驗對比結果如圖3和圖4所示。
3.4實驗結果分析
從3.2節(jié)“基于CRF的評價對象抽取”的實驗結果來看,評價對象抽取的F值為81.65%,該結果在目前的同類研究中相對較好,但是也可以看到,算法執(zhí)行后P值較高,R值還有一定的提升空間,究其原因是有部分評價對象因為網絡評論句本身表現(xiàn)形式自由,因此在詞性和句法模式上難以用統(tǒng)一的固定模式去限制和選擇,所以導致有些評論句未抽取出評價對象,由此R值并不理想。而從另一個方面來看,只要是模式規(guī)范或相對規(guī)范的句式則抽取的準確率都很高,由此可以獲得較理想的P值。從圖3與僅僅使用詞和詞性這兩個基本的語言特征利用CRF進行評價對象抽取的實驗結果比較來看,增加句法模式這一語言特征對于CRF的特征抽取是有幫助的(F值提高了5.34%)。
從3.2節(jié)“基于SVM的情感分類”的實驗結果來看,基于7種詞性,利用TFI-DF作為權重計算函數(shù),IG作為特征選擇方法,SVM作為分類算法可以獲得較為理想的實驗結果,表明了所選擇的策略和算法是正確的。另外從實驗結果也可以看到,貶義情感分類的R值很低(0.533),表明有較多的貶義情感沒有正確確定,究其原因是因為本文所用的實驗數(shù)據中包含貶義情感的評論句比例很低(10.7%),因此難以獲得較高的召回率。而與唐慧豐等選擇四種詞性的特征表示方法相比(圖4),本文提出的方法在貶義情感識別上有比較好的表現(xiàn),R值提高了9%,F(xiàn)值提高了7.7%,在褒義情感識別上性能也有所提高,整體來看F值有1.2%的提高。
4基于評論意見挖掘的旅游領域應用
可以基于CRF和SVM抽取的評價對象和情感傾向判斷結果對數(shù)據中蘊含的其他信息進行揭示,其結果可以進一步應用在園林和其他旅游領域。本文以蘇州園林中5個典型的園林為例進行若干數(shù)據分析,主要從整體用戶情感傾向判斷和尋找園林特質這兩方面進行應用分析。
4.1整體用戶情感傾向判斷
以拙政園、留園、獅子林、網師園和耦園這5個最具代表性的蘇州園林為例,通過自動統(tǒng)計用戶對其的評論得到整體用戶的感情傾向,結果如圖5所示。
從圖5可以看出,用戶對5個園林的褒貶評價不一,拙政園的貶義評價最多,達25.67%,網師園的貶義評價最少,只有2.45%,這可能是因為拙政園在5個園林中最為有名,游客對其期望值較高容易產生失望。通過對貶義用戶評論進行簡單的詞頻統(tǒng)計發(fā)現(xiàn),事實與猜測相符,用戶的貶義評論主要集中在門票貴和人多這兩個焦點上,而對于網師園和耦園由于游客的期望值不如拙政園,實際游玩時反而能夠有驚喜因此負面評價少。
4.2尋找園林特質
根據用戶評論中的情感詞可以大致判斷出某個園林的特質,本文通過對觀點表達自動分詞以及利用同義詞詞林聚類統(tǒng)計得到5個園林的褒義評價詞,據此尋找園林特質。表1所示為每個園林的前10個褒義評價詞。
通過集合操作可以去掉5組評價中共同包含的詞如“美”和相當于共同包含的詞如“精美”和“精致”(因為已包含“美”,可以認為“精美”=“精致”+“美”),大致可以得出每個園林的代表特質,例如拙政園與其他4個園林相比有“大”和“大氣”的特點,如果喜歡有趣味的園林則可以選擇獅子林,而網師園和耦園相對安靜。
以上通過結合集合操作得到的結論也可以通過UCINET和NetDraw所生成的社會網絡圖推導得來。圖6所示為利用5個園林的褒義評價詞(包括了所有的褒義評價詞,并且沒有進行進一步嚴格的詞合并)生成的社會網絡圖,在圖中仍然可以看出拙政園與其他園林之間有較大的差別,拙政園和獅子林更具有自己的特色,網師園和耦園相對安靜。
基于網絡意見挖掘結果對整體用戶情感傾向進行判斷以及對園林特質尋找等進行分析,園林管理方可以根據圖6基于用戶褒義評價的園林特質關系網絡圖其結果發(fā)揚或改善園林的優(yōu)缺點,用戶則可以基于這些結果進行游覽的選擇。依此構建用戶推薦系統(tǒng),有利于后續(xù)形成旅游產品開發(fā)方案或游覽路線設計方案。
5結論
本文提出利用CRF對蘇州園林的評論抽取其評價對象,并且利用SVM對情感進行分類,獲得了較理想的實驗結果,表明所用算法較好,有一定的實用效果,后續(xù)將繼續(xù)采集更多的網絡評論,并擴展CRF所使用的語言特征以期獲得更好的效果。同時基于意見挖掘結果從整體用戶評論情感傾向和園林特質這兩方面進行分析探討,揭示其蘊含的應用價值。
本文提出的算法并不局限于某一個或一類景區(qū),對其他景區(qū)同樣適用,同時,這些算法也不僅僅適合旅游領域,除了傳統(tǒng)的產品和電影等領域外,也同樣適合用于微博和書評的意見挖掘中。
目前在人工標注方面較為費時費力,如何半自動地進行標注是今后研究的一個方向。另外,對于一個范圍內各個園林或其他景區(qū)的自動聚類并為不同需求的用戶推薦游覽路線也將是今后研究的重點。
參考文獻
[1] Hu Mingqing, Liu Bing. Mining and summarizing customer reviews[C]. In Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004:168177.[2] 蒙新泛,王厚峰. 基于CRF 的對象抽取及對象抽取的領域特定性研究[C]. 第一屆中文傾向性分析評測論文集.北京:第一屆中文傾向性分析評測委員會,2008:3237.
[3] 張盛,李芳.基于迭代兩步CRF模型的評價對象與極性抽取研究[J].中文信息學報,2015,29(1):163169.
?。?] 劉非凡,趙軍,呂碧波,等.面向商務信息抽取的產品評價對象識別研究[J].中文信息學報, 2006,20(1):1720.
?。?] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning teehniques[C]. EMNLP’02,2002:7986.
[6] 唐慧豐,譚松波,程學旗.基于監(jiān)督學習的中文情感分類技術比較研究[J].
中文信息學報,2007,21(6):5594.
?。?] 劉康,趙軍.基于層疊CRFs模型的句子褒貶度分析研究[J].中文信息學報,2008,22(l):123128.
[8] LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: probabilistic models for segmenting and labeling or sequence data[C]. ICML 2001,2001:282289.
?。?] 張莉,錢玲飛,許鑫.基于核心句及句法關系的評價對象抽?。跩].中文信息學報,2011,25(3):2329.
?。?0] 張莉. 跨領域中文評論的情感分類研究[J].計算機應用研究,2013,30(3):736741.
[11] Lin Zhiren. Machine learning group at the university of Waikato. Weka[EB/OL]. (20131220) [20151022].http://www.cs.waikato.ac.nz/ml/weka/.
?。?2] CHANG C C, LIN C J. LIBSVM算法[EB/OL].(20151214) [20151218]. http://www.csie.ntu.edu.tw/~cjlin/libsvm/.