123,123,123

情感倾向分析在舆情监控方面的研究

2017年微型机与应用第5期

王林,李昀泽

西安理工大学自动化与信息工程学院，陕西西安 710048

摘要： 针对Hownet经典算法的应用只是侧重于词句优化方面的研究，忽视了因不同人群层次主观色彩偏差而造成的判别准确性下降问题，文章提出了一种优化Hownet判别方法。搭建阈值确定的新框架，并利用义源信息量衍生义项的方法动态更新情感词库，一方面考虑到不同人群主观色彩对倾向分析产生的影响问题，另一方面针对某一事件或话题直接得出大众情感倾向。实验表明，相较传统的Hownet方法而言，优化后的Hownet实现了对舆情倾向分析的跨人群分析，且有更高的准确性。

關(guān)鍵詞： 义源信息量衍生义项 Hownet算法倾向性分析

Abstract：

Key words :

　　王林,李昀澤

　　（西安理工大學(xué) 自動(dòng)化與信息工程學(xué)院，陜西西安 710048）

摘要：針對(duì)Hownet經(jīng)典算法的應(yīng)用只是側(cè)重于詞句優(yōu)化方面的研究，忽視了因不同人群層次主觀色彩偏差而造成的判別準(zhǔn)確性下降問(wèn)題，文章提出了一種優(yōu)化Hownet判別方法。搭建閾值確定的新框架，并利用義源信息量衍生義項(xiàng)的方法動(dòng)態(tài)更新情感詞庫(kù)，一方面考慮到不同人群主觀色彩對(duì)傾向分析產(chǎn)生的影響問(wèn)題，另一方面針對(duì)某一事件或話題直接得出大眾情感傾向。實(shí)驗(yàn)表明，相較傳統(tǒng)的Hownet方法而言，優(yōu)化后的Hownet實(shí)現(xiàn)了對(duì)輿情傾向分析的跨人群分析，且有更高的準(zhǔn)確性。

　　關(guān)鍵詞：義源信息量;衍生義項(xiàng);Hownet算法;傾向性分析

　　中圖分類(lèi)號(hào)：TN929.12文獻(xiàn)標(biāo)識(shí)碼：ADOI： 10.19358/j.issn.1674-7720.2017.05.004

　　引用格式：王林,李昀澤.情感傾向分析在輿情監(jiān)控方面的研究［J］.微型機(jī)與應(yīng)用，2017,36（5）：11-13，17.

0引言

　　在輿情媒體規(guī)模、媒體種類(lèi)等發(fā)展迅猛的情況下，輿情監(jiān)測(cè)顯得愈發(fā)重要，其中人群傾向性偏差問(wèn)題尤為受到關(guān)注。研究不同領(lǐng)域的人群情感傾向偏差問(wèn)題，是解決輿情人群主觀色彩差異的重點(diǎn)［1］，也可為眾多輿情分析平臺(tái)提供幫助，并可為政府監(jiān)管系統(tǒng)對(duì)輿情的整體走勢(shì)和褒貶判斷提供重要依據(jù)。

　　針對(duì)主觀色彩偏差問(wèn)題，近年來(lái)研究者提出的解決方案主要有細(xì)粒度分析法［2］、挖掘新模式二次調(diào)用［3］、情感詞典邏輯結(jié)合［4］等方法。由于Hownet方法重點(diǎn)在于優(yōu)化情感詞庫(kù)和解決詞句［5］問(wèn)題，所以利用Hownet解決主觀情感差異并不常見(jiàn)。呂韶華等人［6］基于SimRank的跨領(lǐng)域情感傾向性分析算法構(gòu)建潛在空間向量，實(shí)現(xiàn)了領(lǐng)域分類(lèi)，但僅限于分類(lèi)階段。YZERBYT V等人［7］提出分類(lèi)識(shí)別行動(dòng)傾向，引入傳播動(dòng)力學(xué)，但只側(cè)重于傳播方式研究。魏現(xiàn)輝［8］提出了一種基于加權(quán)SimRank的分析模型，實(shí)現(xiàn)了跨領(lǐng)域情感分類(lèi)，但傾向性分析結(jié)果準(zhǔn)確性不高。張瑩［9］提出基于異構(gòu)信息源和邏輯斯諦回歸模型進(jìn)行情緒預(yù)測(cè)的方法，該方法是解決跨領(lǐng)域跨人群?jiǎn)栴}的一大突破，但是步驟過(guò)于繁瑣。馬鳳閘［10］將經(jīng)典遷移學(xué)習(xí)TrAdaBoost算法的樣本遷移機(jī)制應(yīng)用于情感傾向性分析，為跨領(lǐng)域分析做出了重大貢獻(xiàn)，但精確度有待提高。孟佳娜等人［11］提出歸納式遷移學(xué)習(xí)，通過(guò)領(lǐng)域采集的關(guān)聯(lián)問(wèn)題解決了情感色彩的不同影響，但是側(cè)重于領(lǐng)域采集研究而非傾向結(jié)果判斷。由此可知，跨領(lǐng)域研究既要解決不同人群傾向差異，又要提高總體分析的準(zhǔn)確度，利用機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘［1215］的方法不僅步驟繁瑣，而且對(duì)整體分析結(jié)果的準(zhǔn)確性影響很大。

　　本文提出一種優(yōu)化Hownet算法，該方法通過(guò)計(jì)算不同的評(píng)論文本的正傾向和負(fù)傾向的加權(quán)平均值，并利用二次分類(lèi)方法確定正負(fù)傾向的單一閾值，二次分類(lèi)結(jié)合單邊帶［5］和向量機(jī)分類(lèi)［16］的優(yōu)點(diǎn)，對(duì)主題和情感進(jìn)行再分類(lèi)［18］，達(dá)到減少主觀情感影響的目的。并采用義源衍生義項(xiàng)方法［2，5，1618］對(duì)Hownet詞典庫(kù)進(jìn)行實(shí)時(shí)更新，達(dá)到區(qū)分人群的目的，最后利用Hownet算法與優(yōu)化后的閾值進(jìn)行對(duì)比運(yùn)算。本文將針對(duì)詞句分析的Hownet算法應(yīng)用到分析人群主觀色彩偏差上，通過(guò)對(duì)閾值的優(yōu)化達(dá)到減少人群情感偏差影響的目的，大幅減小各類(lèi)不同情感色彩帶來(lái)的影響，也能有效解決跨領(lǐng)域、跨人群的主觀表達(dá)問(wèn)題。該優(yōu)化方法也可直接針對(duì)某一話題或事件得出傾向性分析結(jié)果并提高了判斷的準(zhǔn)確性。

1相關(guān)算法描述

　　1.1存在的問(wèn)題和解決目標(biāo)

　　人群傾向偏差不是片面的一詞多義，也不局限于簡(jiǎn)單的褒貶相反，而是個(gè)人主觀色彩的不同。所以要從根源上對(duì)主觀色彩進(jìn)行區(qū)分，就要對(duì)人群進(jìn)行區(qū)分，建立區(qū)分的方法。

　　1.2Hownet算法優(yōu)勢(shì)

　?。?） Hownet是自然語(yǔ)言處理系統(tǒng),解釋概念間的關(guān)系與屬性，有強(qiáng)大的動(dòng)態(tài)詞典數(shù)據(jù)庫(kù)；

　?。?）以網(wǎng)狀結(jié)構(gòu)反映整體與部分的關(guān)系；

　?。?）經(jīng)典Hownet算法如下；

　　Orient=∑pwsim(pword,word)－∑nwsim(nword,word)(1)

　　其中,Orient為最終閾值，pword與nword分別為褒義詞結(jié)果集和貶義詞結(jié)果集。該方法方便理解，易于操作，詞典庫(kù)可動(dòng)態(tài)更新。

2動(dòng)態(tài)更新詞典庫(kù)

　　2.1主題提取

　　詞匯信息量基本公式：

　　 LX$95G]Y_@88(IR]TGDKU3F.png

　　其中p代表義原詞匯，C(p)代表詞匯p的信息量,H(p)表示詞匯p出現(xiàn)的數(shù)量，max 表示在語(yǔ)義詞庫(kù)中的總數(shù)。

　　2.2主題分類(lèi)

　　單邊帶分類(lèi)是對(duì)于不同義原詞匯進(jìn)行分類(lèi)，其基本公式為：

　　 H@@I[9U]]C81W7M[D~[}5)D.png

　　其中n代表某個(gè)義項(xiàng)，即某種衍生意。假設(shè)p1有n1個(gè)義原，p2有n2個(gè)義原。c1與c2是記錄下的n1與n2的數(shù)目，再計(jì)算相似度。

　　2.3人群分類(lèi)

　　利用前兩部分實(shí)現(xiàn)人群細(xì)分，即不用主動(dòng)去分類(lèi)人群，而是對(duì)不同義項(xiàng)進(jìn)行分類(lèi)：

　　假設(shè)某語(yǔ)句w1有s1個(gè)義項(xiàng)，w2有s2個(gè)義項(xiàng)，則w1與w2的相似度為：

　　 ~7C2NQ%WA$TN$1K%8767@UK.png

　　2.4加權(quán)平均

　　最終進(jìn)行正負(fù)閾值的加權(quán)平均，得到在不同人群基礎(chǔ)上的結(jié)果：

　　pword：積極詞集合，nwords消極詞集合

　　Orient(word) >&（閾值）輿論積極

　　Orient(word) <& (閾值）輿論消極

3Hownet閾值優(yōu)化模型

　　3.1優(yōu)化步驟

　　(1)根據(jù)TF/IDF權(quán)值法計(jì)算提煉主題，而不直接歸類(lèi)其情感傾向,且同步利用式(1)對(duì)此情感庫(kù)進(jìn)行更新，避免了中文表達(dá)復(fù)雜帶來(lái)的情感傾向誤判：

　　 )H(JD950KIUXJ[9(]_8FHB4.png

　　其中，N表示文本集中的文本數(shù)量，n表示文本集中包含目標(biāo)項(xiàng)的文本數(shù)量，f表示目標(biāo)項(xiàng)出現(xiàn)的頻數(shù)。

　　可以看出，如果某個(gè)詞在某篇文檔出現(xiàn)的頻率高，而在其他文檔中出現(xiàn)的頻率低，說(shuō)明該詞對(duì)該文檔而言，具有更高的代表性，同時(shí)也應(yīng)有更高的權(quán)重值。

　?。?）先以向量空間模型歸類(lèi)主題的相似性,再以singlepass算法判斷主題情感相似性,避免了因不同篇章的情感色彩強(qiáng)烈而帶來(lái)的誤判，向量空間模型算法基本公式為：

　　 F]3T}4E@N5G~E(Y)1`Q_WR4.png

　　其中di、dj代表兩個(gè)文本的sim相似度，wk代表目標(biāo)項(xiàng)的權(quán)重值。此步驟與式(3)、(4)算法同時(shí)進(jìn)行，目的在于對(duì)詞庫(kù)進(jìn)行義項(xiàng)衍生分類(lèi)，在分類(lèi)基礎(chǔ)上進(jìn)行第二步歸類(lèi)。

　?。?）以singlepass算法判斷主題情感相似性，如果該新聞報(bào)道S是輸入的第一篇報(bào)道，則將該報(bào)道當(dāng)做第一個(gè)話題。后續(xù)輸入的新聞報(bào)道內(nèi)容向量與己有的話題內(nèi)容向量進(jìn)行比較用兩個(gè)向量之間的余弦?jiàn)A角sim(di,dj)作為衡量相似度的標(biāo)準(zhǔn)，如果其值小于設(shè)定的閾值，則認(rèn)為新輸入的新聞報(bào)道屬于該話題，否則將該新聞報(bào)道作為一個(gè)新的話題。

　　3.2原理總結(jié)

　　由上面步驟可知：因中文表達(dá)中，不同句式（反問(wèn)句、否定句）褒貶相反，所以采用二次分類(lèi)法，對(duì)單一的向量分類(lèi)或算法分類(lèi)組合使用，取各自?xún)?yōu)點(diǎn)。向量空間模型通過(guò)權(quán)值歸類(lèi)主題，與TF一樣避開(kāi)了情感部分，主題相似的wkj與wki的取值需通過(guò)單邊的情感分類(lèi)，旨在確定是褒義值@+與貶義值@-，再界定中性范圍，計(jì)算加權(quán)平均值@：

　　 $([$M{$JK1V(RJF2]V_Y%~X9.png$

4試驗(yàn)結(jié)果與分析

　　實(shí)驗(yàn)?zāi)康脑谟隍?yàn)證優(yōu)化的Hownet方法傾向性分析模塊是否實(shí)現(xiàn)了互聯(lián)網(wǎng)信傾向性分析功能，且與傳統(tǒng)方式進(jìn)行比較，驗(yàn)證其優(yōu)點(diǎn)。

　　4.1輿情走勢(shì)分析情感統(tǒng)計(jì)

　　本文以2016年7月17日~7月19日連續(xù)兩天的輿情走勢(shì)為樣本，以某個(gè)搜索引擎、新聞網(wǎng)站、論壇、微博、微信等平臺(tái)為目標(biāo)，得出正面、負(fù)面和中性的文本數(shù)量。

　　4.2傾向性結(jié)果展示

　　隨著詞典庫(kù)的不斷更新，該話題輿情呈現(xiàn)出細(xì)分的趨勢(shì)，結(jié)果顯示出更新詞典庫(kù)的突出效果，通過(guò)對(duì)正負(fù)面程度的統(tǒng)計(jì)可以判斷輿情的正確走勢(shì)，如圖1所示。

　　圖1為輿情分析走勢(shì)圖，圖中可看出中性情感最為突出且走勢(shì)明顯，可判斷輿情發(fā)展主要由中性情感決定并且呈現(xiàn)出下降趨勢(shì)。

　　4.3結(jié)果分析

　　4.3.1評(píng)價(jià)指標(biāo)

　　本文分類(lèi)評(píng)價(jià)指標(biāo)包括查準(zhǔn)率、查全率和F1值。

　　4.3.2算法參數(shù)選取

　?。?)優(yōu)化步驟首先利用式(2)對(duì)詞典進(jìn)行初步主題統(tǒng)計(jì)，在此基礎(chǔ)上利用式(5)進(jìn)行文本分類(lèi)，初始值f的頻率可選，先用擬固定值f=0.5。

　?。?）c1與c2是記錄下的n1與n2的數(shù)目，式(3)在c1與c2選取上初始值規(guī)定為c1=20和c2=30，此數(shù)據(jù)會(huì)根據(jù)后面步驟實(shí)時(shí)更新增長(zhǎng)。

　　(3）利用向量機(jī)和單邊帶算法統(tǒng)計(jì)情感分類(lèi)，式(6)是建立在式(3)、(4)基礎(chǔ)上的，對(duì)單邊情感分類(lèi)，隨機(jī)地抽取出正負(fù)面的感情色彩文本各 500 篇，其中正面被正確識(shí)別出來(lái)的數(shù)量為 400 篇，負(fù)面被識(shí)別出來(lái)的數(shù)量為 435篇。

　?。?）為了使更新詞典庫(kù)的義項(xiàng)分類(lèi)與前三步模式更加緊密結(jié)合，對(duì)閾值的確定就尤為重要，初始@=1.87，第一次取400個(gè)正面的@+=0.81，435個(gè)負(fù)面@-=0.78。利用式(7)可以計(jì)算出@的加權(quán)平均值為1.122，該值小于初值，可判斷走勢(shì)下降。

　　4.3.3對(duì)比試驗(yàn)

　　本文利用4個(gè)評(píng)價(jià)指標(biāo)對(duì)閾值進(jìn)行設(shè)定，確定初始閾值@+與@-，再利用式(7)確定最終閾值，分別對(duì)傳統(tǒng)方法與優(yōu)化方法的閾值進(jìn)行計(jì)算，得出正負(fù)面文本的查準(zhǔn)率、查全率和F1值。

　　從表2可以看出，優(yōu)化后的P值、R值、F值都明顯高于傳統(tǒng)方法。

　　圖2為優(yōu)化方式與傳統(tǒng)方式對(duì)比圖，可更清晰地說(shuō)明問(wèn)題：實(shí)線、點(diǎn)線和虛線分別代表正面、負(fù)面及平均值。由圖2可以看出,優(yōu)化模式（左半部）線條值都普遍高于傳統(tǒng)模式（右半部）線條值，其原因在于對(duì)文本分類(lèi)的文章，在Hownet判別時(shí)已經(jīng)用衍生義項(xiàng)原理實(shí)現(xiàn)了潛在的人群分類(lèi)，所以基于最終的優(yōu)化閾值進(jìn)行判別時(shí)，很大程度上降低了人群情感色彩偏差帶來(lái)的影響。

5結(jié)束語(yǔ)

　　本文采取優(yōu)化Hownet分析方法，對(duì)某一話題在不同領(lǐng)域或不同平臺(tái)進(jìn)行傾向性分析，通過(guò)對(duì)閾值的優(yōu)化界定并與傳統(tǒng)模式相對(duì)比，驗(yàn)證其優(yōu)化效果。優(yōu)化模式合理地結(jié)合了權(quán)值提煉與機(jī)器學(xué)習(xí)分類(lèi)方法，通過(guò)采用義源衍生義項(xiàng)的分類(lèi)方法實(shí)現(xiàn)人群分類(lèi)的目的，在此基礎(chǔ)上優(yōu)化的閾值不僅大幅削弱了不同人群層次的情感偏差影響，而且使得分析結(jié)果更加可靠，具有更高的參考價(jià)值，且對(duì)輿情總體趨勢(shì)的情感傾向分析更加有利。

參考文獻(xiàn)

　?。?］ YZERBYT V, DUMONT M, WIGBOLDUS D.The impact british of categorization emotions and action tendencies［J］.Journal of Social onWiley Online Library,2013,23(8):62-66.

　　［2］劉龍飛，楊亮，張紹武，等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析［J］. 中文信息學(xué)報(bào)，2015,29(6):159-165.

　　［3］黃高峰，周學(xué)廣.一種語(yǔ)句級(jí)細(xì)粒度情感傾向性分析算法研究［J］. 計(jì)算機(jī)應(yīng)用與軟件， 2015,32(4):239-242.

　?。?］ YARDI S, BOYD D.Dynamic debates: an analysis of group polarization over time on twitter［J］. Bulletin of Science, Technology & Society, 2010,69(6): 066133.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容