《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 業(yè)界動(dòng)態(tài) > 新聞情感傾向性識(shí)別算法的研究與應(yīng)用

新聞情感傾向性識(shí)別算法的研究與應(yīng)用

2016-02-04
作者:周邦定,曹海鵬,張 彥
來(lái)源:2015年微型機(jī)與應(yīng)用第14期

  摘  要: 針對(duì)新聞情感傾向性識(shí)別問(wèn)題,提出給單個(gè)傾向詞分配傾向性、強(qiáng)度、極性和標(biāo)志4個(gè)屬性,通過(guò)依存句法找出傾向詞之間的依存關(guān)系,再通過(guò)所提出的情感識(shí)別算法結(jié)合傾向詞詞典得出整個(gè)句子的情感值,最后將整篇新聞中關(guān)鍵句的情感值疊加,得到整篇新聞的情感值。實(shí)驗(yàn)結(jié)果表明,該方法具有很好的準(zhǔn)確率和召回率。

  關(guān)鍵詞依存語(yǔ)法;情感傾向性;淺層語(yǔ)義分析;傾向詞搭配

0 引言

  網(wǎng)絡(luò)上的負(fù)面新聞?dòng)泻芨叩睦脙r(jià)值,銀行、保險(xiǎn)和風(fēng)險(xiǎn)投資機(jī)構(gòu)通過(guò)分析這些負(fù)面新聞來(lái)決定是否與該客戶或者企業(yè)開(kāi)展合作。

  目前主要有兩種情感傾向性識(shí)別方法:基于統(tǒng)計(jì)的方法[1-3]和基于規(guī)則的方法[4-6]。林政等人[1]在設(shè)計(jì)關(guān)鍵句抽取算法時(shí)考慮了3個(gè)特征,分別是情感特征、位置特征和關(guān)鍵詞特征。這種方法處理結(jié)構(gòu)復(fù)雜的句子時(shí)容易產(chǎn)生丟失句子信息的情況,比如丟失否定前綴或者丟失程度前綴。劉永丹等人[4]提出一種基于語(yǔ)義分析的方法,從待分析的句子中提取出相應(yīng)的格,然后通過(guò)事先設(shè)定好的規(guī)則和詞表來(lái)判定分析單元的傾向性。但是這種方法提取出的格的準(zhǔn)確率非常低,而且判斷規(guī)則的設(shè)計(jì)也很困難。

  本文提出給單個(gè)傾向詞分配傾向性、強(qiáng)度、極性和標(biāo)志4個(gè)屬性,通過(guò)人工確定情感詞相應(yīng)屬性的值,將一系列情感詞制成特定的情感詞典。然后,通過(guò)依存句法找出情感詞之間的依存關(guān)系,通過(guò)本文提出的情感判定算法得出整個(gè)句子的情感值,最后將整篇新聞中關(guān)鍵句的情感值疊加,得到整篇新聞的情感值。

1 傾向詞語(yǔ)料庫(kù)

  1.1傾向詞

  對(duì)人或事表達(dá)態(tài)度或者情感傾向的語(yǔ)句叫作情感語(yǔ)句。情感語(yǔ)句中體現(xiàn)態(tài)度或者情感傾向的詞叫作情感詞。情感詞、否定詞和強(qiáng)度詞這三類詞統(tǒng)稱為傾向詞。

  對(duì)真實(shí)的負(fù)面新聞?wù)Z料進(jìn)行分析發(fā)現(xiàn),有些傾向詞可以直接判斷出情感傾向性,如“倒閉”、“破產(chǎn)”、“違法”等,這些傾向詞稱為獨(dú)立傾向詞;有些傾向詞單獨(dú)分析時(shí)得不出情感傾向性,只有與搭配詞搭配起來(lái),才能表達(dá)一定的情感傾向性,如單獨(dú)分析“凈利潤(rùn)”情感傾向性時(shí),它的情感傾向性為中立的,但是當(dāng)“凈利潤(rùn)”與搭配詞“下降”搭配時(shí),其表達(dá)的情感傾向性即為負(fù)面的,這類傾向詞稱為搭配傾向詞。

  1.2 傾向詞的數(shù)據(jù)結(jié)構(gòu)

  本文給傾向詞設(shè)定4個(gè)屬性:傾向性、強(qiáng)度、極性和標(biāo)志。

 ?。?)傾向性(orientation):指出傾向詞是正面的、負(fù)面的還是中立的。正面取1,負(fù)面取-1,中立取0。

  (2)強(qiáng)度(intensity):指該傾向詞對(duì)情感句子的情感傾向性有增強(qiáng)或者減弱的作用。增強(qiáng)取2,減弱取0.5,既不增強(qiáng)也不減弱取1。

 ?。?)極性(polarity):指該傾向詞是否逆轉(zhuǎn)了句子的情感傾向性。一般否定詞會(huì)逆轉(zhuǎn)句子的情感傾向性。

  (4)標(biāo)志(flag):指出該傾向詞是獨(dú)立傾向詞還是搭配傾向詞。flag取0代表該傾向詞是獨(dú)立傾向詞;flag取正整數(shù)i,代表該傾向詞是搭配傾向詞,該正整數(shù)i指出該搭配傾向詞的搭配詞只能取自搭配詞詞表的第i類記錄中的值。

2 淺層語(yǔ)義分析

  2.1 依存句法簡(jiǎn)介

  依存句法由法國(guó)語(yǔ)言學(xué)家TESNIERE L最先提出。它將句子分析成一棵依存句法樹,描述句子內(nèi)部各個(gè)詞之間的依存關(guān)系[7]。

  為了便于本文后續(xù)的描述,在此給出3個(gè)定義:

  定義1節(jié)點(diǎn)詞:可作為句子某種確定成分(主/謂/賓/定/狀/補(bǔ))的簡(jiǎn)單詞語(yǔ)或詞組。

  定義2依存邊:如果句子中兩節(jié)點(diǎn)詞g與d之間存在依存關(guān)系,其中g(shù)是支配詞,d是從屬詞,則g與d間構(gòu)成一個(gè)依存對(duì),用一條由從g指向d的有向邊l來(lái)表示,記為`89HJ(CSC{G5OYVZ7(`9]QD.png

  定義3后繼節(jié)點(diǎn):考察節(jié)點(diǎn)詞g,若存在依存邊`89HJ(CSC{G5OYVZ7(`9]QD.png,那么節(jié)點(diǎn)詞d就稱為節(jié)點(diǎn)詞g的后繼節(jié)點(diǎn)。

  圖1給出一個(gè)包含節(jié)點(diǎn)詞、依存邊的簡(jiǎn)單的依存語(yǔ)法樹示例。由圖可知,節(jié)點(diǎn)詞“凈利潤(rùn)”的第一個(gè)后繼節(jié)點(diǎn)是節(jié)點(diǎn)詞“下降”;節(jié)點(diǎn)詞“公司”的第二個(gè)后繼節(jié)點(diǎn)是節(jié)點(diǎn)詞“凈利潤(rùn)”,第三后繼節(jié)點(diǎn)是節(jié)點(diǎn)詞“下降”。

001.jpg

  2.2 依存句法分析器

  本文利用復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室開(kāi)發(fā)的FNLP對(duì)句子進(jìn)行依存句法分析[8]。使用FNLP對(duì)句子進(jìn)行依存句法分析時(shí),用4個(gè)數(shù)組表示分析結(jié)果:數(shù)組words表示句子分詞結(jié)果,數(shù)組pos表示詞語(yǔ)對(duì)應(yīng)的詞性,數(shù)組relations表示詞與詞之間的依存關(guān)系,數(shù)組heads表示詞語(yǔ)的第一后繼節(jié)點(diǎn)詞的下標(biāo)。對(duì)句子“今年公司的凈利潤(rùn)大幅下降?!边M(jìn)行依存句法分析,得到的結(jié)果如表1所示。

003.jpg

3 情感識(shí)別算法

  設(shè)S={x1,…,xn}為句子,xi(1≤i≤n)是句子中第i個(gè)字;K={y1,…,ym}為關(guān)鍵詞,yj (1≤j≤m)為關(guān)鍵詞的第j個(gè)字,文本中句子與關(guān)鍵詞集相似度計(jì)算公式如式(1)所示。

  1.jpg

  當(dāng)計(jì)算出的相似度大于或等于閾值時(shí),該句子就是關(guān)鍵句。新聞文本中所有的關(guān)鍵句構(gòu)成了關(guān)鍵句群。

  設(shè)關(guān)鍵句S中的第i個(gè)詞為wi,S的情感值為score,句子對(duì)應(yīng)的傾向性值為ORIENTATION,句子對(duì)應(yīng)的強(qiáng)度值為INTENSITY,句子對(duì)應(yīng)的極性值為POLARITY。如果wi是獨(dú)立傾向詞,則計(jì)算式(2)、(3)、(4):

  ORIENTATION+=wi.orientation    (2)

  INTENSITY×=wi.intensity      (3)

  POLARITY×=wi.polarity      (4)

  如果wi是搭配傾向詞,則通過(guò)句子的依存關(guān)系尋找詞wi的后繼節(jié)點(diǎn)詞wj,計(jì)算式(2)、(3)、(5):

  POLARITY×=(wi.polarity×wj.polarity)(5)

  整個(gè)句子所有的情感傾向詞掃描完之后,計(jì)算式(6):

  score=ORIENTATION×INTENSITY×POLARITY(6)

  score的值即為句子的情感值。

  設(shè)整篇文章的關(guān)鍵群中的句子數(shù)為n,整篇文章的情感值為SCORE,則:

  7.png

  score(i)為第i個(gè)情感句子的情感值。

  具體的算法偽代碼如下:

  算法1 情感傾向性識(shí)別主算法

  Input:目標(biāo)新聞文本T

  Output:新聞情感值

  function IDENTIFY_NewsSentiment(T)

  begin

  從目標(biāo)新聞T提取關(guān)鍵句群S;

  for each sentence s∈S do

  //調(diào)用FNLP依存關(guān)系分析接口

  [words,pos,relations,heads]=dependency(s);

  for each word do

  //判斷wi詞性是否是名詞、動(dòng)詞、形容詞、副詞

  if(Match_WordClass(pos[i]))then

  //判斷wj是否是獨(dú)立傾向詞

  if(wi在傾向詞表里&&wi·flag==0)then

  ORIENTATION+=wi.orientation

  INTENSITY×=wi.intensity

  POLARITY×=wi.polarity

  //判斷wi是否是搭配傾向詞

  elseif(wi在傾向詞表里&&!wi·flag=0)then

  //調(diào)用搭配詞查找算法找搭配詞

  wj=

  FIND_MATCHER(i,j,words,heads,pos);

  if (wj!=null) then

  ORIENTATION+=wi.orientation;

  INTENSITY*=wi.intensity;

  POLARITY*=

  (wi.polarity*wj.polarity) ;

  end if;

  end if;

  end if;

  end for;

  sore=ORIENTATION*INTENSITY*POLARITY;

  SCOER+=score;

  end for;

  return SCORE;

  end begin;

  算法2 搭配詞查找算法

  Input:搭配傾向詞下標(biāo)i、j,words,heads,pos

  Output:搭配詞

  function FIND_Matcher(i、j,words,heads,pos)

  begin

  從搭配詞表中提取標(biāo)志位flag為j的所有記錄R;

  if(heads[i]!=-1)then//當(dāng)前詞的后繼詞不為空

  wm=words[heads[i]];//尋找第一后繼節(jié)點(diǎn)詞

  if(Match_WordClass(pos[m])&&wm∈R)then

  return wm;

  elseif(heads[m]!=-1)then

  wn=words[heads[m]];//尋找第二后繼節(jié)點(diǎn)詞

  if(Match_WordClass(pos[n])&&wn∈R))then

  return wn;

  elseif(heads[n]!=-1)then

  wo=words[heads[n]];//尋找第三后繼節(jié)點(diǎn)詞

  if(Match_WordClass(pos[t])&&wo∈R))

  then

  return wo;

  end if;

  end if;

  end if;

  end if;

  return null;

  end begin;

4 試驗(yàn)及結(jié)果

  本文實(shí)驗(yàn)數(shù)據(jù)取自某銀行2012年度人工收集的  2 362條情感傾向性新聞。人工選取了比較有代表性的936條新聞作為訓(xùn)練語(yǔ)料,從這些語(yǔ)料中人工抽取傾向詞和搭配詞,制成傾向詞詞典和搭配詞詞典。另外取  1 426條新聞作為測(cè)試語(yǔ)料。

  使用準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-measure)作為實(shí)驗(yàn)結(jié)果的評(píng)估指標(biāo):

  810.jpg

  圖2給出了算法實(shí)驗(yàn)結(jié)果的圖形展示。

002.jpg

5 結(jié)論

  本文以企業(yè)新聞的情感傾向性分析為應(yīng)用背景,利用依存語(yǔ)法分析和通過(guò)給傾向詞分配屬性值為基礎(chǔ),提出了一個(gè)識(shí)別新聞情感傾向性的算法。實(shí)驗(yàn)表明,該方法具有很好的準(zhǔn)確率和召回率。但是,該算法的性能與傾向詞語(yǔ)料庫(kù)密切相關(guān),語(yǔ)料庫(kù)中的語(yǔ)料的存儲(chǔ)格式和語(yǔ)料庫(kù)中語(yǔ)料的豐富程度,都對(duì)準(zhǔn)確率和召回率有很大的影響。因此,如何構(gòu)建高性能、完備的語(yǔ)料庫(kù)值得深入研究。

  參考文獻(xiàn)

  [1] 林政,譚松波,程學(xué)旗.基于情感關(guān)鍵句抽取的情感分類研究[J].計(jì)算機(jī)研究與發(fā)展,2012,49(11):2376-2381.

  [2] Fan Xinghua, Wang Peng, Zhou Peng. Two step text orientation identification based on feature extension[J]. Computer Engineering and Applications, 2012,48(1):162-165.

  [3] SAJIB D, VINCENT N. Mine the easy, classify the hard: a semi-supervised approach to automatic sentiment classification[C]. Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, Singapore, 2009: 701-709.

  [4] 劉永丹,曾海泉,李榮陸,等.基于語(yǔ)義分析的傾向性文本過(guò)濾[J].通信學(xué)報(bào),2004,25(7):78-85.

  [5] Ye Qiang, Shi Wen, Li Yijun. Sentiment classification for movie reviews in Chinese by improved semantic oriented approach[C]. Proceedings of the 39th Hawaii International Conference on System Sciences, 2006,3:1-5.

  [6] 曹歡歡.負(fù)面新聞判斷算法的研究與應(yīng)用[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2014.

  [7] 鄧欣.面向依存文法的漢語(yǔ)語(yǔ)法分析[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2000.

  [8] Qiu Xipeng, Zhang Qi, Huang Xuanjing. FudanNLP: a toolkit for Chinese natural language processing[C]. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL), Sofia, 2013:49-54.


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。