《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于深度學(xué)習(xí)的美國媒體“一帶一路”輿情的情感分析
基于深度學(xué)習(xí)的美國媒體“一帶一路”輿情的情感分析
2018年電子技術(shù)應(yīng)用第11期
王 潔1,2,喬藝璇1,彭 巖1,許嫻曉1
1.首都師范大學(xué) 管理學(xué)院,北京100089;2.中山大學(xué) 機(jī)器智能與先進(jìn)計算教育部重點實驗室,廣東 廣州510006
摘要: 分析美國主流新聞媒體針對“一帶一路”倡議的關(guān)注熱點,研究相關(guān)輿情的情感傾向。用網(wǎng)絡(luò)爬蟲自動采集相關(guān)新聞,篩選高頻詞獲得媒體關(guān)注熱點。提出一種自動摘要-卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的集成式模型進(jìn)行文檔級情感分析。該模型首先提取摘要去除原始文檔中非重要數(shù)據(jù)的干擾,再利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行句子級情感分析,通過基于語義指向的方法獲得文檔級的情感分?jǐn)?shù),并對情感波動異常文章二次分析。在真實數(shù)據(jù)上的對比實驗表明,自動摘要-CNN的集成式文檔級情感分析模型在情感分析方面優(yōu)于單一CNN的方法。
中圖分類號: TP391
文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.182177
中文引用格式: 王潔,喬藝璇,彭巖,等. 基于深度學(xué)習(xí)的美國媒體“一帶一路”輿情的情感分析[J].電子技術(shù)應(yīng)用,2018,44(11):102-106,110.
英文引用格式: Wang Jie,Qiao Yixuan,Peng Yan,et al. Sentiment analysis about “One Belt, One Road” public opinion of American media based on deep learning[J]. Application of Electronic Technique,2018,44(11):102-106,110.
Sentiment analysis about “One Belt, One Road” public opinion of American media based on deep learning
Wang Jie1,2,Qiao Yixuan1,Peng Yan1,Xu Xianxiao1
1.School of Management,Capital Normal University,Beijing 100089,China; 2.Key Laboratory of Machine Intelligence and Advanced Computing,Sun Yat-sen University,Guangzhou 510006,China
Abstract: This paper analyses the hot point about the “Belt and Road” initiative of American mainstream news media and studies the sentiment of related public opinion. Web crawler is used to automatically collect relevant news and filter high-frequency words to get media attention hotspots. An integrated model of automatic summary-convolutional neural network(CNN) is proposed for document-level sentiment analysis. The model firstly extracts the abstraction to remove the interference of non-important data in the original document, then the convolutional neural network is used to analyze the sentence-level sentiment, obtain the document-level emotional score based on the semantic pointing method, and the emotional fluctuation abnormal articles are analyzed twice. Contrastive experiments on real data shows that the automatic summary-CNN integrated document-level sentiment analysis model is superior to the single CNN method in sentiment analysis.
Key words : the “Belt and Road”initiative;sentiment analysis;deep learning;convolutional neural network;automatic summary

0 引言

    “一帶一路”倡議自2013年提出以來,受到國內(nèi)外媒體的廣泛關(guān)注。隨著相關(guān)建設(shè)的逐步推進(jìn),世界各國媒體對“一帶一路”的相關(guān)報道呈快速增長趨勢,新聞報道中蘊含該國對“一帶一路”倡議的關(guān)注熱點與情感傾向,是衡量該國對中國快速發(fā)展所持態(tài)度的重要素材?,F(xiàn)有“一帶一路”國際輿情相關(guān)研究中普遍存在使用的樣本量偏少、分析方法較單一等問題。利用網(wǎng)絡(luò)大數(shù)據(jù),結(jié)合文獻(xiàn)計量方法和深度學(xué)習(xí)技術(shù),從客觀角度分析海外輿情情感是本文的研究重點。

    傳統(tǒng)的基于詞典和機(jī)器學(xué)習(xí)的情感分析存在分類時靈活度不高和需要大量標(biāo)注的訓(xùn)練數(shù)據(jù)等問題,本文基于深度學(xué)習(xí)技術(shù),構(gòu)建了基于自動摘要-CNN的集成式文檔級情感分析模型。具體方法為:首先提取新聞?wù)?,去除原始文檔中非重要數(shù)據(jù)的干擾;再利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行句子級情感分析,通過基于語義指向的方法獲得文檔級的情感分?jǐn)?shù),利用Gensim等工具庫計算媒體關(guān)注重點,并對情感波動異常文章給予二次研究。本文提出的基于自動摘要-CNN與未摘要新聞的單一CNN進(jìn)行了對比實驗,實驗結(jié)果驗證了集成模型的有效性。本文的研究有助于了解美國新聞媒體關(guān)于“一帶一路”倡議的輿情熱點和情感態(tài)度,分析和總結(jié)我國在“一帶一路”傳播過程中的經(jīng)驗及問題,增強(qiáng)未來我國“一帶一路”對外傳播的針對性、有效性和感召力。

1 相關(guān)工作

1.1 “一帶一路”國際輿情研究現(xiàn)狀

    “一帶一路”倡議是我國加強(qiáng)與亞歐非及世界各國互聯(lián)互通,推動沿線各國貿(mào)易往來的重大舉措,隨著相關(guān)項目的簽約與實施,國內(nèi)外新聞媒體的報道量快速上升。根據(jù)《“一帶一路”大數(shù)據(jù)報告(2017)》[1]分析結(jié)果,美國對“一帶一路”倡議的關(guān)注度超過亞洲各國。本文選取的美國主流新聞媒體網(wǎng)站在報道的寬度、深度、時效性等方面發(fā)展迅速,報道內(nèi)容覆蓋政界、學(xué)界、商界及普通民眾的觀點與深層分析的結(jié)論。

    近年國內(nèi)外學(xué)者、智庫、研究機(jī)構(gòu)等從不同角度對“一帶一路”倡議的國際輿情展開了大量研究。張巖[2]基于支持與肯定、理性評價與分析、觀望與保留態(tài)度、質(zhì)疑與否定4個視角,對比分析3家主流阿拉伯網(wǎng)站的情感傾向與報道主題。趙雅瑩[3]定量分析英國3家主流媒體關(guān)于“一帶一路”的報道中所使用的情感、判定和鑒別三類態(tài)度詞。清華大學(xué)愛潑斯坦對外傳播研究中心[4]通過對報紙、電視新聞網(wǎng)、雜志等國外部分主流媒體涉及“一帶一路”倡議的報道進(jìn)行分析,研究國際新聞媒體報道的輿情演變。米拉[5]分析中印尼“一帶一路”合作的機(jī)遇與挑戰(zhàn)。薛慶國[6]研究 “一帶一路”倡議在阿拉伯世界的傳播。ERGENC C[7]提出“一帶一路”倡議標(biāo)志著中國對中亞和西亞地區(qū)政策的積極轉(zhuǎn)變。

1.2 情感分析研究現(xiàn)狀

    目前,情感分析主要利用兩種方法:基于詞典的情感分析與基于機(jī)器學(xué)習(xí)的情感分析。根據(jù)文本粒度可以分為:短語級、句子級與文檔級[8]?;谠~典的方法依賴于詞典與規(guī)則的構(gòu)建,由于詞典的容量和詞典適用程度的問題,以及規(guī)則構(gòu)建需要大量人力勞動,基于詞典的方法逐漸機(jī)器學(xué)習(xí)所取代[9]。

    2002年P(guān)ANG B等人首次利用機(jī)器學(xué)習(xí)解決二元情感分類問題[10]。從此相關(guān)研究工作分為兩個主要方向,即設(shè)計更多有效的分類特征和采用更多高效的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。KIM Y[11]針對句子級別的分類任務(wù),利用卷積神經(jīng)網(wǎng)絡(luò)做了一系列的實驗,闡述了不同的架構(gòu)的神經(jīng)網(wǎng)絡(luò)對實驗結(jié)果的影響,展示了卷積神經(jīng)網(wǎng)絡(luò)在情感分析領(lǐng)域的重要作用。JOHNSON R等[12]通過分析卷積神經(jīng)網(wǎng)絡(luò)在圖像處理上的處理方式,將句子、單詞與圖像、像素對應(yīng),使得卷積神經(jīng)網(wǎng)絡(luò)在情感分類問題上展現(xiàn)出較好的效果。近幾年,國內(nèi)關(guān)于卷積情感分析的研究多基于微博、評論等短文本[13-14]

2 情感分析

    本文研究主要分為4個步驟:(1)網(wǎng)絡(luò)爬蟲抓取新聞;(2)利用基于自動摘要-CNN的集成式文檔級情感分析模型進(jìn)行情感分析,并對比單一CNN模型分析結(jié)果;(3)利用Gensim等工具庫統(tǒng)計新聞高頻詞,了解媒體關(guān)注熱點;(4)對情感波動異常文章給予二次研究。整體技術(shù)思路如圖1所示。

jsj2-t1.gif

2.1 提取新聞?wù)?/strong>

    由于研究對象為多源的美國主流新聞媒體,且不同媒體數(shù)據(jù)的長度與格式均不相同。因此本文在進(jìn)行信息抽取時,采用自動化文本摘要的方法以保留新聞關(guān)鍵內(nèi)容及總體含義。

    以摘要的準(zhǔn)確性和可讀性為標(biāo)準(zhǔn),選擇基于Gensim主題建模程序的方法。利用構(gòu)建無向加權(quán)圖的方法,以文章中的語句為節(jié)點,規(guī)格化后的句子相似度為節(jié)點的鏈接,避免句子長度對摘要結(jié)果的影響。摘要過程中,關(guān)鍵詞不局限于單個詞,達(dá)到提升摘要可讀性的目的。

2.2 句子級情感分析

    卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層、全連接層、輸出層組成。如圖2所示,模型為采用一種卷積窗口,一種池化窗口,且輸入僅為一個特征面的卷積神經(jīng)網(wǎng)絡(luò)。其特殊的網(wǎng)絡(luò)結(jié)構(gòu),使其可以捕捉細(xì)小的特征信息,最初在圖像識別領(lǐng)域應(yīng)用廣泛。近幾年隨著機(jī)器學(xué)習(xí)領(lǐng)域的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)逐漸被應(yīng)用到語音識別、文本分類、語義分析等方面。

jsj2-t2.gif

    本文參照KIM Y[11]的建議設(shè)置模型參數(shù),對圖2的模型改進(jìn),進(jìn)行句子級的情感分析,具體實現(xiàn)方法如下。

    輸入層(embedding):embedding層將文本轉(zhuǎn)換為向量并擴(kuò)充維度,以滿足卷積神經(jīng)網(wǎng)絡(luò)對參數(shù)的要求。

    卷積層與池化層(conv-maxpool):用于獲取局部特征與得到最重要特征。卷積層通過局部連接的方式與上層特征面相連,利用權(quán)值共享的特性,減小模型的復(fù)雜度。訓(xùn)練過程中采用3種大小的窗口篩選不同的特征,完善對詞向量的特征提取。池化層采用最大池化的方式提取最重要的特征。訓(xùn)練過程中,使用修正線性單元(Rectified Liner Unit,ReLU)作為激活函數(shù),使線性的神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)變?yōu)榉蔷€性的神經(jīng)網(wǎng)絡(luò),即使輸出結(jié)果由式(1)中的f(x)轉(zhuǎn)變?yōu)槭剑?)中的gj(x),同時加快收斂速度。

jsj2-gs1-3.gif

其中,Isize表示每一個輸入特征面的大??;K′∈[3,4,5] 為卷積核即窗口的大?。籹tep表示卷積核在其上一層的滑動步長,Wsize為池化窗口的大小。模型通過調(diào)整卷積層訓(xùn)練的參數(shù)數(shù)目使Oi(輸出特征面大?。檎麛?shù)。

    全連接層:由卷積層和池化層訓(xùn)練的特征作為全連接層的輸入、輸出分類結(jié)果,即依據(jù)句子在不同類別上的概率分布,為每句話輸出情感等級標(biāo)簽。p(yk)為文本在第k種情感傾向上的輸出,代表了文本歸為第k種情感傾向的概率,p(yk)通過softmax歸一化后表示為:

jsj2-gs4-5.gif

2.3 文檔級情感分析

    本文采用基于語義指向的方法分析文章情感。即在句子級情感分析的結(jié)果基礎(chǔ)上,依據(jù)各子句的情感極性與該句在文檔中的權(quán)重,計算文檔的情感等級[13]。第j篇文章(j=1,2,3,…,400)的情感分?jǐn)?shù)為:

    jsj2-gs6.gif

其中,scorej為文檔j的情感分?jǐn)?shù);Pi代表第i個句子的極性,即句子級情感分析的結(jié)果;Weights代表句子在文中的權(quán)重,即占文章篇幅的比例。

3 實驗與分析

3.1 實驗數(shù)據(jù)

3.1.1 新聞篩選

    新聞媒體選取標(biāo)準(zhǔn)主要有兩條,首先為Alexa網(wǎng)站對美國新聞類網(wǎng)站排名的綜合結(jié)果,其次為搜索結(jié)果與“一帶一路”倡議的相關(guān)程度。通過Python語言編寫爬蟲自動采集相關(guān)新聞,因為“一帶一路”倡議多與經(jīng)濟(jì)建設(shè)有關(guān),因此數(shù)據(jù)采集中對財經(jīng)類報紙略有側(cè)重。

    檢索結(jié)果經(jīng)過兩步篩選:限制時間范圍為2015年1月~2018年7月;辨別文章標(biāo)題相關(guān)度,刪除不相關(guān)的文章。篩選后的數(shù)據(jù)描述如表1所示。

jsj2-b1.gif

3.1.2 模型數(shù)據(jù)

    訓(xùn)練集數(shù)據(jù)由810篇隨機(jī)抽取的“一帶一路”倡議相關(guān)新聞與190篇以“China”作為關(guān)鍵字檢索所得新聞的自動摘要構(gòu)成。其中,“一帶一路”倡議相關(guān)新聞按照篩選結(jié)果中的時間及篇數(shù)比例隨機(jī)抽取。190篇與中國相關(guān)的新聞均來自表1所示的10家媒體,并按照相同比例隨機(jī)抽取2015年1月~2018年7月的新聞,以確保媒體報道的行文風(fēng)格不對訓(xùn)練結(jié)果產(chǎn)生影響。人工對每句話進(jìn)行標(biāo)注,共標(biāo)注12 307句。測試集由202篇文章構(gòu)成,由所收集到的1 012篇新聞中排除被選擇作為訓(xùn)練集的810篇新聞構(gòu)成,采取與訓(xùn)練集相同的標(biāo)注方法。

3.2 評價方法

    本文情感分析結(jié)果評價標(biāo)準(zhǔn)采用精確率(Precision)、召回率(Recall)以及F1值(F1-Score)。

3.3 實驗結(jié)果分析

3.3.1 模型訓(xùn)練

    本文設(shè)計了4組實驗來訓(xùn)練模型,以確定卷積神經(jīng)網(wǎng)絡(luò)卷積層窗口的尺寸。如圖3所示,train表示訓(xùn)練集的結(jié)果,test表示測試集的結(jié)果。圖3(a)表示卷積層窗口尺寸為2、3、4時,預(yù)測最終準(zhǔn)確率為89.1%;圖3(b)表示卷積層窗口尺寸為3、4、5時,最終準(zhǔn)確率為92.6%;圖3(c)表示卷積層窗口尺寸為4、5、6時,最終準(zhǔn)確率為91.2%;圖3(d)表示卷積層窗口尺寸為5、6、7時,最終準(zhǔn)確率為87.3%。因此,本文卷積神經(jīng)網(wǎng)絡(luò)采用窗口尺寸為3、4、5的卷積層。

jsj2-t3.gif

3.3.2 模型訓(xùn)練

    本文對基于自動摘要-CNN的集成式文檔級情感分析模型和單一CNN模型進(jìn)行了對比實驗,測試結(jié)果如表2所示。自動摘要-CNN模型相較于CNN模型在Precision、Recall、F1-Score上分別有了5.69%、4.29%、4.97%的提升。

jsj2-b2.gif

3.3.3 情感分析結(jié)果展示

    基于卷積神經(jīng)網(wǎng)絡(luò)的分析結(jié)果如圖4所示。從圖中可以看出,87.25%的新聞情感為中性及中性以上。最高值為3.1分,最低值為1.45分,極值分?jǐn)?shù)的文章僅有6篇,說明美國新聞媒體對“一帶一路”倡議的相關(guān)報道較為客觀,不會對美國民眾產(chǎn)生極強(qiáng)的情緒影響。

jsj2-t4.gif

    利用Gensim工具庫,本文對1 012篇新聞的高頻詞進(jìn)行了分析,經(jīng)去停用詞處理后,出現(xiàn)次數(shù)排序為前16名的詞語如表3所示。

jsj2-b3.gif

    由表3可知,高頻詞集中在“一帶一路”倡議的對象、相關(guān)內(nèi)容及相關(guān)言論的來源。

3.3.4 負(fù)向情感文章分析

    文檔級情感分?jǐn)?shù)低于2分的文章歸為負(fù)向情感,1 012篇相關(guān)新聞中有64篇負(fù)向情感文章。時間分布為2015年2篇、2016年4篇、2017年28篇、2018年30篇。情感評分較低的原因可以主要歸納為5個方面:

    (1)美國擔(dān)心中國會影響其在亞非歐各國的利益。分析結(jié)果中顯示的4個異常低分的偏離值,大肆宣揚“中國威脅論”,認(rèn)為中國試圖通過經(jīng)濟(jì)、軍事力量主導(dǎo)世界政治發(fā)展,對美國民眾的態(tài)度產(chǎn)生較大影響。然而,我國從不做地緣博弈或拉幫結(jié)派、恃強(qiáng)凌弱的事情。因此,美國對此表示警惕,也說明了我國在各國實施建設(shè)“一帶一路”相關(guān)經(jīng)濟(jì)項目時做到了和平共處,并在世界范圍內(nèi)產(chǎn)生了積極效果。

    (2)美國懷疑中國沒有能力促使“一帶一路”倡議的順利實施。截至2017年5月,我國已與43個沿線國家發(fā)布聯(lián)合聲明/公報。簽署的多領(lǐng)域合作文件證明了我國的實力能夠推動“一帶一路”倡議的順利實施。

    (3)資金融通問題。美國質(zhì)疑中國在經(jīng)濟(jì)貿(mào)易方面仍不愿意開放,不愿意接受外國的投資。然而,中國的政策鼓勵外資銀行把握當(dāng)前各項政策紅利,對投資審查嚴(yán)格是對中外兩方資金的負(fù)責(zé),資金融通將不再是問題。

    (4)中國收緊對海外收購的監(jiān)管。相關(guān)新聞?wù)J為這些新的監(jiān)管措施大部分不適用于與“一帶一路”倡議有關(guān)的海外收購。相關(guān)政策顯示,雖然對海外收購監(jiān)管更加嚴(yán)格,但是戰(zhàn)略性的有益的活動仍會被批準(zhǔn)。所以,“一帶一路”倡議相關(guān)活動的實施不會受到影響。

    (5)文章中對被投資國家的描述比例較大。多篇新聞存在大篇幅描述阿富汗等國混亂現(xiàn)狀的內(nèi)容,使得文章摘要內(nèi)即便存在如“China has long been seen as one of the most promising prospects for such help.”的語句,文章整體情感也被前文的描述語句拉低。

    綜上所述,美國對中國的日益強(qiáng)大存在一定的質(zhì)疑與抵觸心理,但中國將會用客觀的數(shù)據(jù)向世界證明中國的實力。

4 結(jié)論

    現(xiàn)階段,互聯(lián)網(wǎng)“一帶一路”倡議搜索量和報道量仍呈上升趨勢。研究國外媒體對“一帶一路”倡議的報道,能夠知悉外國媒體的觀點與態(tài)度,及時針對國外輿情做出適當(dāng)?shù)姆磻?yīng),提升我國的形象。本文構(gòu)建了基于自動摘要-CNN的集成式文檔級情感分析模型,對美國主流新聞媒體 “一帶一路”倡議相關(guān)新聞進(jìn)行情感分析。模型基于單一CNN模型,增加自動摘要過程進(jìn)行句子級情感分析,并以此為基礎(chǔ)通過基于語義的方法,分析文檔級情感。通過對比未摘要新聞與摘要新聞的情感分析結(jié)果,發(fā)現(xiàn)經(jīng)過自動摘要的文章避免了整文分析帶來的主題不清晰問題,情感更加明確,模型測試效果優(yōu)于單一的CNN模型。

    此外,根據(jù)《“一帶一路”大數(shù)據(jù)報告(2017)》[1]顯示,除美國外,印度、英國、俄羅斯、澳大利亞等國對“一帶一路”倡議的關(guān)注度提升明顯。因此,未來將完善對其他各國的研究,對比分析各國輿論發(fā)展情況,提出關(guān)于“一帶一路”倡議宣傳的針對性意見。在研究方法方面,改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),使文本特征的提取更有效,提高模型的準(zhǔn)確率。

參考文獻(xiàn)

[1] 國家信息中心“一帶一路”大數(shù)據(jù)中心.“一帶一路”大數(shù)據(jù)報告(2017)[M]. 北京:商務(wù)印書館,2017.

[2] 張巖.“一帶一路”峰會期間阿拉伯網(wǎng)站輿情調(diào)查分析——以三家主流阿拉伯網(wǎng)站為例[J].對外傳播,2017(7):30-32.

[3] 趙雅瑩,郭繼榮,車向前.評價理論視角下英國對“一帶一路”態(tài)度研究[J].情報雜志,2016,35(10):37-41.

[4] 清華大學(xué)愛潑斯坦對外傳播研究中心.“一帶一路”議題的國際輿情分析[J]. 對外傳播,2017(5):24-26.

[5] 米拉,施雪琴.印尼對中國“一帶一路”倡議的認(rèn)知和反應(yīng)述評[J].南洋問題研究,2016(4):79-91.

[6] 薛慶國.“一帶一路”倡議在阿拉伯世界的傳播:輿情、實踐與建議[J].西亞非洲,2015(6):36-52.

[7] ERGENC C.Can two ends of asia meet?An overview of contemporary Turkey-China relations[J].East Asia,2015,32(3):289-308.

[8] 姜杰.社交媒體文本情感分析[D].南京:南京理工大學(xué),2017.

[9] 陳龍,管子玉,何金紅,等.情感分類研究進(jìn)展[J].計算機(jī)研究與發(fā)展,2017,54(6):1150-1170.

[10] PANG B,LEE L,VAITHYANATHAN S.Thumbs up? Sen-timent classification using machine learning techniques[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,Philadelphia,2002.

[11] KIM Y.Convolutional neural networks for sentence classification[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,Doha,2014.

[12] JOHNSON R,ZHANG T.Effective use of word order for text categorization with convolutional neural networks[C].Proceedings of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Denver,2015.

[13] 何炎祥,孫松濤,牛菲菲,等.用于微博情感分析的一種情感語義增強(qiáng)的深度學(xué)習(xí)模型[J].計算機(jī)學(xué)報,2017,40(4):773-790.

[14] 馮興杰,張志偉,史金釧.基于卷積神經(jīng)網(wǎng)絡(luò)和注意力模型的文本情感分析[J].計算機(jī)應(yīng)用研究,2018,35(5):1434-1436.



作者信息:

王  潔1,2,喬藝璇1,彭  巖1,許嫻曉1

(1.首都師范大學(xué) 管理學(xué)院,北京100089;2.中山大學(xué) 機(jī)器智能與先進(jìn)計算教育部重點實驗室,廣東 廣州510006)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。