文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.182177
中文引用格式: 王潔,喬藝璇,彭巖,等. 基于深度學(xué)習(xí)的美國媒體“一帶一路”輿情的情感分析[J].電子技術(shù)應(yīng)用,2018,44(11):102-106,110.
英文引用格式: Wang Jie,Qiao Yixuan,Peng Yan,et al. Sentiment analysis about “One Belt, One Road” public opinion of American media based on deep learning[J]. Application of Electronic Technique,2018,44(11):102-106,110.
0 引言
“一帶一路”倡議自2013年提出以來,受到國內(nèi)外媒體的廣泛關(guān)注。隨著相關(guān)建設(shè)的逐步推進(jìn),世界各國媒體對“一帶一路”的相關(guān)報道呈快速增長趨勢,新聞報道中蘊含該國對“一帶一路”倡議的關(guān)注熱點與情感傾向,是衡量該國對中國快速發(fā)展所持態(tài)度的重要素材?,F(xiàn)有“一帶一路”國際輿情相關(guān)研究中普遍存在使用的樣本量偏少、分析方法較單一等問題。利用網(wǎng)絡(luò)大數(shù)據(jù),結(jié)合文獻(xiàn)計量方法和深度學(xué)習(xí)技術(shù),從客觀角度分析海外輿情情感是本文的研究重點。
傳統(tǒng)的基于詞典和機(jī)器學(xué)習(xí)的情感分析存在分類時靈活度不高和需要大量標(biāo)注的訓(xùn)練數(shù)據(jù)等問題,本文基于深度學(xué)習(xí)技術(shù),構(gòu)建了基于自動摘要-CNN的集成式文檔級情感分析模型。具體方法為:首先提取新聞?wù)?,去除原始文檔中非重要數(shù)據(jù)的干擾;再利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行句子級情感分析,通過基于語義指向的方法獲得文檔級的情感分?jǐn)?shù),利用Gensim等工具庫計算媒體關(guān)注重點,并對情感波動異常文章給予二次研究。本文提出的基于自動摘要-CNN與未摘要新聞的單一CNN進(jìn)行了對比實驗,實驗結(jié)果驗證了集成模型的有效性。本文的研究有助于了解美國新聞媒體關(guān)于“一帶一路”倡議的輿情熱點和情感態(tài)度,分析和總結(jié)我國在“一帶一路”傳播過程中的經(jīng)驗及問題,增強(qiáng)未來我國“一帶一路”對外傳播的針對性、有效性和感召力。
1 相關(guān)工作
1.1 “一帶一路”國際輿情研究現(xiàn)狀
“一帶一路”倡議是我國加強(qiáng)與亞歐非及世界各國互聯(lián)互通,推動沿線各國貿(mào)易往來的重大舉措,隨著相關(guān)項目的簽約與實施,國內(nèi)外新聞媒體的報道量快速上升。根據(jù)《“一帶一路”大數(shù)據(jù)報告(2017)》[1]分析結(jié)果,美國對“一帶一路”倡議的關(guān)注度超過亞洲各國。本文選取的美國主流新聞媒體網(wǎng)站在報道的寬度、深度、時效性等方面發(fā)展迅速,報道內(nèi)容覆蓋政界、學(xué)界、商界及普通民眾的觀點與深層分析的結(jié)論。
近年國內(nèi)外學(xué)者、智庫、研究機(jī)構(gòu)等從不同角度對“一帶一路”倡議的國際輿情展開了大量研究。張巖[2]基于支持與肯定、理性評價與分析、觀望與保留態(tài)度、質(zhì)疑與否定4個視角,對比分析3家主流阿拉伯網(wǎng)站的情感傾向與報道主題。趙雅瑩[3]定量分析英國3家主流媒體關(guān)于“一帶一路”的報道中所使用的情感、判定和鑒別三類態(tài)度詞。清華大學(xué)愛潑斯坦對外傳播研究中心[4]通過對報紙、電視新聞網(wǎng)、雜志等國外部分主流媒體涉及“一帶一路”倡議的報道進(jìn)行分析,研究國際新聞媒體報道的輿情演變。米拉[5]分析中印尼“一帶一路”合作的機(jī)遇與挑戰(zhàn)。薛慶國[6]研究 “一帶一路”倡議在阿拉伯世界的傳播。ERGENC C[7]提出“一帶一路”倡議標(biāo)志著中國對中亞和西亞地區(qū)政策的積極轉(zhuǎn)變。
1.2 情感分析研究現(xiàn)狀
目前,情感分析主要利用兩種方法:基于詞典的情感分析與基于機(jī)器學(xué)習(xí)的情感分析。根據(jù)文本粒度可以分為:短語級、句子級與文檔級[8]?;谠~典的方法依賴于詞典與規(guī)則的構(gòu)建,由于詞典的容量和詞典適用程度的問題,以及規(guī)則構(gòu)建需要大量人力勞動,基于詞典的方法逐漸機(jī)器學(xué)習(xí)所取代[9]。
2002年P(guān)ANG B等人首次利用機(jī)器學(xué)習(xí)解決二元情感分類問題[10]。從此相關(guān)研究工作分為兩個主要方向,即設(shè)計更多有效的分類特征和采用更多高效的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。KIM Y[11]針對句子級別的分類任務(wù),利用卷積神經(jīng)網(wǎng)絡(luò)做了一系列的實驗,闡述了不同的架構(gòu)的神經(jīng)網(wǎng)絡(luò)對實驗結(jié)果的影響,展示了卷積神經(jīng)網(wǎng)絡(luò)在情感分析領(lǐng)域的重要作用。JOHNSON R等[12]通過分析卷積神經(jīng)網(wǎng)絡(luò)在圖像處理上的處理方式,將句子、單詞與圖像、像素對應(yīng),使得卷積神經(jīng)網(wǎng)絡(luò)在情感分類問題上展現(xiàn)出較好的效果。近幾年,國內(nèi)關(guān)于卷積情感分析的研究多基于微博、評論等短文本[13-14]。
2 情感分析
本文研究主要分為4個步驟:(1)網(wǎng)絡(luò)爬蟲抓取新聞;(2)利用基于自動摘要-CNN的集成式文檔級情感分析模型進(jìn)行情感分析,并對比單一CNN模型分析結(jié)果;(3)利用Gensim等工具庫統(tǒng)計新聞高頻詞,了解媒體關(guān)注熱點;(4)對情感波動異常文章給予二次研究。整體技術(shù)思路如圖1所示。
2.1 提取新聞?wù)?/strong>
由于研究對象為多源的美國主流新聞媒體,且不同媒體數(shù)據(jù)的長度與格式均不相同。因此本文在進(jìn)行信息抽取時,采用自動化文本摘要的方法以保留新聞關(guān)鍵內(nèi)容及總體含義。
以摘要的準(zhǔn)確性和可讀性為標(biāo)準(zhǔn),選擇基于Gensim主題建模程序的方法。利用構(gòu)建無向加權(quán)圖的方法,以文章中的語句為節(jié)點,規(guī)格化后的句子相似度為節(jié)點的鏈接,避免句子長度對摘要結(jié)果的影響。摘要過程中,關(guān)鍵詞不局限于單個詞,達(dá)到提升摘要可讀性的目的。
2.2 句子級情感分析
卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層、全連接層、輸出層組成。如圖2所示,模型為采用一種卷積窗口,一種池化窗口,且輸入僅為一個特征面的卷積神經(jīng)網(wǎng)絡(luò)。其特殊的網(wǎng)絡(luò)結(jié)構(gòu),使其可以捕捉細(xì)小的特征信息,最初在圖像識別領(lǐng)域應(yīng)用廣泛。近幾年隨著機(jī)器學(xué)習(xí)領(lǐng)域的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)逐漸被應(yīng)用到語音識別、文本分類、語義分析等方面。
本文參照KIM Y[11]的建議設(shè)置模型參數(shù),對圖2的模型改進(jìn),進(jìn)行句子級的情感分析,具體實現(xiàn)方法如下。
輸入層(embedding):embedding層將文本轉(zhuǎn)換為向量并擴(kuò)充維度,以滿足卷積神經(jīng)網(wǎng)絡(luò)對參數(shù)的要求。
卷積層與池化層(conv-maxpool):用于獲取局部特征與得到最重要特征。卷積層通過局部連接的方式與上層特征面相連,利用權(quán)值共享的特性,減小模型的復(fù)雜度。訓(xùn)練過程中采用3種大小的窗口篩選不同的特征,完善對詞向量的特征提取。池化層采用最大池化的方式提取最重要的特征。訓(xùn)練過程中,使用修正線性單元(Rectified Liner Unit,ReLU)作為激活函數(shù),使線性的神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)變?yōu)榉蔷€性的神經(jīng)網(wǎng)絡(luò),即使輸出結(jié)果由式(1)中的f(x)轉(zhuǎn)變?yōu)槭剑?)中的gj(x),同時加快收斂速度。
其中,Isize表示每一個輸入特征面的大??;K′∈[3,4,5] 為卷積核即窗口的大?。籹tep表示卷積核在其上一層的滑動步長,Wsize為池化窗口的大小。模型通過調(diào)整卷積層訓(xùn)練的參數(shù)數(shù)目使Oi(輸出特征面大?。檎麛?shù)。
全連接層:由卷積層和池化層訓(xùn)練的特征作為全連接層的輸入、輸出分類結(jié)果,即依據(jù)句子在不同類別上的概率分布,為每句話輸出情感等級標(biāo)簽。p(yk)為文本在第k種情感傾向上的輸出,代表了文本歸為第k種情感傾向的概率,p(yk)通過softmax歸一化后表示為:
2.3 文檔級情感分析
本文采用基于語義指向的方法分析文章情感。即在句子級情感分析的結(jié)果基礎(chǔ)上,依據(jù)各子句的情感極性與該句在文檔中的權(quán)重,計算文檔的情感等級[13]。第j篇文章(j=1,2,3,…,400)的情感分?jǐn)?shù)為:
其中,scorej為文檔j的情感分?jǐn)?shù);Pi代表第i個句子的極性,即句子級情感分析的結(jié)果;Weights代表句子在文中的權(quán)重,即占文章篇幅的比例。
3 實驗與分析
3.1 實驗數(shù)據(jù)
3.1.1 新聞篩選
新聞媒體選取標(biāo)準(zhǔn)主要有兩條,首先為Alexa網(wǎng)站對美國新聞類網(wǎng)站排名的綜合結(jié)果,其次為搜索結(jié)果與“一帶一路”倡議的相關(guān)程度。通過Python語言編寫爬蟲自動采集相關(guān)新聞,因為“一帶一路”倡議多與經(jīng)濟(jì)建設(shè)有關(guān),因此數(shù)據(jù)采集中對財經(jīng)類報紙略有側(cè)重。
檢索結(jié)果經(jīng)過兩步篩選:限制時間范圍為2015年1月~2018年7月;辨別文章標(biāo)題相關(guān)度,刪除不相關(guān)的文章。篩選后的數(shù)據(jù)描述如表1所示。
3.1.2 模型數(shù)據(jù)
訓(xùn)練集數(shù)據(jù)由810篇隨機(jī)抽取的“一帶一路”倡議相關(guān)新聞與190篇以“China”作為關(guān)鍵字檢索所得新聞的自動摘要構(gòu)成。其中,“一帶一路”倡議相關(guān)新聞按照篩選結(jié)果中的時間及篇數(shù)比例隨機(jī)抽取。190篇與中國相關(guān)的新聞均來自表1所示的10家媒體,并按照相同比例隨機(jī)抽取2015年1月~2018年7月的新聞,以確保媒體報道的行文風(fēng)格不對訓(xùn)練結(jié)果產(chǎn)生影響。人工對每句話進(jìn)行標(biāo)注,共標(biāo)注12 307句。測試集由202篇文章構(gòu)成,由所收集到的1 012篇新聞中排除被選擇作為訓(xùn)練集的810篇新聞構(gòu)成,采取與訓(xùn)練集相同的標(biāo)注方法。
3.2 評價方法
本文情感分析結(jié)果評價標(biāo)準(zhǔn)采用精確率(Precision)、召回率(Recall)以及F1值(F1-Score)。
3.3 實驗結(jié)果分析
3.3.1 模型訓(xùn)練
本文設(shè)計了4組實驗來訓(xùn)練模型,以確定卷積神經(jīng)網(wǎng)絡(luò)卷積層窗口的尺寸。如圖3所示,train表示訓(xùn)練集的結(jié)果,test表示測試集的結(jié)果。圖3(a)表示卷積層窗口尺寸為2、3、4時,預(yù)測最終準(zhǔn)確率為89.1%;圖3(b)表示卷積層窗口尺寸為3、4、5時,最終準(zhǔn)確率為92.6%;圖3(c)表示卷積層窗口尺寸為4、5、6時,最終準(zhǔn)確率為91.2%;圖3(d)表示卷積層窗口尺寸為5、6、7時,最終準(zhǔn)確率為87.3%。因此,本文卷積神經(jīng)網(wǎng)絡(luò)采用窗口尺寸為3、4、5的卷積層。
3.3.2 模型訓(xùn)練
本文對基于自動摘要-CNN的集成式文檔級情感分析模型和單一CNN模型進(jìn)行了對比實驗,測試結(jié)果如表2所示。自動摘要-CNN模型相較于CNN模型在Precision、Recall、F1-Score上分別有了5.69%、4.29%、4.97%的提升。
3.3.3 情感分析結(jié)果展示
基于卷積神經(jīng)網(wǎng)絡(luò)的分析結(jié)果如圖4所示。從圖中可以看出,87.25%的新聞情感為中性及中性以上。最高值為3.1分,最低值為1.45分,極值分?jǐn)?shù)的文章僅有6篇,說明美國新聞媒體對“一帶一路”倡議的相關(guān)報道較為客觀,不會對美國民眾產(chǎn)生極強(qiáng)的情緒影響。
利用Gensim工具庫,本文對1 012篇新聞的高頻詞進(jìn)行了分析,經(jīng)去停用詞處理后,出現(xiàn)次數(shù)排序為前16名的詞語如表3所示。
由表3可知,高頻詞集中在“一帶一路”倡議的對象、相關(guān)內(nèi)容及相關(guān)言論的來源。
3.3.4 負(fù)向情感文章分析
文檔級情感分?jǐn)?shù)低于2分的文章歸為負(fù)向情感,1 012篇相關(guān)新聞中有64篇負(fù)向情感文章。時間分布為2015年2篇、2016年4篇、2017年28篇、2018年30篇。情感評分較低的原因可以主要歸納為5個方面:
(1)美國擔(dān)心中國會影響其在亞非歐各國的利益。分析結(jié)果中顯示的4個異常低分的偏離值,大肆宣揚“中國威脅論”,認(rèn)為中國試圖通過經(jīng)濟(jì)、軍事力量主導(dǎo)世界政治發(fā)展,對美國民眾的態(tài)度產(chǎn)生較大影響。然而,我國從不做地緣博弈或拉幫結(jié)派、恃強(qiáng)凌弱的事情。因此,美國對此表示警惕,也說明了我國在各國實施建設(shè)“一帶一路”相關(guān)經(jīng)濟(jì)項目時做到了和平共處,并在世界范圍內(nèi)產(chǎn)生了積極效果。
(2)美國懷疑中國沒有能力促使“一帶一路”倡議的順利實施。截至2017年5月,我國已與43個沿線國家發(fā)布聯(lián)合聲明/公報。簽署的多領(lǐng)域合作文件證明了我國的實力能夠推動“一帶一路”倡議的順利實施。
(3)資金融通問題。美國質(zhì)疑中國在經(jīng)濟(jì)貿(mào)易方面仍不愿意開放,不愿意接受外國的投資。然而,中國的政策鼓勵外資銀行把握當(dāng)前各項政策紅利,對投資審查嚴(yán)格是對中外兩方資金的負(fù)責(zé),資金融通將不再是問題。
(4)中國收緊對海外收購的監(jiān)管。相關(guān)新聞?wù)J為這些新的監(jiān)管措施大部分不適用于與“一帶一路”倡議有關(guān)的海外收購。相關(guān)政策顯示,雖然對海外收購監(jiān)管更加嚴(yán)格,但是戰(zhàn)略性的有益的活動仍會被批準(zhǔn)。所以,“一帶一路”倡議相關(guān)活動的實施不會受到影響。
(5)文章中對被投資國家的描述比例較大。多篇新聞存在大篇幅描述阿富汗等國混亂現(xiàn)狀的內(nèi)容,使得文章摘要內(nèi)即便存在如“China has long been seen as one of the most promising prospects for such help.”的語句,文章整體情感也被前文的描述語句拉低。
綜上所述,美國對中國的日益強(qiáng)大存在一定的質(zhì)疑與抵觸心理,但中國將會用客觀的數(shù)據(jù)向世界證明中國的實力。
4 結(jié)論
現(xiàn)階段,互聯(lián)網(wǎng)“一帶一路”倡議搜索量和報道量仍呈上升趨勢。研究國外媒體對“一帶一路”倡議的報道,能夠知悉外國媒體的觀點與態(tài)度,及時針對國外輿情做出適當(dāng)?shù)姆磻?yīng),提升我國的形象。本文構(gòu)建了基于自動摘要-CNN的集成式文檔級情感分析模型,對美國主流新聞媒體 “一帶一路”倡議相關(guān)新聞進(jìn)行情感分析。模型基于單一CNN模型,增加自動摘要過程進(jìn)行句子級情感分析,并以此為基礎(chǔ)通過基于語義的方法,分析文檔級情感。通過對比未摘要新聞與摘要新聞的情感分析結(jié)果,發(fā)現(xiàn)經(jīng)過自動摘要的文章避免了整文分析帶來的主題不清晰問題,情感更加明確,模型測試效果優(yōu)于單一的CNN模型。
此外,根據(jù)《“一帶一路”大數(shù)據(jù)報告(2017)》[1]顯示,除美國外,印度、英國、俄羅斯、澳大利亞等國對“一帶一路”倡議的關(guān)注度提升明顯。因此,未來將完善對其他各國的研究,對比分析各國輿論發(fā)展情況,提出關(guān)于“一帶一路”倡議宣傳的針對性意見。在研究方法方面,改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),使文本特征的提取更有效,提高模型的準(zhǔn)確率。
參考文獻(xiàn)
[1] 國家信息中心“一帶一路”大數(shù)據(jù)中心.“一帶一路”大數(shù)據(jù)報告(2017)[M]. 北京:商務(wù)印書館,2017.
[2] 張巖.“一帶一路”峰會期間阿拉伯網(wǎng)站輿情調(diào)查分析——以三家主流阿拉伯網(wǎng)站為例[J].對外傳播,2017(7):30-32.
[3] 趙雅瑩,郭繼榮,車向前.評價理論視角下英國對“一帶一路”態(tài)度研究[J].情報雜志,2016,35(10):37-41.
[4] 清華大學(xué)愛潑斯坦對外傳播研究中心.“一帶一路”議題的國際輿情分析[J]. 對外傳播,2017(5):24-26.
[5] 米拉,施雪琴.印尼對中國“一帶一路”倡議的認(rèn)知和反應(yīng)述評[J].南洋問題研究,2016(4):79-91.
[6] 薛慶國.“一帶一路”倡議在阿拉伯世界的傳播:輿情、實踐與建議[J].西亞非洲,2015(6):36-52.
[7] ERGENC C.Can two ends of asia meet?An overview of contemporary Turkey-China relations[J].East Asia,2015,32(3):289-308.
[8] 姜杰.社交媒體文本情感分析[D].南京:南京理工大學(xué),2017.
[9] 陳龍,管子玉,何金紅,等.情感分類研究進(jìn)展[J].計算機(jī)研究與發(fā)展,2017,54(6):1150-1170.
[10] PANG B,LEE L,VAITHYANATHAN S.Thumbs up? Sen-timent classification using machine learning techniques[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,Philadelphia,2002.
[11] KIM Y.Convolutional neural networks for sentence classification[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,Doha,2014.
[12] JOHNSON R,ZHANG T.Effective use of word order for text categorization with convolutional neural networks[C].Proceedings of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Denver,2015.
[13] 何炎祥,孫松濤,牛菲菲,等.用于微博情感分析的一種情感語義增強(qiáng)的深度學(xué)習(xí)模型[J].計算機(jī)學(xué)報,2017,40(4):773-790.
[14] 馮興杰,張志偉,史金釧.基于卷積神經(jīng)網(wǎng)絡(luò)和注意力模型的文本情感分析[J].計算機(jī)應(yīng)用研究,2018,35(5):1434-1436.
作者信息:
王 潔1,2,喬藝璇1,彭 巖1,許嫻曉1
(1.首都師范大學(xué) 管理學(xué)院,北京100089;2.中山大學(xué) 機(jī)器智能與先進(jìn)計算教育部重點實驗室,廣東 廣州510006)