文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.200748
中文引用格式: 楊戈,楊麓濤. 基于爬蟲(chóng)和TFIDF-NB算法的微博情感分析[J].電子技術(shù)應(yīng)用,2021,47(4):59-62,66.
英文引用格式: Yang Ge,Yang Lutao. Sentiment analysis of Weibo based on TFIDF-NB algorithm[J]. Application of Electronic Technique,2021,47(4):59-62,66.
0 引言
網(wǎng)絡(luò)輿情是指網(wǎng)絡(luò)用戶對(duì)社會(huì)各方面熱點(diǎn)問(wèn)題所發(fā)表的見(jiàn)解和建議的輿論,是社會(huì)輿情的一種體現(xiàn),是公眾對(duì)社會(huì)中各種熱點(diǎn)事件和問(wèn)題所表達(dá)的態(tài)度、想法、情緒等的集合?;ヂ?lián)網(wǎng)的快速發(fā)展使得網(wǎng)絡(luò)輿情的形成和傳播速度不斷提升,對(duì)社會(huì)的影響巨大。
文獻(xiàn)[1]證明了網(wǎng)絡(luò)輿情的發(fā)展具有混沌的特性,即表現(xiàn)為亂序、無(wú)規(guī)則、隨機(jī)變化。在網(wǎng)絡(luò)輿情傳播的過(guò)程中,微博給網(wǎng)絡(luò)輿情的形成、發(fā)酵和傳播提供了一個(gè)強(qiáng)大的互聯(lián)網(wǎng)平臺(tái),給其用戶提供了一個(gè)向全世界分享信息、發(fā)表評(píng)論和表達(dá)訴求的平臺(tái),這些輿論內(nèi)容在短時(shí)間內(nèi)會(huì)大規(guī)模地?cái)U(kuò)散,甚至?xí)绊懯录淖呦颉?/p>
本文首先實(shí)現(xiàn)一個(gè)基于Scrapy框架的微博評(píng)論爬蟲(chóng),將某熱點(diǎn)事件的若干條微博評(píng)論進(jìn)行爬取并存進(jìn)數(shù)據(jù)庫(kù),然后進(jìn)行文本分割和LDA(Latent Dirichlet Allocation)主題聚類,最后采用TFIDF-NB(Term Frequency Inverse Document Frequency-Navie Bayes)算法進(jìn)行文本情感分類。
(1)爬蟲(chóng)
爬蟲(chóng)全稱為網(wǎng)絡(luò)爬蟲(chóng),是一種可以對(duì)互聯(lián)網(wǎng)上的信息進(jìn)行自動(dòng)化瀏覽的網(wǎng)絡(luò)腳本或程序,可實(shí)現(xiàn)對(duì)海量互聯(lián)網(wǎng)信息進(jìn)行瀏覽、爬取等操作,并將抓取到的信息存儲(chǔ)于本地中。
網(wǎng)絡(luò)爬蟲(chóng)可以分為4種[2]:通用網(wǎng)絡(luò)爬蟲(chóng)[3]、主題網(wǎng)絡(luò)爬蟲(chóng)[4]、增量式網(wǎng)絡(luò)爬蟲(chóng)[5]、深層網(wǎng)絡(luò)爬蟲(chóng)[6-7]。
(2)情感分類
情感分析是指識(shí)別文本中潛在的想法、情感和態(tài)度的方法[8]。情感分類是情感分析的核心內(nèi)容,情感分類的作用是識(shí)別文本數(shù)據(jù)中的觀點(diǎn),對(duì)情感的積極或消極情緒進(jìn)行分類[9]。
目前情感分類主要有兩種方法,一種是基于詞典的方法[10-13],另一種是基于機(jī)器學(xué)習(xí)的方法[14-16]。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003464
作者信息:
楊 戈1,2,楊麓濤1
(1.北京師范大學(xué)珠海分校 智能多媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣東 珠海519087;
2.北京大學(xué)深圳研究生院 深圳物聯(lián)網(wǎng)智能感知技術(shù)工程實(shí)驗(yàn)室,廣東 深圳518055)