《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信与网络 > 设计应用 > 针对在线教育情感分析的数据扩充研究
针对在线教育情感分析的数据扩充研究
网络安全与数据治理 2022年 第1期
黄伟强1,刘 海2,梁韬文2,杨海华2
(1.华南师范大学 网络中心,广东 广州510631;2.华南师范大学 计算机学院,广东 广州510631)
摘要: 在互联网上大量主观性的评论具有丰富的研究价值,可以通过对评论的分析获取评论的情感极性。在对大量评论进行情感分析时,存在时间和人力消耗过多等问题,针对该问题,提出了基于聚类分析的文本数据扩充方法:在对少量关键数据进行标注的基础上,通过聚类分析标注大量数据,以减少情感分析在实际应用中的成本。以在线教育平台的评论为例,对目前多个主流在线教育平台上爬取的共569 970条中文评论数据进行少量标注,然后使用该方法进行数据扩充,最后基于目前多个主流机器学习模型和卷积神经网络模型进行情感分析训练。研究结果表明,数据处理经过聚类后取得较好的数据扩充效果,其中采用卷积神经网络模型进行的情感分析,准确度可以达到96.5%。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.01.015
引用格式: 黃偉強(qiáng),劉海,梁韜文,等. 針對(duì)在線教育情感分析的數(shù)據(jù)擴(kuò)充研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(1):93-100.
A data augmentation method for online education sentiment analysis
Huang Weiqiang1,Liu Hai2,Liang Taowen2,Yang Haihua2
(1.Network Center,South China Normal University,Guangzhou 510631,China; 2.School of Computer Science,South China Normal University,Guangzhou 510631,China)
Abstract: A large number of subjective comments have rich research value on the Internet. The sentiment polarity of the comments can be obtained through the sentiment analysis of the text. However, there are many problems such as excessive time and human resource consumption in sentiment analysis of massive text comments. In response to the above problems, a method of augmenting data based on cluster analysis is proposed to reduce the cost of sentiment analysis in practical applications. The method can label a large amount of data based on a small amount of key data. Taking reviews on online education platforms as an example, in this paper, a small number of data are labelled on a total of 569 970 Chinese comments crawled on many mainstream online education platforms and then augmented using the method mentioned in this paper,four popular machine learning models and the CNN(Convolutional Neural Network) model are used in the sentiment analysis. The experimental results show that the data processing achieves better data expansion effect after clustering,and the Chinese sentiment analysis model based on the convolutional neural network has an accuracy of 96.5%.
Key words : text data augmentation;sentiment analysis;natural language processing;cluster analysis

0 引言

隨著信息技術(shù)的飛速發(fā)展,在線教育逐漸興起,越來越多的人在在線教育課程中留下了有價(jià)值的評(píng)論,通過對(duì)這些評(píng)論進(jìn)行情感分析可以達(dá)到多方面的目的,如分析學(xué)生對(duì)課程的滿意度、調(diào)查老師授課水平、挖掘課程質(zhì)量等。 

情感分析(Sentiment Analysis),又稱為情感傾向性分析[1],目的是找出文本中情感的正負(fù)性,如正面或負(fù)面、積極或消極,并且把這種正負(fù)性數(shù)值化,以百分比或者正負(fù)值的方式表現(xiàn)出來。情感分析的研究方法大致可以分為兩種:一是基于情感詞典的情感分析[2],主要通過建立情感詞典或領(lǐng)域詞典及通過文本中帶有極性的情感詞進(jìn)行計(jì)算來獲取文本的極性,由于依賴于情感詞典,存在覆蓋率不足等缺點(diǎn);二是基于機(jī)器學(xué)習(xí)的情感分析,包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三種方法,其中與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相比,半監(jiān)督學(xué)習(xí)通過少量標(biāo)注數(shù)據(jù)和大量無標(biāo)注數(shù)據(jù)進(jìn)行識(shí)別,既不用對(duì)所有的數(shù)據(jù)進(jìn)行標(biāo)注,也不依賴先驗(yàn)經(jīng)驗(yàn),有較好的實(shí)用性,從而被許多學(xué)者應(yīng)用在情感分析問題上,如陳珂等[3]利用基于分類器集成的self-training方法進(jìn)行情感分析研究,使用少量標(biāo)注樣本和大量未標(biāo)注樣本來進(jìn)行情感分析訓(xùn)練,準(zhǔn)確率達(dá)86%。

數(shù)據(jù)擴(kuò)充[4]是一種結(jié)合機(jī)器學(xué)習(xí)使用的方法,在訓(xùn)練樣本不足的情況下,可使模型訓(xùn)練更好地?cái)M合,通過與半監(jiān)督的方法相結(jié)合,可達(dá)到標(biāo)注少量數(shù)據(jù)以擴(kuò)充至大量訓(xùn)練數(shù)據(jù)的效果。數(shù)據(jù)擴(kuò)充方法目前已被用于圖像、交通、醫(yī)療等領(lǐng)域[5-7],目前主流的數(shù)據(jù)擴(kuò)充方法有圖像翻轉(zhuǎn)、隨機(jī)噪聲、標(biāo)簽傳播等[8]。

情感分析目前已被應(yīng)用于如電影評(píng)論、書籍評(píng)論、微博短評(píng)等多個(gè)領(lǐng)域,但在在線教育課程評(píng)論領(lǐng)域的應(yīng)用還較缺乏,把情感分析應(yīng)用在在線教育課程評(píng)論上存在著各種挑戰(zhàn),如評(píng)論數(shù)據(jù)的獲取、評(píng)論數(shù)據(jù)的標(biāo)注等。為了解決以上問題,本文借鑒半監(jiān)督學(xué)習(xí)的方法,提出基于聚類分析的文本數(shù)據(jù)擴(kuò)充方法:對(duì)少量關(guān)鍵數(shù)據(jù)進(jìn)行標(biāo)注,并通過聚類分析獲得大量已標(biāo)注數(shù)據(jù)。在目前主流在線教育平臺(tái)爬取的569 970條課程評(píng)論中選取1 000條關(guān)鍵數(shù)據(jù)進(jìn)行標(biāo)注并使用本文數(shù)據(jù)擴(kuò)充方法擴(kuò)充至10萬條標(biāo)注數(shù)據(jù),分別利用SVM[9]、RandomForest[10]、AdaBoost[11]、GradientBoost[12]和CNN模型對(duì)標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)驗(yàn)表明,與目前主流的LabelSpreading算法相比,本文的數(shù)據(jù)擴(kuò)充方法均有準(zhǔn)確率上的優(yōu)勢(shì)。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000004618




作者信息:

黃偉強(qiáng)1,劉  海2,梁韜文2,楊海華2

(1.華南師范大學(xué) 網(wǎng)絡(luò)中心,廣東 廣州510631;2.華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州510631)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容