《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計應(yīng)用 > 一種基于股票情感分析的股市趨勢預(yù)測方法
一種基于股票情感分析的股市趨勢預(yù)測方法
2019年電子技術(shù)應(yīng)用第3期
肖 亭1,林 玲2,黃永峰1
1.清華大學(xué) 電子系,北京100084;2.廣東外語外貿(mào)大學(xué) 金融學(xué)院,廣東 廣州510006
摘要: 隨著互聯(lián)網(wǎng)應(yīng)用的飛速發(fā)展和用戶人數(shù)的急劇增長,股市評論與觀點在很大程度上反映了股市行情,也影響著股市漲跌。因此,如何快速高效地分析到網(wǎng)民對股市的態(tài)度和觀點,對股市預(yù)測具有很大指導(dǎo)意義。論文研究通過分析不同專業(yè)人士發(fā)布股評的情感極性來預(yù)測股票上漲與下跌趨勢。提出了一種綜合金融詞組詞典和結(jié)尾段加權(quán)的情感分析方法,能解決情感字典分析方法對領(lǐng)域依賴性問題,有效地提高了情感分析準(zhǔn)確度。另外,論文還提出了一種加窗的股票預(yù)測模型,可用于分析預(yù)測事件窗口的最佳值。實驗結(jié)果表明,基于股評情感分析來預(yù)測特定股票上漲或下跌趨勢具有較好效果。
中圖分類號: TP391
文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.190031
中文引用格式: 肖亭,林玲,黃永峰. 一種基于股票情感分析的股市趨勢預(yù)測方法[J].電子技術(shù)應(yīng)用,2019,45(3):13-17.
英文引用格式: Xiao Ting,Lin Ling,Huang Yongfeng. A stock market trend forecasting method based on stock sentiment analysis[J]. Application of Electronic Technique,2019,45(3):13-17.
A stock market trend forecasting method based on stock sentiment analysis
Xiao Ting1,Lin Ling2,Huang Yongfeng1
1.Department of Electronic Engineering,Tsinghua University,Beijing 100084,China; 2.School of Finance,Guangdong University of Foreign Studies,Guangzhou 510006,China
Abstract: With the rapid development of Internet applications and the rapid growth of users , the reviews and opinions of stock market largely reflect the quotation of the stock market,simultaneously it affects the ups and downs of the stock market. Therefore, how to quickly and efficiently analyze the attitudes and opinions of netizens to the stock market,which,this question plays important role in guiding us to predict the stock market. The thesis studies the rising and falling trend of stocks by analyzing the emotional polarity of different professional issuing stocks. This paper proposes a sentiment analysis method based on a dictionary of consistent integrated financial phrases and weighted at the end of paragraph, which can solve the dependency problem of sentiment dictionary on the domain,and it can effectively improve the accuracy of sentiment analysis. In addition, this paper also proposed a windowed stock prediction model, which can be used to analyze the optimal value of the forecast event window. The experimental results shows that it will be better to predict the rising or falling trend of a particular stock just based on the stock market sentiment analysis.
Key words : analysis of sentiment;stock assessment;prediction model;emotional dictionary

0 引言

    隨著互聯(lián)網(wǎng)技術(shù)及應(yīng)用的飛速發(fā)展,互聯(lián)網(wǎng)用戶人數(shù)在急劇增長。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第四十次統(tǒng)計報告表明[1]:到2017年6月份為止,中國的互聯(lián)網(wǎng)網(wǎng)民已經(jīng)達(dá)到了7.5億。相比于2016年增加了近2 000萬人。特別是隨著Web2.0技術(shù)的發(fā)展和完善,微博、微信、論壇等新型社交媒體的出現(xiàn),網(wǎng)民可以在這些媒體表達(dá)自己對某事件、人物和產(chǎn)品的觀點、態(tài)度和看法等。互聯(lián)網(wǎng)成為人類有史以來最大的“信息集散地”,也是人們發(fā)表觀點最廣泛的“思想自由地”。因此,分析和掌握這些網(wǎng)絡(luò)評論中蘊含的豐富情感對預(yù)測分析具有重要的作用。例如,通過對在線商城上用戶對產(chǎn)品的評論進(jìn)行情感分析,可以讓商家更好地了解商品的優(yōu)缺點以及用戶對商品的喜好情況,針對商品存在的缺陷和不足進(jìn)行改進(jìn),提升產(chǎn)品質(zhì)量和價值。

    我國股票市場經(jīng)過了二十多年的飛速發(fā)展,股市的硬實力已經(jīng)進(jìn)入國際先進(jìn)行列,但軟實力還有待改進(jìn)。例如,投資者不夠重視或無法獲取大盤整體預(yù)期走勢以及公司主體的發(fā)展趨勢,主要依靠各路小道消息,導(dǎo)致股票市場各類渠道的消息五花八門、真假難辨,對股票市場產(chǎn)生了一定的負(fù)面影響,而網(wǎng)民對股市或某只股票的網(wǎng)絡(luò)評論觀點在很大程度上反映了股市行情,也影響著股市漲跌。因此,如何快速高效地分析網(wǎng)民對股市態(tài)度和觀點對股市預(yù)測具有很大指導(dǎo)意義。特別是隨著最近幾年人工智能技術(shù)的發(fā)展,學(xué)術(shù)界和投資行業(yè)已經(jīng)高度重視采用網(wǎng)絡(luò)股票評論的情感分析技術(shù)來為股市行情趨勢預(yù)測提供信息支撐。

1 相關(guān)研究工作

    目前,網(wǎng)絡(luò)文本情感分析方法主要分為兩大途徑,無監(jiān)督情感分析方法和有監(jiān)督情感分析方法[2]。在2002年P(guān)ANG等學(xué)者首次采用電影評論數(shù)據(jù)建立了使用機器學(xué)習(xí)的有監(jiān)督情感分類方法。他分別使用了支持向量機(SVM)、樸素貝葉斯(NB)、最大熵(ME)分類器,二情感分類特征主要采用情感詞頻[3]。實驗表明基于機器學(xué)習(xí)的有監(jiān)督分類結(jié)果準(zhǔn)確率要高于基于傳統(tǒng)的無監(jiān)督方法。文獻(xiàn)[4]也提出了一種結(jié)合SVM和NB分類器的新模型(NBSVM),這種新的模型在多個數(shù)據(jù)集都取得了很好的分類效果。有監(jiān)督網(wǎng)絡(luò)評論情感分類方法是基于標(biāo)注訓(xùn)練集語料來進(jìn)行評論分類的,而標(biāo)注的語料具有領(lǐng)域依賴性,因此有監(jiān)督網(wǎng)絡(luò)評論情感分類效果的好壞與文本領(lǐng)域有直接的關(guān)系。在一個領(lǐng)域標(biāo)注的訓(xùn)練集訓(xùn)練的分類器很可能在另一個領(lǐng)域分類效果并不好。所以,有監(jiān)督情感分類方法需要在不同領(lǐng)域標(biāo)注大量不同的訓(xùn)練集,才能取得比較好的分類效果。但是,在眾多領(lǐng)域都標(biāo)注大量訓(xùn)練集是一項十分困難的事情,需要消耗大量的人力物力,已經(jīng)成為有監(jiān)督情感分類的瓶頸。 

    為了解決不同領(lǐng)域都需要標(biāo)注大量不同訓(xùn)練集的問題?;谝?guī)則方法的無監(jiān)督網(wǎng)絡(luò)情感分類越來越受到專家學(xué)者的重視。這類方法主要是采用正負(fù)情感詞典作為種子詞典,在情感詞典中匹配情感詞的極性,然后通過相關(guān)規(guī)則對網(wǎng)絡(luò)評論進(jìn)行分類。其中,HU M和LIU B在研究評論情感分類中利用種子情感詞典來進(jìn)行句子的情感分類。他們分別找到網(wǎng)絡(luò)評論中正向情感詞的個數(shù)和負(fù)向情感詞的個數(shù),然后用正向情感詞個數(shù)減去負(fù)向情感詞個數(shù)。通過比較情感詞個數(shù)的多少來對評論文本進(jìn)行情感分類[5]。文獻(xiàn)[6]提出基于SentiWordNet情感詞典,然后利用句子中的正向情感分?jǐn)?shù)減去負(fù)向情感分?jǐn)?shù)得到的總的分值作為情感分類的標(biāo)準(zhǔn)。KU L W、LIANG Y T等提出了一種基于“字袋”新的情感分類方法,該方法在進(jìn)行情感極性判別的同時,還可以計算主觀文本的情感強度[7]

    另外,最近幾年也出現(xiàn)很多采用文本情感分析方法來預(yù)測股市趨勢的研究成果。目前的大量研究成果表明:人的經(jīng)濟決策很大程度上受到感情因素的影響,通過對人的情感分析,能夠預(yù)測近期的相關(guān)股票指數(shù)、價格波動[8]。例如,BOLLEN等人通過對大量的Twitter消息進(jìn)行情感分析(例如積極、消極、冷靜等),對股票指數(shù)進(jìn)行預(yù)測。實驗數(shù)據(jù)證明通過Twitter上的感情分析對Dow Jones Industrial Average指數(shù)進(jìn)行預(yù)測,準(zhǔn)確率達(dá)到了86.7%。Johan采用通過GPOMS的方法,將人的情緒分為冷靜、警覺、自信、活力、友善、高興等6個維度,通過比較不同維度的感情與股票價格間的格蘭杰因果關(guān)聯(lián)。在2014年,Gang和Tianyi等人進(jìn)一步根據(jù)情感分析,給出了具體的投資策略。他們結(jié)合投資平臺SeekingAlpha以及StackTwits,采用建立情感字典的情感極性分類方法,對相應(yīng)的股票未來價格進(jìn)行預(yù)測分析[9]。而且針對不同的投資需求,給出了相應(yīng)的投資策略。通過8年的投資模擬,最終收入為108%,相比之下S&P 500指數(shù)在這八年間變?yōu)榱?7.8%。

2 股市評論情感分析系統(tǒng)的架構(gòu)設(shè)計

2.1 架構(gòu)設(shè)計

    目前,互聯(lián)網(wǎng)集聚了不同層次用戶對某些股票或股市的評價和趨勢預(yù)測的文本,這些文本包含了用戶的觀點和態(tài)度。因此,通過分析這些股評文本,對某只股評或整個股市漲落趨勢研判具有一定的指導(dǎo)意義。為此,論文設(shè)計了一種基于股市評論無監(jiān)督文本情感分類方法來預(yù)測股市趨勢的分析系統(tǒng)框架,如圖1所示。股市預(yù)測系統(tǒng)整體框架分為5個部分:(1)股評數(shù)據(jù)的采集;(2)股評文本數(shù)據(jù)的清洗與預(yù)處理;(3)股評文本的情感極性檢測;(4)股市趨勢預(yù)測模型;(5)預(yù)測結(jié)果分析。

rgzn1-t1.gif

    其中,股評文本數(shù)據(jù)采集分為兩部分,股評主觀文本數(shù)據(jù)采集和股票歷史價格數(shù)據(jù)的采集。其中,股評文本非結(jié)構(gòu)數(shù)據(jù)的采集主要是通過網(wǎng)絡(luò)主題爬蟲來采集;而股票的歷史價格等結(jié)構(gòu)化數(shù)據(jù)主要是通過調(diào)用Yahoo!Finance API下載。Yahoo!Finance API 提供了一個獲取股票數(shù)據(jù)價格的接口,通過設(shè)置股票名稱,查詢?nèi)掌诘膮?shù)即可獲得相應(yīng)時間內(nèi)的所有股票交易數(shù)據(jù)。

    數(shù)據(jù)清洗和與預(yù)處理主要是針對股評文本的非結(jié)構(gòu)數(shù)據(jù)。清洗主要是對噪聲大的股評文本數(shù)據(jù)進(jìn)行過濾,同時,重點選取股票專業(yè)人士對股市的觀點文本數(shù)據(jù)。預(yù)處理主要是對清洗后的股評文本進(jìn)行信息抽取,主要提出文章id,作者,標(biāo)題,發(fā)表日期,涉及股票,文章內(nèi)容,以及文章的網(wǎng)址信息。

    通過對股評數(shù)據(jù)采集、清洗和預(yù)處理后,分別保存在文件系統(tǒng)(非結(jié)構(gòu)的文本數(shù)據(jù))和關(guān)系數(shù)據(jù)庫(結(jié)構(gòu)化數(shù)據(jù))中。然后,對歷史數(shù)據(jù)的每篇股評文章進(jìn)行情感極性判別,將股評的情感極性判別結(jié)果輸入到股市預(yù)測模型中,計算在指定的時間窗口中某只股票或整個股市的上漲或下降趨勢。最后,結(jié)合股票在一段時間后的實際價格波動趨勢對預(yù)測的準(zhǔn)確率進(jìn)行評測。通過股評的預(yù)測準(zhǔn)確率統(tǒng)計,對每個作者的預(yù)測準(zhǔn)確性進(jìn)行計算。根據(jù)歷史數(shù)據(jù)的預(yù)測準(zhǔn)確性,篩選預(yù)測較準(zhǔn)的作者所撰寫的股票評論,形成閉路分析系統(tǒng),通過優(yōu)化股票文本采集和清洗環(huán)節(jié)的算法,進(jìn)一步提高系統(tǒng)股市預(yù)測的準(zhǔn)確性。

2.2 股評文本情感極性分析方法

    從上述股票趨勢分析系統(tǒng)框架結(jié)果設(shè)計可以看出,系統(tǒng)最重要的模塊之一就是對股票文本數(shù)據(jù)的情感極性分析。論文提出了基于股市領(lǐng)域情感詞典的無監(jiān)督文本極性分析方法。該方法采用句法規(guī)則和情感詞頻統(tǒng)計相結(jié)合的情感極性判別算法。具體算法過程如圖2所示。

rgzn1-t2.gif

    在上述股票文本的情感極性分析方法中,需要區(qū)分股評是針對整個股市的趨勢預(yù)測還是針對某只具體股票趨勢的預(yù)測。因此,在前面的預(yù)處理過程中,會根據(jù)股評文本標(biāo)題中的include,about標(biāo)簽內(nèi)容,獲取股評文本涉及的股票名稱,然后,通過識別的股票名稱對股票文本進(jìn)行段落劃分。劃分方法是將文本中先后出現(xiàn)不同股票名稱之間的文本作為一個具體股票評論的段落,段落股票標(biāo)簽以前一支股票名稱為準(zhǔn)。按此方法,可以將一篇涉及多個股票的股評劃分為多個對應(yīng)單一股票的股票段落。預(yù)處理后的整篇文章被劃分為多個段落,每個段落只對應(yīng)一支具體股票,從而支撐論文對單只股票的分析與預(yù)測。 在股評段落劃分之后,進(jìn)入相應(yīng)的股票文本極性分析階段。具體算法如下:

    (1)統(tǒng)計正負(fù)向詞匯、詞組、句子頻率 

    論文對股票文本段落逐句進(jìn)行正負(fù)項詞匯的詞頻統(tǒng)計。同時,針對常見股市領(lǐng)域詞組,統(tǒng)計特定詞組搭配。通過手工標(biāo)定,將詞組前后兩個詞分別定義正負(fù)向極性。通過負(fù)負(fù)為正的規(guī)則,最后得出詞組感情極性。例如,其中具體加入詞組如下:

    NegativeWords=[′cost′,′expens′,′risk′,′consum′,′loss′,′debt′,′problem′,′concern′,′competitor′,′mortgag′,′liabil′]

    PositiveWords=[′liquid′,′profit′,′capit′,′valu′,′revenu′,′potenti′,′fund′,′earn′,′advantag′,′income′,′dividend′,′aseet′,′interest′,′improve′,′opportun′,′qualiti′,′cap′,′benefit′,′progress′,′yield′,′return′,′margin′,′boost′,′attract′]

    然后,按照句子中的正負(fù)向詞匯數(shù)量以及正負(fù)向詞組數(shù)量的數(shù)量關(guān)系,判斷整句話的情感極性。對于文章整體,通過將詞匯、詞組以及句子的正負(fù)傾向數(shù)相加,根據(jù)式(1)計算出情感分?jǐn)?shù)。

    rgzn1-gs1.gif

其中,Pi和Ni分別代表正負(fù)詞頻。S的正負(fù)值分別代表文本的情感極性,S>0表示情感極性為正,否則為負(fù)。

    (2)檢查否定詞

    如果通過句法分析,檢測到句子中含有以下否定詞的部分,則需要將句子中所有情感極性取反。論文定義的反向詞如下所示:

    NegationWords=[′avoid′,′fail′,′omit′,′neglect′,′unlike′,′unlikely′,′hardly′,′barely′,′no′,′not′,′unless′,′never′,′none′,′nothing′,′havent′,′hasnt′,′hadnt′,′cant′,′couldnt′,′shouldnt′,′wont′,′wouldnt′,′dont′,′doesnt′,′didnt′,′isnt′,′arent′,′aint'] 

    (3)判斷文章是否有結(jié)論性總結(jié)段落

    通過大量實驗數(shù)據(jù)分析發(fā)現(xiàn),許多股評文本在對股票進(jìn)行分析時,往往使用先抑后揚的寫作方式,或者先揚后抑的寫法。此類評論文本的情感極性一般與最后總結(jié)性段落持有相反極性。因此,論文在分析股評文本時需要重點分析總結(jié)性段落。這些總結(jié)性段落有簡單明了的特點,觀點也很直接、鮮明。所以,論文在對股評極性分析時,還需要判斷股評文章是否有結(jié)尾段,如果有結(jié)尾段,就加大權(quán)重來計算結(jié)尾段的情感極性分?jǐn)?shù),把該總結(jié)性段落的情感分?jǐn)?shù)加權(quán)計算到最后的股評情感極性分?jǐn)?shù)中。實驗表明,這樣能有效提高最后的情感分析準(zhǔn)確率。

2.3 股票趨勢的分析模型

    在獲得股評文本情感極性之后,如何進(jìn)一步預(yù)測某些股票在今后的上漲或下跌趨勢?這需要依靠股票趨勢的分析模型,如圖3所示。股票趨勢可能受許多因素的影響。在本文中,重點考慮兩方面因素:一是股票專業(yè)人士的觀點,二是預(yù)測時的時間窗口選擇問題。

rgzn1-t3.gif

    因為不同股評專業(yè)人士對股市知識儲備、對股市信息理解和對股市判別能力的不同,可能造成他們對股票的預(yù)測能力也有差異。因此,論文提出的股票趨勢分析模型引入不同的權(quán)重來區(qū)別不同股票作者的預(yù)測能力差異。通過歷史股評與歷史股票價格的對比,計算股票作者對未來股價變化趨勢預(yù)測的準(zhǔn)確率。篩選預(yù)測準(zhǔn)確率大于50%的股評作者。另外,通過比較股評情感傾向時間序列與股價序列間的皮爾遜因果系數(shù),獲取預(yù)測準(zhǔn)確度最高的預(yù)測時間窗口。將時間窗口t天后的股票價格與股評當(dāng)日的股評價格進(jìn)行比較,判斷股票價格上升或者下降情況,并與股評情感傾向分析進(jìn)行比對。若股評情感傾向性為積極(消極),且股票價格上升(下降)則計預(yù)測正確一次,否則計預(yù)測錯誤一次。如果股評發(fā)表日期不為交易日,則使用過去最近的股票價格為計時價格。若最近的股票價格距離當(dāng)前時間超過三日,或者t至t+3日內(nèi)也不存在股票交易數(shù)據(jù),則舍棄該次預(yù)測。

    股票預(yù)測模型基本思想是:比較情感分析時間序列以及股票價格時間序列間的皮爾遜相關(guān)系數(shù),以及直接比較預(yù)測未來股票變化趨勢與實際變化是否相同。此處只考慮股票趨勢的變化,不考慮價格變化幅度,并且和股評發(fā)表日期的一小段時間后的股票價格波動進(jìn)行對比。這里只考慮價格上升或者下降的趨勢預(yù)測準(zhǔn)確率,對股票價格的具體波動大小暫且不考慮。另一方面,對于股票價格數(shù)據(jù)進(jìn)行篩選后,同樣對股評進(jìn)行情感分析。并且由該情感傾向,預(yù)測一段時間后的股票上升或者下降趨勢。系統(tǒng)通過使用歷史的股票價格數(shù)據(jù)和股票情感極性分析結(jié)果來學(xué)習(xí)最佳預(yù)測時間窗口和不同專業(yè)股評人士的權(quán)重。通過學(xué)習(xí)到根據(jù)不同專業(yè)人士的股評情感分析結(jié)果,采用預(yù)測精度分析函數(shù)F(x)就可以確定某股票在指定的時間窗口下的上漲或下降趨勢。

    rgzn1-gs2.gif

    其中,xi代表專家發(fā)表的股評情感極性(1表示支持漲,-1表示支持跌),wi表示專家股評的權(quán)重。

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)集

    論文采用的股評數(shù)據(jù)來源選擇Seeking Alpha 網(wǎng)站,Seeking Alpha網(wǎng)站創(chuàng)建于2004年,是一個以大眾為基礎(chǔ),為金融市場提供服務(wù)的網(wǎng)站平臺。股票文章內(nèi)容覆蓋了股票、投資基金、投資策略等,內(nèi)容全面廣泛。股票作者主要是一些投資或者企業(yè)專家,且規(guī)模較大;同時,Seeking Alpha上專業(yè)投資人的分析預(yù)測也更加權(quán)威,歷史上曾多次預(yù)測或者推動了股市趨勢。因此,論文選擇從Seeking Alpha網(wǎng)站平臺上2005年至2015年的所有股評數(shù)據(jù)。2005至2014年的股評數(shù)據(jù),在實驗中作為歷史數(shù)據(jù)處理,2015年的股評數(shù)據(jù),在實驗中作為未來預(yù)測數(shù)據(jù)處理。獲取完股評文章后,對數(shù)據(jù)進(jìn)行預(yù)處理,提取文章id、作者、標(biāo)題、發(fā)表日期、涉及股票、文章內(nèi)容以及文章的網(wǎng)址信息。

3.2 實驗結(jié)果分析

    論文通過人為標(biāo)定的方法判斷情感分析的準(zhǔn)確率,標(biāo)定結(jié)果樣例如表1所示。標(biāo)定過程共邀請文本3名情感分析研究方向研究生對隨機抽取的60篇股評文章,240支股票進(jìn)行情感分析。最終,比對人為標(biāo)定結(jié)果與情感分類結(jié)果,情感分析預(yù)測準(zhǔn)確率為81.4%。文獻(xiàn)[8]同樣對股評數(shù)據(jù)進(jìn)行了情感分析,它的分析準(zhǔn)確率最高為84.8%。因此,在情感分析預(yù)測方面,預(yù)測的準(zhǔn)確率已基本達(dá)到要求。

rgzn1-b1.gif

    (1)股票上漲與下跌趨勢預(yù)測精度分析

    根據(jù)股票行業(yè),選取了8個行業(yè)板塊的股票,每類選取了15支股票,進(jìn)行預(yù)測,選取代表股票如表2所示。每支股票用其縮寫表示,此縮寫與Yahoo!Finance上每支股票的標(biāo)識一致。

rgzn1-b2.gif

    通過采用股票歷史價格數(shù)據(jù)與基于股票情感極性分析的預(yù)測結(jié)果進(jìn)行比較分析,計算出股票預(yù)測分析精準(zhǔn)度等指標(biāo)。論文選擇了3個指標(biāo),作為實驗結(jié)果的評判標(biāo)準(zhǔn)。這3類指標(biāo)分別是預(yù)測結(jié)果的準(zhǔn)確率P,評判分類結(jié)果的召回率R以及綜合考量精確率和召回率的F1。實驗結(jié)果如表3所示。從實驗結(jié)果可以看出,預(yù)測性能與股票類別差異不是很大。

rgzn1-b3.gif

    (2)預(yù)測結(jié)果與預(yù)測時間窗口的關(guān)系分析

    根據(jù)網(wǎng)絡(luò)文本情感分析結(jié)果,預(yù)測一段時間后的股價變化。通過歷史數(shù)據(jù)的情感分析時間序列以及股票價格變化序列,在假定選取時間窗口為t后,計算兩者間的皮爾遜關(guān)聯(lián)系數(shù)。論文分別嘗試了時間窗口t=3,7,15,30等多種窗口長度,分別計算出相應(yīng)的皮爾遜系數(shù),以及預(yù)測準(zhǔn)確率,如圖4所示:圖4(a)為皮爾遜系數(shù),圖4(b)為預(yù)測準(zhǔn)確率??梢钥闯?,當(dāng)選取時間窗口t=15時,股評的情緒傾向性與股票價格的變化趨勢關(guān)聯(lián)最大,且預(yù)測準(zhǔn)確率最高。

rgzn1-t4.gif

4 結(jié)論

    論文研究通過分析不同網(wǎng)民發(fā)布股評的情感極性來預(yù)測股票上漲與下跌趨勢。針對情感字典分析對領(lǐng)域依賴性問題,提出了一致綜合金融詞組詞典和結(jié)尾段加權(quán)的情感分析方法,能有效提高情感分析準(zhǔn)確度。另外,論文還提出了一種加窗的股票預(yù)測方法,該方法根據(jù)分析得到的情感分析時間序列,通過比較分析某些股票的歷史價格數(shù)據(jù),計算出預(yù)測事件窗口的最佳值。實驗結(jié)果表明,預(yù)測時間窗口為15天左右,股票價格趨勢變化與股評的情感傾向關(guān)聯(lián)性強。針對特定股票的股票情感分析結(jié)果較于整體股市的評價預(yù)測效果更好些。未來工作可以將股票的金融特點與情感分析的股票預(yù)測性質(zhì)相結(jié)合,發(fā)現(xiàn)更好的預(yù)測方法。

參考文獻(xiàn)

[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC),第40次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R].2017.

[2] 王丙坤,黃永峰.基于多粒度計算和多準(zhǔn)則融合的情感分類[J].清華大學(xué)學(xué)報,2015,55(2):497-502.

[3] LIU B.Sentiment analysis and opinion mining.Synthesis Lectures on Human Language Technologies,2012,5(1).

[4] PANG B,LEE L,VAITHYANATHAN S.Thumbs up?: sentiment classification using machine learning techniques[C].Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10.Association for Computational Linguistics,2002:79-86.

[5] HU M,LIU B.Mining and summarizing ccustomer reviews[C].Proceedings of the Tenth ACM SIGKDD International Conference on Konwledge Discovery and Data Mining,2004:168-177.

[6] OHANA B,TIERNEY B.Sentiment classification of reviews using sentiwordnet[C].Proceedings of the Ninth IT&T Conference,2009.

[7] KU L W,LIANG Y T,CHEN H H.Opinion extraction,summarization and tracking in news and blog corpora[C].AAAI spring symposium: Computational approaches to analyzing weblogs.2010,100107.

[8] SCHUMAKER R P,CHEN H.Textual analysis of stock market prediction using breaking financial news:the AZF in text system[J].ACM Trans. Inf. Syst.,2009,27:1-19.

[9] GILBERT E,KARAHALIOS K.Widespread worry and the stock market[C].Fourth International AAAI Conference on Weblogs and Social Media,2010.



作者信息:

肖  亭1,林  玲2,黃永峰1

(1.清華大學(xué) 電子系,北京100084;2.廣東外語外貿(mào)大學(xué) 金融學(xué)院,廣東 廣州510006)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。