文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.190031
中文引用格式: 肖亭,林玲,黃永峰. 一種基于股票情感分析的股市趨勢(shì)預(yù)測(cè)方法[J].電子技術(shù)應(yīng)用,2019,45(3):13-17.
英文引用格式: Xiao Ting,Lin Ling,Huang Yongfeng. A stock market trend forecasting method based on stock sentiment analysis[J]. Application of Electronic Technique,2019,45(3):13-17.
0 引言
隨著互聯(lián)網(wǎng)技術(shù)及應(yīng)用的飛速發(fā)展,互聯(lián)網(wǎng)用戶人數(shù)在急劇增長(zhǎng)。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第四十次統(tǒng)計(jì)報(bào)告表明[1]:到2017年6月份為止,中國(guó)的互聯(lián)網(wǎng)網(wǎng)民已經(jīng)達(dá)到了7.5億。相比于2016年增加了近2 000萬人。特別是隨著Web2.0技術(shù)的發(fā)展和完善,微博、微信、論壇等新型社交媒體的出現(xiàn),網(wǎng)民可以在這些媒體表達(dá)自己對(duì)某事件、人物和產(chǎn)品的觀點(diǎn)、態(tài)度和看法等?;ヂ?lián)網(wǎng)成為人類有史以來最大的“信息集散地”,也是人們發(fā)表觀點(diǎn)最廣泛的“思想自由地”。因此,分析和掌握這些網(wǎng)絡(luò)評(píng)論中蘊(yùn)含的豐富情感對(duì)預(yù)測(cè)分析具有重要的作用。例如,通過對(duì)在線商城上用戶對(duì)產(chǎn)品的評(píng)論進(jìn)行情感分析,可以讓商家更好地了解商品的優(yōu)缺點(diǎn)以及用戶對(duì)商品的喜好情況,針對(duì)商品存在的缺陷和不足進(jìn)行改進(jìn),提升產(chǎn)品質(zhì)量和價(jià)值。
我國(guó)股票市場(chǎng)經(jīng)過了二十多年的飛速發(fā)展,股市的硬實(shí)力已經(jīng)進(jìn)入國(guó)際先進(jìn)行列,但軟實(shí)力還有待改進(jìn)。例如,投資者不夠重視或無法獲取大盤整體預(yù)期走勢(shì)以及公司主體的發(fā)展趨勢(shì),主要依靠各路小道消息,導(dǎo)致股票市場(chǎng)各類渠道的消息五花八門、真假難辨,對(duì)股票市場(chǎng)產(chǎn)生了一定的負(fù)面影響,而網(wǎng)民對(duì)股市或某只股票的網(wǎng)絡(luò)評(píng)論觀點(diǎn)在很大程度上反映了股市行情,也影響著股市漲跌。因此,如何快速高效地分析網(wǎng)民對(duì)股市態(tài)度和觀點(diǎn)對(duì)股市預(yù)測(cè)具有很大指導(dǎo)意義。特別是隨著最近幾年人工智能技術(shù)的發(fā)展,學(xué)術(shù)界和投資行業(yè)已經(jīng)高度重視采用網(wǎng)絡(luò)股票評(píng)論的情感分析技術(shù)來為股市行情趨勢(shì)預(yù)測(cè)提供信息支撐。
1 相關(guān)研究工作
目前,網(wǎng)絡(luò)文本情感分析方法主要分為兩大途徑,無監(jiān)督情感分析方法和有監(jiān)督情感分析方法[2]。在2002年P(guān)ANG等學(xué)者首次采用電影評(píng)論數(shù)據(jù)建立了使用機(jī)器學(xué)習(xí)的有監(jiān)督情感分類方法。他分別使用了支持向量機(jī)(SVM)、樸素貝葉斯(NB)、最大熵(ME)分類器,二情感分類特征主要采用情感詞頻[3]。實(shí)驗(yàn)表明基于機(jī)器學(xué)習(xí)的有監(jiān)督分類結(jié)果準(zhǔn)確率要高于基于傳統(tǒng)的無監(jiān)督方法。文獻(xiàn)[4]也提出了一種結(jié)合SVM和NB分類器的新模型(NBSVM),這種新的模型在多個(gè)數(shù)據(jù)集都取得了很好的分類效果。有監(jiān)督網(wǎng)絡(luò)評(píng)論情感分類方法是基于標(biāo)注訓(xùn)練集語料來進(jìn)行評(píng)論分類的,而標(biāo)注的語料具有領(lǐng)域依賴性,因此有監(jiān)督網(wǎng)絡(luò)評(píng)論情感分類效果的好壞與文本領(lǐng)域有直接的關(guān)系。在一個(gè)領(lǐng)域標(biāo)注的訓(xùn)練集訓(xùn)練的分類器很可能在另一個(gè)領(lǐng)域分類效果并不好。所以,有監(jiān)督情感分類方法需要在不同領(lǐng)域標(biāo)注大量不同的訓(xùn)練集,才能取得比較好的分類效果。但是,在眾多領(lǐng)域都標(biāo)注大量訓(xùn)練集是一項(xiàng)十分困難的事情,需要消耗大量的人力物力,已經(jīng)成為有監(jiān)督情感分類的瓶頸。
為了解決不同領(lǐng)域都需要標(biāo)注大量不同訓(xùn)練集的問題?;谝?guī)則方法的無監(jiān)督網(wǎng)絡(luò)情感分類越來越受到專家學(xué)者的重視。這類方法主要是采用正負(fù)情感詞典作為種子詞典,在情感詞典中匹配情感詞的極性,然后通過相關(guān)規(guī)則對(duì)網(wǎng)絡(luò)評(píng)論進(jìn)行分類。其中,HU M和LIU B在研究評(píng)論情感分類中利用種子情感詞典來進(jìn)行句子的情感分類。他們分別找到網(wǎng)絡(luò)評(píng)論中正向情感詞的個(gè)數(shù)和負(fù)向情感詞的個(gè)數(shù),然后用正向情感詞個(gè)數(shù)減去負(fù)向情感詞個(gè)數(shù)。通過比較情感詞個(gè)數(shù)的多少來對(duì)評(píng)論文本進(jìn)行情感分類[5]。文獻(xiàn)[6]提出基于SentiWordNet情感詞典,然后利用句子中的正向情感分?jǐn)?shù)減去負(fù)向情感分?jǐn)?shù)得到的總的分值作為情感分類的標(biāo)準(zhǔn)。KU L W、LIANG Y T等提出了一種基于“字袋”新的情感分類方法,該方法在進(jìn)行情感極性判別的同時(shí),還可以計(jì)算主觀文本的情感強(qiáng)度[7]。
另外,最近幾年也出現(xiàn)很多采用文本情感分析方法來預(yù)測(cè)股市趨勢(shì)的研究成果。目前的大量研究成果表明:人的經(jīng)濟(jì)決策很大程度上受到感情因素的影響,通過對(duì)人的情感分析,能夠預(yù)測(cè)近期的相關(guān)股票指數(shù)、價(jià)格波動(dòng)[8]。例如,BOLLEN等人通過對(duì)大量的Twitter消息進(jìn)行情感分析(例如積極、消極、冷靜等),對(duì)股票指數(shù)進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)數(shù)據(jù)證明通過Twitter上的感情分析對(duì)Dow Jones Industrial Average指數(shù)進(jìn)行預(yù)測(cè),準(zhǔn)確率達(dá)到了86.7%。Johan采用通過GPOMS的方法,將人的情緒分為冷靜、警覺、自信、活力、友善、高興等6個(gè)維度,通過比較不同維度的感情與股票價(jià)格間的格蘭杰因果關(guān)聯(lián)。在2014年,Gang和Tianyi等人進(jìn)一步根據(jù)情感分析,給出了具體的投資策略。他們結(jié)合投資平臺(tái)SeekingAlpha以及StackTwits,采用建立情感字典的情感極性分類方法,對(duì)相應(yīng)的股票未來價(jià)格進(jìn)行預(yù)測(cè)分析[9]。而且針對(duì)不同的投資需求,給出了相應(yīng)的投資策略。通過8年的投資模擬,最終收入為108%,相比之下S&P 500指數(shù)在這八年間變?yōu)榱?7.8%。
2 股市評(píng)論情感分析系統(tǒng)的架構(gòu)設(shè)計(jì)
2.1 架構(gòu)設(shè)計(jì)
目前,互聯(lián)網(wǎng)集聚了不同層次用戶對(duì)某些股票或股市的評(píng)價(jià)和趨勢(shì)預(yù)測(cè)的文本,這些文本包含了用戶的觀點(diǎn)和態(tài)度。因此,通過分析這些股評(píng)文本,對(duì)某只股評(píng)或整個(gè)股市漲落趨勢(shì)研判具有一定的指導(dǎo)意義。為此,論文設(shè)計(jì)了一種基于股市評(píng)論無監(jiān)督文本情感分類方法來預(yù)測(cè)股市趨勢(shì)的分析系統(tǒng)框架,如圖1所示。股市預(yù)測(cè)系統(tǒng)整體框架分為5個(gè)部分:(1)股評(píng)數(shù)據(jù)的采集;(2)股評(píng)文本數(shù)據(jù)的清洗與預(yù)處理;(3)股評(píng)文本的情感極性檢測(cè);(4)股市趨勢(shì)預(yù)測(cè)模型;(5)預(yù)測(cè)結(jié)果分析。
其中,股評(píng)文本數(shù)據(jù)采集分為兩部分,股評(píng)主觀文本數(shù)據(jù)采集和股票歷史價(jià)格數(shù)據(jù)的采集。其中,股評(píng)文本非結(jié)構(gòu)數(shù)據(jù)的采集主要是通過網(wǎng)絡(luò)主題爬蟲來采集;而股票的歷史價(jià)格等結(jié)構(gòu)化數(shù)據(jù)主要是通過調(diào)用Yahoo!Finance API下載。Yahoo!Finance API 提供了一個(gè)獲取股票數(shù)據(jù)價(jià)格的接口,通過設(shè)置股票名稱,查詢?nèi)掌诘膮?shù)即可獲得相應(yīng)時(shí)間內(nèi)的所有股票交易數(shù)據(jù)。
數(shù)據(jù)清洗和與預(yù)處理主要是針對(duì)股評(píng)文本的非結(jié)構(gòu)數(shù)據(jù)。清洗主要是對(duì)噪聲大的股評(píng)文本數(shù)據(jù)進(jìn)行過濾,同時(shí),重點(diǎn)選取股票專業(yè)人士對(duì)股市的觀點(diǎn)文本數(shù)據(jù)。預(yù)處理主要是對(duì)清洗后的股評(píng)文本進(jìn)行信息抽取,主要提出文章id,作者,標(biāo)題,發(fā)表日期,涉及股票,文章內(nèi)容,以及文章的網(wǎng)址信息。
通過對(duì)股評(píng)數(shù)據(jù)采集、清洗和預(yù)處理后,分別保存在文件系統(tǒng)(非結(jié)構(gòu)的文本數(shù)據(jù))和關(guān)系數(shù)據(jù)庫(結(jié)構(gòu)化數(shù)據(jù))中。然后,對(duì)歷史數(shù)據(jù)的每篇股評(píng)文章進(jìn)行情感極性判別,將股評(píng)的情感極性判別結(jié)果輸入到股市預(yù)測(cè)模型中,計(jì)算在指定的時(shí)間窗口中某只股票或整個(gè)股市的上漲或下降趨勢(shì)。最后,結(jié)合股票在一段時(shí)間后的實(shí)際價(jià)格波動(dòng)趨勢(shì)對(duì)預(yù)測(cè)的準(zhǔn)確率進(jìn)行評(píng)測(cè)。通過股評(píng)的預(yù)測(cè)準(zhǔn)確率統(tǒng)計(jì),對(duì)每個(gè)作者的預(yù)測(cè)準(zhǔn)確性進(jìn)行計(jì)算。根據(jù)歷史數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確性,篩選預(yù)測(cè)較準(zhǔn)的作者所撰寫的股票評(píng)論,形成閉路分析系統(tǒng),通過優(yōu)化股票文本采集和清洗環(huán)節(jié)的算法,進(jìn)一步提高系統(tǒng)股市預(yù)測(cè)的準(zhǔn)確性。
2.2 股評(píng)文本情感極性分析方法
從上述股票趨勢(shì)分析系統(tǒng)框架結(jié)果設(shè)計(jì)可以看出,系統(tǒng)最重要的模塊之一就是對(duì)股票文本數(shù)據(jù)的情感極性分析。論文提出了基于股市領(lǐng)域情感詞典的無監(jiān)督文本極性分析方法。該方法采用句法規(guī)則和情感詞頻統(tǒng)計(jì)相結(jié)合的情感極性判別算法。具體算法過程如圖2所示。
在上述股票文本的情感極性分析方法中,需要區(qū)分股評(píng)是針對(duì)整個(gè)股市的趨勢(shì)預(yù)測(cè)還是針對(duì)某只具體股票趨勢(shì)的預(yù)測(cè)。因此,在前面的預(yù)處理過程中,會(huì)根據(jù)股評(píng)文本標(biāo)題中的include,about標(biāo)簽內(nèi)容,獲取股評(píng)文本涉及的股票名稱,然后,通過識(shí)別的股票名稱對(duì)股票文本進(jìn)行段落劃分。劃分方法是將文本中先后出現(xiàn)不同股票名稱之間的文本作為一個(gè)具體股票評(píng)論的段落,段落股票標(biāo)簽以前一支股票名稱為準(zhǔn)。按此方法,可以將一篇涉及多個(gè)股票的股評(píng)劃分為多個(gè)對(duì)應(yīng)單一股票的股票段落。預(yù)處理后的整篇文章被劃分為多個(gè)段落,每個(gè)段落只對(duì)應(yīng)一支具體股票,從而支撐論文對(duì)單只股票的分析與預(yù)測(cè)。 在股評(píng)段落劃分之后,進(jìn)入相應(yīng)的股票文本極性分析階段。具體算法如下:
(1)統(tǒng)計(jì)正負(fù)向詞匯、詞組、句子頻率
論文對(duì)股票文本段落逐句進(jìn)行正負(fù)項(xiàng)詞匯的詞頻統(tǒng)計(jì)。同時(shí),針對(duì)常見股市領(lǐng)域詞組,統(tǒng)計(jì)特定詞組搭配。通過手工標(biāo)定,將詞組前后兩個(gè)詞分別定義正負(fù)向極性。通過負(fù)負(fù)為正的規(guī)則,最后得出詞組感情極性。例如,其中具體加入詞組如下:
NegativeWords=[′cost′,′expens′,′risk′,′consum′,′loss′,′debt′,′problem′,′concern′,′competitor′,′mortgag′,′liabil′]
PositiveWords=[′liquid′,′profit′,′capit′,′valu′,′revenu′,′potenti′,′fund′,′earn′,′advantag′,′income′,′dividend′,′aseet′,′interest′,′improve′,′opportun′,′qualiti′,′cap′,′benefit′,′progress′,′yield′,′return′,′margin′,′boost′,′attract′]
然后,按照句子中的正負(fù)向詞匯數(shù)量以及正負(fù)向詞組數(shù)量的數(shù)量關(guān)系,判斷整句話的情感極性。對(duì)于文章整體,通過將詞匯、詞組以及句子的正負(fù)傾向數(shù)相加,根據(jù)式(1)計(jì)算出情感分?jǐn)?shù)。
其中,Pi和Ni分別代表正負(fù)詞頻。S的正負(fù)值分別代表文本的情感極性,S>0表示情感極性為正,否則為負(fù)。
(2)檢查否定詞
如果通過句法分析,檢測(cè)到句子中含有以下否定詞的部分,則需要將句子中所有情感極性取反。論文定義的反向詞如下所示:
NegationWords=[′avoid′,′fail′,′omit′,′neglect′,′unlike′,′unlikely′,′hardly′,′barely′,′no′,′not′,′unless′,′never′,′none′,′nothing′,′havent′,′hasnt′,′hadnt′,′cant′,′couldnt′,′shouldnt′,′wont′,′wouldnt′,′dont′,′doesnt′,′didnt′,′isnt′,′arent′,′aint']
(3)判斷文章是否有結(jié)論性總結(jié)段落
通過大量實(shí)驗(yàn)數(shù)據(jù)分析發(fā)現(xiàn),許多股評(píng)文本在對(duì)股票進(jìn)行分析時(shí),往往使用先抑后揚(yáng)的寫作方式,或者先揚(yáng)后抑的寫法。此類評(píng)論文本的情感極性一般與最后總結(jié)性段落持有相反極性。因此,論文在分析股評(píng)文本時(shí)需要重點(diǎn)分析總結(jié)性段落。這些總結(jié)性段落有簡(jiǎn)單明了的特點(diǎn),觀點(diǎn)也很直接、鮮明。所以,論文在對(duì)股評(píng)極性分析時(shí),還需要判斷股評(píng)文章是否有結(jié)尾段,如果有結(jié)尾段,就加大權(quán)重來計(jì)算結(jié)尾段的情感極性分?jǐn)?shù),把該總結(jié)性段落的情感分?jǐn)?shù)加權(quán)計(jì)算到最后的股評(píng)情感極性分?jǐn)?shù)中。實(shí)驗(yàn)表明,這樣能有效提高最后的情感分析準(zhǔn)確率。
2.3 股票趨勢(shì)的分析模型
在獲得股評(píng)文本情感極性之后,如何進(jìn)一步預(yù)測(cè)某些股票在今后的上漲或下跌趨勢(shì)?這需要依靠股票趨勢(shì)的分析模型,如圖3所示。股票趨勢(shì)可能受許多因素的影響。在本文中,重點(diǎn)考慮兩方面因素:一是股票專業(yè)人士的觀點(diǎn),二是預(yù)測(cè)時(shí)的時(shí)間窗口選擇問題。
因?yàn)椴煌稍u(píng)專業(yè)人士對(duì)股市知識(shí)儲(chǔ)備、對(duì)股市信息理解和對(duì)股市判別能力的不同,可能造成他們對(duì)股票的預(yù)測(cè)能力也有差異。因此,論文提出的股票趨勢(shì)分析模型引入不同的權(quán)重來區(qū)別不同股票作者的預(yù)測(cè)能力差異。通過歷史股評(píng)與歷史股票價(jià)格的對(duì)比,計(jì)算股票作者對(duì)未來股價(jià)變化趨勢(shì)預(yù)測(cè)的準(zhǔn)確率。篩選預(yù)測(cè)準(zhǔn)確率大于50%的股評(píng)作者。另外,通過比較股評(píng)情感傾向時(shí)間序列與股價(jià)序列間的皮爾遜因果系數(shù),獲取預(yù)測(cè)準(zhǔn)確度最高的預(yù)測(cè)時(shí)間窗口。將時(shí)間窗口t天后的股票價(jià)格與股評(píng)當(dāng)日的股評(píng)價(jià)格進(jìn)行比較,判斷股票價(jià)格上升或者下降情況,并與股評(píng)情感傾向分析進(jìn)行比對(duì)。若股評(píng)情感傾向性為積極(消極),且股票價(jià)格上升(下降)則計(jì)預(yù)測(cè)正確一次,否則計(jì)預(yù)測(cè)錯(cuò)誤一次。如果股評(píng)發(fā)表日期不為交易日,則使用過去最近的股票價(jià)格為計(jì)時(shí)價(jià)格。若最近的股票價(jià)格距離當(dāng)前時(shí)間超過三日,或者t至t+3日內(nèi)也不存在股票交易數(shù)據(jù),則舍棄該次預(yù)測(cè)。
股票預(yù)測(cè)模型基本思想是:比較情感分析時(shí)間序列以及股票價(jià)格時(shí)間序列間的皮爾遜相關(guān)系數(shù),以及直接比較預(yù)測(cè)未來股票變化趨勢(shì)與實(shí)際變化是否相同。此處只考慮股票趨勢(shì)的變化,不考慮價(jià)格變化幅度,并且和股評(píng)發(fā)表日期的一小段時(shí)間后的股票價(jià)格波動(dòng)進(jìn)行對(duì)比。這里只考慮價(jià)格上升或者下降的趨勢(shì)預(yù)測(cè)準(zhǔn)確率,對(duì)股票價(jià)格的具體波動(dòng)大小暫且不考慮。另一方面,對(duì)于股票價(jià)格數(shù)據(jù)進(jìn)行篩選后,同樣對(duì)股評(píng)進(jìn)行情感分析。并且由該情感傾向,預(yù)測(cè)一段時(shí)間后的股票上升或者下降趨勢(shì)。系統(tǒng)通過使用歷史的股票價(jià)格數(shù)據(jù)和股票情感極性分析結(jié)果來學(xué)習(xí)最佳預(yù)測(cè)時(shí)間窗口和不同專業(yè)股評(píng)人士的權(quán)重。通過學(xué)習(xí)到根據(jù)不同專業(yè)人士的股評(píng)情感分析結(jié)果,采用預(yù)測(cè)精度分析函數(shù)F(x)就可以確定某股票在指定的時(shí)間窗口下的上漲或下降趨勢(shì)。
其中,xi代表專家發(fā)表的股評(píng)情感極性(1表示支持漲,-1表示支持跌),wi表示專家股評(píng)的權(quán)重。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
論文采用的股評(píng)數(shù)據(jù)來源選擇Seeking Alpha 網(wǎng)站,Seeking Alpha網(wǎng)站創(chuàng)建于2004年,是一個(gè)以大眾為基礎(chǔ),為金融市場(chǎng)提供服務(wù)的網(wǎng)站平臺(tái)。股票文章內(nèi)容覆蓋了股票、投資基金、投資策略等,內(nèi)容全面廣泛。股票作者主要是一些投資或者企業(yè)專家,且規(guī)模較大;同時(shí),Seeking Alpha上專業(yè)投資人的分析預(yù)測(cè)也更加權(quán)威,歷史上曾多次預(yù)測(cè)或者推動(dòng)了股市趨勢(shì)。因此,論文選擇從Seeking Alpha網(wǎng)站平臺(tái)上2005年至2015年的所有股評(píng)數(shù)據(jù)。2005至2014年的股評(píng)數(shù)據(jù),在實(shí)驗(yàn)中作為歷史數(shù)據(jù)處理,2015年的股評(píng)數(shù)據(jù),在實(shí)驗(yàn)中作為未來預(yù)測(cè)數(shù)據(jù)處理。獲取完股評(píng)文章后,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提取文章id、作者、標(biāo)題、發(fā)表日期、涉及股票、文章內(nèi)容以及文章的網(wǎng)址信息。
3.2 實(shí)驗(yàn)結(jié)果分析
論文通過人為標(biāo)定的方法判斷情感分析的準(zhǔn)確率,標(biāo)定結(jié)果樣例如表1所示。標(biāo)定過程共邀請(qǐng)文本3名情感分析研究方向研究生對(duì)隨機(jī)抽取的60篇股評(píng)文章,240支股票進(jìn)行情感分析。最終,比對(duì)人為標(biāo)定結(jié)果與情感分類結(jié)果,情感分析預(yù)測(cè)準(zhǔn)確率為81.4%。文獻(xiàn)[8]同樣對(duì)股評(píng)數(shù)據(jù)進(jìn)行了情感分析,它的分析準(zhǔn)確率最高為84.8%。因此,在情感分析預(yù)測(cè)方面,預(yù)測(cè)的準(zhǔn)確率已基本達(dá)到要求。
(1)股票上漲與下跌趨勢(shì)預(yù)測(cè)精度分析
根據(jù)股票行業(yè),選取了8個(gè)行業(yè)板塊的股票,每類選取了15支股票,進(jìn)行預(yù)測(cè),選取代表股票如表2所示。每支股票用其縮寫表示,此縮寫與Yahoo!Finance上每支股票的標(biāo)識(shí)一致。
通過采用股票歷史價(jià)格數(shù)據(jù)與基于股票情感極性分析的預(yù)測(cè)結(jié)果進(jìn)行比較分析,計(jì)算出股票預(yù)測(cè)分析精準(zhǔn)度等指標(biāo)。論文選擇了3個(gè)指標(biāo),作為實(shí)驗(yàn)結(jié)果的評(píng)判標(biāo)準(zhǔn)。這3類指標(biāo)分別是預(yù)測(cè)結(jié)果的準(zhǔn)確率P,評(píng)判分類結(jié)果的召回率R以及綜合考量精確率和召回率的F1。實(shí)驗(yàn)結(jié)果如表3所示。從實(shí)驗(yàn)結(jié)果可以看出,預(yù)測(cè)性能與股票類別差異不是很大。
(2)預(yù)測(cè)結(jié)果與預(yù)測(cè)時(shí)間窗口的關(guān)系分析
根據(jù)網(wǎng)絡(luò)文本情感分析結(jié)果,預(yù)測(cè)一段時(shí)間后的股價(jià)變化。通過歷史數(shù)據(jù)的情感分析時(shí)間序列以及股票價(jià)格變化序列,在假定選取時(shí)間窗口為t后,計(jì)算兩者間的皮爾遜關(guān)聯(lián)系數(shù)。論文分別嘗試了時(shí)間窗口t=3,7,15,30等多種窗口長(zhǎng)度,分別計(jì)算出相應(yīng)的皮爾遜系數(shù),以及預(yù)測(cè)準(zhǔn)確率,如圖4所示:圖4(a)為皮爾遜系數(shù),圖4(b)為預(yù)測(cè)準(zhǔn)確率??梢钥闯?,當(dāng)選取時(shí)間窗口t=15時(shí),股評(píng)的情緒傾向性與股票價(jià)格的變化趨勢(shì)關(guān)聯(lián)最大,且預(yù)測(cè)準(zhǔn)確率最高。
4 結(jié)論
論文研究通過分析不同網(wǎng)民發(fā)布股評(píng)的情感極性來預(yù)測(cè)股票上漲與下跌趨勢(shì)。針對(duì)情感字典分析對(duì)領(lǐng)域依賴性問題,提出了一致綜合金融詞組詞典和結(jié)尾段加權(quán)的情感分析方法,能有效提高情感分析準(zhǔn)確度。另外,論文還提出了一種加窗的股票預(yù)測(cè)方法,該方法根據(jù)分析得到的情感分析時(shí)間序列,通過比較分析某些股票的歷史價(jià)格數(shù)據(jù),計(jì)算出預(yù)測(cè)事件窗口的最佳值。實(shí)驗(yàn)結(jié)果表明,預(yù)測(cè)時(shí)間窗口為15天左右,股票價(jià)格趨勢(shì)變化與股評(píng)的情感傾向關(guān)聯(lián)性強(qiáng)。針對(duì)特定股票的股票情感分析結(jié)果較于整體股市的評(píng)價(jià)預(yù)測(cè)效果更好些。未來工作可以將股票的金融特點(diǎn)與情感分析的股票預(yù)測(cè)性質(zhì)相結(jié)合,發(fā)現(xiàn)更好的預(yù)測(cè)方法。
參考文獻(xiàn)
[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC),第40次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].2017.
[2] 王丙坤,黃永峰.基于多粒度計(jì)算和多準(zhǔn)則融合的情感分類[J].清華大學(xué)學(xué)報(bào),2015,55(2):497-502.
[3] LIU B.Sentiment analysis and opinion mining.Synthesis Lectures on Human Language Technologies,2012,5(1).
[4] PANG B,LEE L,VAITHYANATHAN S.Thumbs up?: sentiment classification using machine learning techniques[C].Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10.Association for Computational Linguistics,2002:79-86.
[5] HU M,LIU B.Mining and summarizing ccustomer reviews[C].Proceedings of the Tenth ACM SIGKDD International Conference on Konwledge Discovery and Data Mining,2004:168-177.
[6] OHANA B,TIERNEY B.Sentiment classification of reviews using sentiwordnet[C].Proceedings of the Ninth IT&T Conference,2009.
[7] KU L W,LIANG Y T,CHEN H H.Opinion extraction,summarization and tracking in news and blog corpora[C].AAAI spring symposium: Computational approaches to analyzing weblogs.2010,100107.
[8] SCHUMAKER R P,CHEN H.Textual analysis of stock market prediction using breaking financial news:the AZF in text system[J].ACM Trans. Inf. Syst.,2009,27:1-19.
[9] GILBERT E,KARAHALIOS K.Widespread worry and the stock market[C].Fourth International AAAI Conference on Weblogs and Social Media,2010.
作者信息:
肖 亭1,林 玲2,黃永峰1
(1.清華大學(xué) 電子系,北京100084;2.廣東外語外貿(mào)大學(xué) 金融學(xué)院,廣東 廣州510006)