《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計(jì)應(yīng)用 > 一種基于股票情感分析的股市趨勢(shì)預(yù)測(cè)方法
一種基于股票情感分析的股市趨勢(shì)預(yù)測(cè)方法
2019年電子技術(shù)應(yīng)用第3期
肖 亭1,林 玲2,黃永峰1
1.清華大學(xué) 電子系,北京100084;2.廣東外語外貿(mào)大學(xué) 金融學(xué)院,廣東 廣州510006
摘要: 隨著互聯(lián)網(wǎng)應(yīng)用的飛速發(fā)展和用戶人數(shù)的急劇增長(zhǎng),股市評(píng)論與觀點(diǎn)在很大程度上反映了股市行情,也影響著股市漲跌。因此,如何快速高效地分析到網(wǎng)民對(duì)股市的態(tài)度和觀點(diǎn),對(duì)股市預(yù)測(cè)具有很大指導(dǎo)意義。論文研究通過分析不同專業(yè)人士發(fā)布股評(píng)的情感極性來預(yù)測(cè)股票上漲與下跌趨勢(shì)。提出了一種綜合金融詞組詞典和結(jié)尾段加權(quán)的情感分析方法,能解決情感字典分析方法對(duì)領(lǐng)域依賴性問題,有效地提高了情感分析準(zhǔn)確度。另外,論文還提出了一種加窗的股票預(yù)測(cè)模型,可用于分析預(yù)測(cè)事件窗口的最佳值。實(shí)驗(yàn)結(jié)果表明,基于股評(píng)情感分析來預(yù)測(cè)特定股票上漲或下跌趨勢(shì)具有較好效果。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.190031
中文引用格式: 肖亭,林玲,黃永峰. 一種基于股票情感分析的股市趨勢(shì)預(yù)測(cè)方法[J].電子技術(shù)應(yīng)用,2019,45(3):13-17.
英文引用格式: Xiao Ting,Lin Ling,Huang Yongfeng. A stock market trend forecasting method based on stock sentiment analysis[J]. Application of Electronic Technique,2019,45(3):13-17.
A stock market trend forecasting method based on stock sentiment analysis
Xiao Ting1,Lin Ling2,Huang Yongfeng1
1.Department of Electronic Engineering,Tsinghua University,Beijing 100084,China; 2.School of Finance,Guangdong University of Foreign Studies,Guangzhou 510006,China
Abstract: With the rapid development of Internet applications and the rapid growth of users , the reviews and opinions of stock market largely reflect the quotation of the stock market,simultaneously it affects the ups and downs of the stock market. Therefore, how to quickly and efficiently analyze the attitudes and opinions of netizens to the stock market,which,this question plays important role in guiding us to predict the stock market. The thesis studies the rising and falling trend of stocks by analyzing the emotional polarity of different professional issuing stocks. This paper proposes a sentiment analysis method based on a dictionary of consistent integrated financial phrases and weighted at the end of paragraph, which can solve the dependency problem of sentiment dictionary on the domain,and it can effectively improve the accuracy of sentiment analysis. In addition, this paper also proposed a windowed stock prediction model, which can be used to analyze the optimal value of the forecast event window. The experimental results shows that it will be better to predict the rising or falling trend of a particular stock just based on the stock market sentiment analysis.
Key words : analysis of sentiment;stock assessment;prediction model;emotional dictionary

0 引言

    隨著互聯(lián)網(wǎng)技術(shù)及應(yīng)用的飛速發(fā)展,互聯(lián)網(wǎng)用戶人數(shù)在急劇增長(zhǎng)。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第四十次統(tǒng)計(jì)報(bào)告表明[1]:到2017年6月份為止,中國(guó)的互聯(lián)網(wǎng)網(wǎng)民已經(jīng)達(dá)到了7.5億。相比于2016年增加了近2 000萬人。特別是隨著Web2.0技術(shù)的發(fā)展和完善,微博、微信、論壇等新型社交媒體的出現(xiàn),網(wǎng)民可以在這些媒體表達(dá)自己對(duì)某事件、人物和產(chǎn)品的觀點(diǎn)、態(tài)度和看法等?;ヂ?lián)網(wǎng)成為人類有史以來最大的“信息集散地”,也是人們發(fā)表觀點(diǎn)最廣泛的“思想自由地”。因此,分析和掌握這些網(wǎng)絡(luò)評(píng)論中蘊(yùn)含的豐富情感對(duì)預(yù)測(cè)分析具有重要的作用。例如,通過對(duì)在線商城上用戶對(duì)產(chǎn)品的評(píng)論進(jìn)行情感分析,可以讓商家更好地了解商品的優(yōu)缺點(diǎn)以及用戶對(duì)商品的喜好情況,針對(duì)商品存在的缺陷和不足進(jìn)行改進(jìn),提升產(chǎn)品質(zhì)量和價(jià)值。

    我國(guó)股票市場(chǎng)經(jīng)過了二十多年的飛速發(fā)展,股市的硬實(shí)力已經(jīng)進(jìn)入國(guó)際先進(jìn)行列,但軟實(shí)力還有待改進(jìn)。例如,投資者不夠重視或無法獲取大盤整體預(yù)期走勢(shì)以及公司主體的發(fā)展趨勢(shì),主要依靠各路小道消息,導(dǎo)致股票市場(chǎng)各類渠道的消息五花八門、真假難辨,對(duì)股票市場(chǎng)產(chǎn)生了一定的負(fù)面影響,而網(wǎng)民對(duì)股市或某只股票的網(wǎng)絡(luò)評(píng)論觀點(diǎn)在很大程度上反映了股市行情,也影響著股市漲跌。因此,如何快速高效地分析網(wǎng)民對(duì)股市態(tài)度和觀點(diǎn)對(duì)股市預(yù)測(cè)具有很大指導(dǎo)意義。特別是隨著最近幾年人工智能技術(shù)的發(fā)展,學(xué)術(shù)界和投資行業(yè)已經(jīng)高度重視采用網(wǎng)絡(luò)股票評(píng)論的情感分析技術(shù)來為股市行情趨勢(shì)預(yù)測(cè)提供信息支撐。

1 相關(guān)研究工作

    目前,網(wǎng)絡(luò)文本情感分析方法主要分為兩大途徑,無監(jiān)督情感分析方法和有監(jiān)督情感分析方法[2]。在2002年P(guān)ANG等學(xué)者首次采用電影評(píng)論數(shù)據(jù)建立了使用機(jī)器學(xué)習(xí)的有監(jiān)督情感分類方法。他分別使用了支持向量機(jī)(SVM)、樸素貝葉斯(NB)、最大熵(ME)分類器,二情感分類特征主要采用情感詞頻[3]。實(shí)驗(yàn)表明基于機(jī)器學(xué)習(xí)的有監(jiān)督分類結(jié)果準(zhǔn)確率要高于基于傳統(tǒng)的無監(jiān)督方法。文獻(xiàn)[4]也提出了一種結(jié)合SVM和NB分類器的新模型(NBSVM),這種新的模型在多個(gè)數(shù)據(jù)集都取得了很好的分類效果。有監(jiān)督網(wǎng)絡(luò)評(píng)論情感分類方法是基于標(biāo)注訓(xùn)練集語料來進(jìn)行評(píng)論分類的,而標(biāo)注的語料具有領(lǐng)域依賴性,因此有監(jiān)督網(wǎng)絡(luò)評(píng)論情感分類效果的好壞與文本領(lǐng)域有直接的關(guān)系。在一個(gè)領(lǐng)域標(biāo)注的訓(xùn)練集訓(xùn)練的分類器很可能在另一個(gè)領(lǐng)域分類效果并不好。所以,有監(jiān)督情感分類方法需要在不同領(lǐng)域標(biāo)注大量不同的訓(xùn)練集,才能取得比較好的分類效果。但是,在眾多領(lǐng)域都標(biāo)注大量訓(xùn)練集是一項(xiàng)十分困難的事情,需要消耗大量的人力物力,已經(jīng)成為有監(jiān)督情感分類的瓶頸。 

    為了解決不同領(lǐng)域都需要標(biāo)注大量不同訓(xùn)練集的問題?;谝?guī)則方法的無監(jiān)督網(wǎng)絡(luò)情感分類越來越受到專家學(xué)者的重視。這類方法主要是采用正負(fù)情感詞典作為種子詞典,在情感詞典中匹配情感詞的極性,然后通過相關(guān)規(guī)則對(duì)網(wǎng)絡(luò)評(píng)論進(jìn)行分類。其中,HU M和LIU B在研究評(píng)論情感分類中利用種子情感詞典來進(jìn)行句子的情感分類。他們分別找到網(wǎng)絡(luò)評(píng)論中正向情感詞的個(gè)數(shù)和負(fù)向情感詞的個(gè)數(shù),然后用正向情感詞個(gè)數(shù)減去負(fù)向情感詞個(gè)數(shù)。通過比較情感詞個(gè)數(shù)的多少來對(duì)評(píng)論文本進(jìn)行情感分類[5]。文獻(xiàn)[6]提出基于SentiWordNet情感詞典,然后利用句子中的正向情感分?jǐn)?shù)減去負(fù)向情感分?jǐn)?shù)得到的總的分值作為情感分類的標(biāo)準(zhǔn)。KU L W、LIANG Y T等提出了一種基于“字袋”新的情感分類方法,該方法在進(jìn)行情感極性判別的同時(shí),還可以計(jì)算主觀文本的情感強(qiáng)度[7]。

    另外,最近幾年也出現(xiàn)很多采用文本情感分析方法來預(yù)測(cè)股市趨勢(shì)的研究成果。目前的大量研究成果表明:人的經(jīng)濟(jì)決策很大程度上受到感情因素的影響,通過對(duì)人的情感分析,能夠預(yù)測(cè)近期的相關(guān)股票指數(shù)、價(jià)格波動(dòng)[8]。例如,BOLLEN等人通過對(duì)大量的Twitter消息進(jìn)行情感分析(例如積極、消極、冷靜等),對(duì)股票指數(shù)進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)數(shù)據(jù)證明通過Twitter上的感情分析對(duì)Dow Jones Industrial Average指數(shù)進(jìn)行預(yù)測(cè),準(zhǔn)確率達(dá)到了86.7%。Johan采用通過GPOMS的方法,將人的情緒分為冷靜、警覺、自信、活力、友善、高興等6個(gè)維度,通過比較不同維度的感情與股票價(jià)格間的格蘭杰因果關(guān)聯(lián)。在2014年,Gang和Tianyi等人進(jìn)一步根據(jù)情感分析,給出了具體的投資策略。他們結(jié)合投資平臺(tái)SeekingAlpha以及StackTwits,采用建立情感字典的情感極性分類方法,對(duì)相應(yīng)的股票未來價(jià)格進(jìn)行預(yù)測(cè)分析[9]。而且針對(duì)不同的投資需求,給出了相應(yīng)的投資策略。通過8年的投資模擬,最終收入為108%,相比之下S&P 500指數(shù)在這八年間變?yōu)榱?7.8%。

2 股市評(píng)論情感分析系統(tǒng)的架構(gòu)設(shè)計(jì)

2.1 架構(gòu)設(shè)計(jì)

    目前,互聯(lián)網(wǎng)集聚了不同層次用戶對(duì)某些股票或股市的評(píng)價(jià)和趨勢(shì)預(yù)測(cè)的文本,這些文本包含了用戶的觀點(diǎn)和態(tài)度。因此,通過分析這些股評(píng)文本,對(duì)某只股評(píng)或整個(gè)股市漲落趨勢(shì)研判具有一定的指導(dǎo)意義。為此,論文設(shè)計(jì)了一種基于股市評(píng)論無監(jiān)督文本情感分類方法來預(yù)測(cè)股市趨勢(shì)的分析系統(tǒng)框架,如圖1所示。股市預(yù)測(cè)系統(tǒng)整體框架分為5個(gè)部分:(1)股評(píng)數(shù)據(jù)的采集;(2)股評(píng)文本數(shù)據(jù)的清洗與預(yù)處理;(3)股評(píng)文本的情感極性檢測(cè);(4)股市趨勢(shì)預(yù)測(cè)模型;(5)預(yù)測(cè)結(jié)果分析。

rgzn1-t1.gif

    其中,股評(píng)文本數(shù)據(jù)采集分為兩部分,股評(píng)主觀文本數(shù)據(jù)采集和股票歷史價(jià)格數(shù)據(jù)的采集。其中,股評(píng)文本非結(jié)構(gòu)數(shù)據(jù)的采集主要是通過網(wǎng)絡(luò)主題爬蟲來采集;而股票的歷史價(jià)格等結(jié)構(gòu)化數(shù)據(jù)主要是通過調(diào)用Yahoo!Finance API下載。Yahoo!Finance API 提供了一個(gè)獲取股票數(shù)據(jù)價(jià)格的接口,通過設(shè)置股票名稱,查詢?nèi)掌诘膮?shù)即可獲得相應(yīng)時(shí)間內(nèi)的所有股票交易數(shù)據(jù)。

    數(shù)據(jù)清洗和與預(yù)處理主要是針對(duì)股評(píng)文本的非結(jié)構(gòu)數(shù)據(jù)。清洗主要是對(duì)噪聲大的股評(píng)文本數(shù)據(jù)進(jìn)行過濾,同時(shí),重點(diǎn)選取股票專業(yè)人士對(duì)股市的觀點(diǎn)文本數(shù)據(jù)。預(yù)處理主要是對(duì)清洗后的股評(píng)文本進(jìn)行信息抽取,主要提出文章id,作者,標(biāo)題,發(fā)表日期,涉及股票,文章內(nèi)容,以及文章的網(wǎng)址信息。

    通過對(duì)股評(píng)數(shù)據(jù)采集、清洗和預(yù)處理后,分別保存在文件系統(tǒng)(非結(jié)構(gòu)的文本數(shù)據(jù))和關(guān)系數(shù)據(jù)庫(結(jié)構(gòu)化數(shù)據(jù))中。然后,對(duì)歷史數(shù)據(jù)的每篇股評(píng)文章進(jìn)行情感極性判別,將股評(píng)的情感極性判別結(jié)果輸入到股市預(yù)測(cè)模型中,計(jì)算在指定的時(shí)間窗口中某只股票或整個(gè)股市的上漲或下降趨勢(shì)。最后,結(jié)合股票在一段時(shí)間后的實(shí)際價(jià)格波動(dòng)趨勢(shì)對(duì)預(yù)測(cè)的準(zhǔn)確率進(jìn)行評(píng)測(cè)。通過股評(píng)的預(yù)測(cè)準(zhǔn)確率統(tǒng)計(jì),對(duì)每個(gè)作者的預(yù)測(cè)準(zhǔn)確性進(jìn)行計(jì)算。根據(jù)歷史數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確性,篩選預(yù)測(cè)較準(zhǔn)的作者所撰寫的股票評(píng)論,形成閉路分析系統(tǒng),通過優(yōu)化股票文本采集和清洗環(huán)節(jié)的算法,進(jìn)一步提高系統(tǒng)股市預(yù)測(cè)的準(zhǔn)確性。

2.2 股評(píng)文本情感極性分析方法

    從上述股票趨勢(shì)分析系統(tǒng)框架結(jié)果設(shè)計(jì)可以看出,系統(tǒng)最重要的模塊之一就是對(duì)股票文本數(shù)據(jù)的情感極性分析。論文提出了基于股市領(lǐng)域情感詞典的無監(jiān)督文本極性分析方法。該方法采用句法規(guī)則和情感詞頻統(tǒng)計(jì)相結(jié)合的情感極性判別算法。具體算法過程如圖2所示。

rgzn1-t2.gif

    在上述股票文本的情感極性分析方法中,需要區(qū)分股評(píng)是針對(duì)整個(gè)股市的趨勢(shì)預(yù)測(cè)還是針對(duì)某只具體股票趨勢(shì)的預(yù)測(cè)。因此,在前面的預(yù)處理過程中,會(huì)根據(jù)股評(píng)文本標(biāo)題中的include,about標(biāo)簽內(nèi)容,獲取股評(píng)文本涉及的股票名稱,然后,通過識(shí)別的股票名稱對(duì)股票文本進(jìn)行段落劃分。劃分方法是將文本中先后出現(xiàn)不同股票名稱之間的文本作為一個(gè)具體股票評(píng)論的段落,段落股票標(biāo)簽以前一支股票名稱為準(zhǔn)。按此方法,可以將一篇涉及多個(gè)股票的股評(píng)劃分為多個(gè)對(duì)應(yīng)單一股票的股票段落。預(yù)處理后的整篇文章被劃分為多個(gè)段落,每個(gè)段落只對(duì)應(yīng)一支具體股票,從而支撐論文對(duì)單只股票的分析與預(yù)測(cè)。 在股評(píng)段落劃分之后,進(jìn)入相應(yīng)的股票文本極性分析階段。具體算法如下:

    (1)統(tǒng)計(jì)正負(fù)向詞匯、詞組、句子頻率 

    論文對(duì)股票文本段落逐句進(jìn)行正負(fù)項(xiàng)詞匯的詞頻統(tǒng)計(jì)。同時(shí),針對(duì)常見股市領(lǐng)域詞組,統(tǒng)計(jì)特定詞組搭配。通過手工標(biāo)定,將詞組前后兩個(gè)詞分別定義正負(fù)向極性。通過負(fù)負(fù)為正的規(guī)則,最后得出詞組感情極性。例如,其中具體加入詞組如下:

    NegativeWords=[′cost′,′expens′,′risk′,′consum′,′loss′,′debt′,′problem′,′concern′,′competitor′,′mortgag′,′liabil′]

    PositiveWords=[′liquid′,′profit′,′capit′,′valu′,′revenu′,′potenti′,′fund′,′earn′,′advantag′,′income′,′dividend′,′aseet′,′interest′,′improve′,′opportun′,′qualiti′,′cap′,′benefit′,′progress′,′yield′,′return′,′margin′,′boost′,′attract′]

    然后,按照句子中的正負(fù)向詞匯數(shù)量以及正負(fù)向詞組數(shù)量的數(shù)量關(guān)系,判斷整句話的情感極性。對(duì)于文章整體,通過將詞匯、詞組以及句子的正負(fù)傾向數(shù)相加,根據(jù)式(1)計(jì)算出情感分?jǐn)?shù)。

    rgzn1-gs1.gif

其中,Pi和Ni分別代表正負(fù)詞頻。S的正負(fù)值分別代表文本的情感極性,S>0表示情感極性為正,否則為負(fù)。

    (2)檢查否定詞

    如果通過句法分析,檢測(cè)到句子中含有以下否定詞的部分,則需要將句子中所有情感極性取反。論文定義的反向詞如下所示:

    NegationWords=[′avoid′,′fail′,′omit′,′neglect′,′unlike′,′unlikely′,′hardly′,′barely′,′no′,′not′,′unless′,′never′,′none′,′nothing′,′havent′,′hasnt′,′hadnt′,′cant′,′couldnt′,′shouldnt′,′wont′,′wouldnt′,′dont′,′doesnt′,′didnt′,′isnt′,′arent′,′aint'] 

    (3)判斷文章是否有結(jié)論性總結(jié)段落

    通過大量實(shí)驗(yàn)數(shù)據(jù)分析發(fā)現(xiàn),許多股評(píng)文本在對(duì)股票進(jìn)行分析時(shí),往往使用先抑后揚(yáng)的寫作方式,或者先揚(yáng)后抑的寫法。此類評(píng)論文本的情感極性一般與最后總結(jié)性段落持有相反極性。因此,論文在分析股評(píng)文本時(shí)需要重點(diǎn)分析總結(jié)性段落。這些總結(jié)性段落有簡(jiǎn)單明了的特點(diǎn),觀點(diǎn)也很直接、鮮明。所以,論文在對(duì)股評(píng)極性分析時(shí),還需要判斷股評(píng)文章是否有結(jié)尾段,如果有結(jié)尾段,就加大權(quán)重來計(jì)算結(jié)尾段的情感極性分?jǐn)?shù),把該總結(jié)性段落的情感分?jǐn)?shù)加權(quán)計(jì)算到最后的股評(píng)情感極性分?jǐn)?shù)中。實(shí)驗(yàn)表明,這樣能有效提高最后的情感分析準(zhǔn)確率。

2.3 股票趨勢(shì)的分析模型

    在獲得股評(píng)文本情感極性之后,如何進(jìn)一步預(yù)測(cè)某些股票在今后的上漲或下跌趨勢(shì)?這需要依靠股票趨勢(shì)的分析模型,如圖3所示。股票趨勢(shì)可能受許多因素的影響。在本文中,重點(diǎn)考慮兩方面因素:一是股票專業(yè)人士的觀點(diǎn),二是預(yù)測(cè)時(shí)的時(shí)間窗口選擇問題。

rgzn1-t3.gif

    因?yàn)椴煌稍u(píng)專業(yè)人士對(duì)股市知識(shí)儲(chǔ)備、對(duì)股市信息理解和對(duì)股市判別能力的不同,可能造成他們對(duì)股票的預(yù)測(cè)能力也有差異。因此,論文提出的股票趨勢(shì)分析模型引入不同的權(quán)重來區(qū)別不同股票作者的預(yù)測(cè)能力差異。通過歷史股評(píng)與歷史股票價(jià)格的對(duì)比,計(jì)算股票作者對(duì)未來股價(jià)變化趨勢(shì)預(yù)測(cè)的準(zhǔn)確率。篩選預(yù)測(cè)準(zhǔn)確率大于50%的股評(píng)作者。另外,通過比較股評(píng)情感傾向時(shí)間序列與股價(jià)序列間的皮爾遜因果系數(shù),獲取預(yù)測(cè)準(zhǔn)確度最高的預(yù)測(cè)時(shí)間窗口。將時(shí)間窗口t天后的股票價(jià)格與股評(píng)當(dāng)日的股評(píng)價(jià)格進(jìn)行比較,判斷股票價(jià)格上升或者下降情況,并與股評(píng)情感傾向分析進(jìn)行比對(duì)。若股評(píng)情感傾向性為積極(消極),且股票價(jià)格上升(下降)則計(jì)預(yù)測(cè)正確一次,否則計(jì)預(yù)測(cè)錯(cuò)誤一次。如果股評(píng)發(fā)表日期不為交易日,則使用過去最近的股票價(jià)格為計(jì)時(shí)價(jià)格。若最近的股票價(jià)格距離當(dāng)前時(shí)間超過三日,或者t至t+3日內(nèi)也不存在股票交易數(shù)據(jù),則舍棄該次預(yù)測(cè)。

    股票預(yù)測(cè)模型基本思想是:比較情感分析時(shí)間序列以及股票價(jià)格時(shí)間序列間的皮爾遜相關(guān)系數(shù),以及直接比較預(yù)測(cè)未來股票變化趨勢(shì)與實(shí)際變化是否相同。此處只考慮股票趨勢(shì)的變化,不考慮價(jià)格變化幅度,并且和股評(píng)發(fā)表日期的一小段時(shí)間后的股票價(jià)格波動(dòng)進(jìn)行對(duì)比。這里只考慮價(jià)格上升或者下降的趨勢(shì)預(yù)測(cè)準(zhǔn)確率,對(duì)股票價(jià)格的具體波動(dòng)大小暫且不考慮。另一方面,對(duì)于股票價(jià)格數(shù)據(jù)進(jìn)行篩選后,同樣對(duì)股評(píng)進(jìn)行情感分析。并且由該情感傾向,預(yù)測(cè)一段時(shí)間后的股票上升或者下降趨勢(shì)。系統(tǒng)通過使用歷史的股票價(jià)格數(shù)據(jù)和股票情感極性分析結(jié)果來學(xué)習(xí)最佳預(yù)測(cè)時(shí)間窗口和不同專業(yè)股評(píng)人士的權(quán)重。通過學(xué)習(xí)到根據(jù)不同專業(yè)人士的股評(píng)情感分析結(jié)果,采用預(yù)測(cè)精度分析函數(shù)F(x)就可以確定某股票在指定的時(shí)間窗口下的上漲或下降趨勢(shì)。

    rgzn1-gs2.gif

    其中,xi代表專家發(fā)表的股評(píng)情感極性(1表示支持漲,-1表示支持跌),wi表示專家股評(píng)的權(quán)重。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

    論文采用的股評(píng)數(shù)據(jù)來源選擇Seeking Alpha 網(wǎng)站,Seeking Alpha網(wǎng)站創(chuàng)建于2004年,是一個(gè)以大眾為基礎(chǔ),為金融市場(chǎng)提供服務(wù)的網(wǎng)站平臺(tái)。股票文章內(nèi)容覆蓋了股票、投資基金、投資策略等,內(nèi)容全面廣泛。股票作者主要是一些投資或者企業(yè)專家,且規(guī)模較大;同時(shí),Seeking Alpha上專業(yè)投資人的分析預(yù)測(cè)也更加權(quán)威,歷史上曾多次預(yù)測(cè)或者推動(dòng)了股市趨勢(shì)。因此,論文選擇從Seeking Alpha網(wǎng)站平臺(tái)上2005年至2015年的所有股評(píng)數(shù)據(jù)。2005至2014年的股評(píng)數(shù)據(jù),在實(shí)驗(yàn)中作為歷史數(shù)據(jù)處理,2015年的股評(píng)數(shù)據(jù),在實(shí)驗(yàn)中作為未來預(yù)測(cè)數(shù)據(jù)處理。獲取完股評(píng)文章后,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提取文章id、作者、標(biāo)題、發(fā)表日期、涉及股票、文章內(nèi)容以及文章的網(wǎng)址信息。

3.2 實(shí)驗(yàn)結(jié)果分析

    論文通過人為標(biāo)定的方法判斷情感分析的準(zhǔn)確率,標(biāo)定結(jié)果樣例如表1所示。標(biāo)定過程共邀請(qǐng)文本3名情感分析研究方向研究生對(duì)隨機(jī)抽取的60篇股評(píng)文章,240支股票進(jìn)行情感分析。最終,比對(duì)人為標(biāo)定結(jié)果與情感分類結(jié)果,情感分析預(yù)測(cè)準(zhǔn)確率為81.4%。文獻(xiàn)[8]同樣對(duì)股評(píng)數(shù)據(jù)進(jìn)行了情感分析,它的分析準(zhǔn)確率最高為84.8%。因此,在情感分析預(yù)測(cè)方面,預(yù)測(cè)的準(zhǔn)確率已基本達(dá)到要求。

rgzn1-b1.gif

    (1)股票上漲與下跌趨勢(shì)預(yù)測(cè)精度分析

    根據(jù)股票行業(yè),選取了8個(gè)行業(yè)板塊的股票,每類選取了15支股票,進(jìn)行預(yù)測(cè),選取代表股票如表2所示。每支股票用其縮寫表示,此縮寫與Yahoo!Finance上每支股票的標(biāo)識(shí)一致。

rgzn1-b2.gif

    通過采用股票歷史價(jià)格數(shù)據(jù)與基于股票情感極性分析的預(yù)測(cè)結(jié)果進(jìn)行比較分析,計(jì)算出股票預(yù)測(cè)分析精準(zhǔn)度等指標(biāo)。論文選擇了3個(gè)指標(biāo),作為實(shí)驗(yàn)結(jié)果的評(píng)判標(biāo)準(zhǔn)。這3類指標(biāo)分別是預(yù)測(cè)結(jié)果的準(zhǔn)確率P,評(píng)判分類結(jié)果的召回率R以及綜合考量精確率和召回率的F1。實(shí)驗(yàn)結(jié)果如表3所示。從實(shí)驗(yàn)結(jié)果可以看出,預(yù)測(cè)性能與股票類別差異不是很大。

rgzn1-b3.gif

    (2)預(yù)測(cè)結(jié)果與預(yù)測(cè)時(shí)間窗口的關(guān)系分析

    根據(jù)網(wǎng)絡(luò)文本情感分析結(jié)果,預(yù)測(cè)一段時(shí)間后的股價(jià)變化。通過歷史數(shù)據(jù)的情感分析時(shí)間序列以及股票價(jià)格變化序列,在假定選取時(shí)間窗口為t后,計(jì)算兩者間的皮爾遜關(guān)聯(lián)系數(shù)。論文分別嘗試了時(shí)間窗口t=3,7,15,30等多種窗口長(zhǎng)度,分別計(jì)算出相應(yīng)的皮爾遜系數(shù),以及預(yù)測(cè)準(zhǔn)確率,如圖4所示:圖4(a)為皮爾遜系數(shù),圖4(b)為預(yù)測(cè)準(zhǔn)確率??梢钥闯?,當(dāng)選取時(shí)間窗口t=15時(shí),股評(píng)的情緒傾向性與股票價(jià)格的變化趨勢(shì)關(guān)聯(lián)最大,且預(yù)測(cè)準(zhǔn)確率最高。

rgzn1-t4.gif

4 結(jié)論

    論文研究通過分析不同網(wǎng)民發(fā)布股評(píng)的情感極性來預(yù)測(cè)股票上漲與下跌趨勢(shì)。針對(duì)情感字典分析對(duì)領(lǐng)域依賴性問題,提出了一致綜合金融詞組詞典和結(jié)尾段加權(quán)的情感分析方法,能有效提高情感分析準(zhǔn)確度。另外,論文還提出了一種加窗的股票預(yù)測(cè)方法,該方法根據(jù)分析得到的情感分析時(shí)間序列,通過比較分析某些股票的歷史價(jià)格數(shù)據(jù),計(jì)算出預(yù)測(cè)事件窗口的最佳值。實(shí)驗(yàn)結(jié)果表明,預(yù)測(cè)時(shí)間窗口為15天左右,股票價(jià)格趨勢(shì)變化與股評(píng)的情感傾向關(guān)聯(lián)性強(qiáng)。針對(duì)特定股票的股票情感分析結(jié)果較于整體股市的評(píng)價(jià)預(yù)測(cè)效果更好些。未來工作可以將股票的金融特點(diǎn)與情感分析的股票預(yù)測(cè)性質(zhì)相結(jié)合,發(fā)現(xiàn)更好的預(yù)測(cè)方法。

參考文獻(xiàn)

[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC),第40次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].2017.

[2] 王丙坤,黃永峰.基于多粒度計(jì)算和多準(zhǔn)則融合的情感分類[J].清華大學(xué)學(xué)報(bào),2015,55(2):497-502.

[3] LIU B.Sentiment analysis and opinion mining.Synthesis Lectures on Human Language Technologies,2012,5(1).

[4] PANG B,LEE L,VAITHYANATHAN S.Thumbs up?: sentiment classification using machine learning techniques[C].Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10.Association for Computational Linguistics,2002:79-86.

[5] HU M,LIU B.Mining and summarizing ccustomer reviews[C].Proceedings of the Tenth ACM SIGKDD International Conference on Konwledge Discovery and Data Mining,2004:168-177.

[6] OHANA B,TIERNEY B.Sentiment classification of reviews using sentiwordnet[C].Proceedings of the Ninth IT&T Conference,2009.

[7] KU L W,LIANG Y T,CHEN H H.Opinion extraction,summarization and tracking in news and blog corpora[C].AAAI spring symposium: Computational approaches to analyzing weblogs.2010,100107.

[8] SCHUMAKER R P,CHEN H.Textual analysis of stock market prediction using breaking financial news:the AZF in text system[J].ACM Trans. Inf. Syst.,2009,27:1-19.

[9] GILBERT E,KARAHALIOS K.Widespread worry and the stock market[C].Fourth International AAAI Conference on Weblogs and Social Media,2010.



作者信息:

肖  亭1,林  玲2,黃永峰1

(1.清華大學(xué) 電子系,北京100084;2.廣東外語外貿(mào)大學(xué) 金融學(xué)院,廣東 廣州510006)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。