摘 要: 近年來(lái)我國(guó)創(chuàng)業(yè)板股市頻繁出現(xiàn)新股破發(fā)現(xiàn)象,暴露出創(chuàng)業(yè)板市場(chǎng)存在的風(fēng)險(xiǎn)問(wèn)題?;谛袨榻鹑趯W(xué)及有限注意力理論,運(yùn)用Web挖掘手段和機(jī)器學(xué)習(xí)算法分析股票論壇投資者的文本評(píng)論和搜索行為,建立投資者情緒和投資者關(guān)注指數(shù),對(duì)創(chuàng)業(yè)板新股破發(fā)進(jìn)行定量化實(shí)證研究。結(jié)果表明,除了市場(chǎng)指標(biāo)、發(fā)行指標(biāo)、機(jī)構(gòu)參與指標(biāo)和財(cái)務(wù)指標(biāo),從股票論壇和搜索引擎獲取的投資者情緒和關(guān)注也是影響創(chuàng)業(yè)板股票破發(fā)的重要因素,據(jù)此建立的新股破發(fā)預(yù)測(cè)模型平均準(zhǔn)確率達(dá)90%。
關(guān)鍵詞: Web挖掘;新股破發(fā);機(jī)器學(xué)習(xí);支持向量機(jī);樸素貝葉斯
0 引言
創(chuàng)業(yè)板市場(chǎng)是專(zhuān)門(mén)為創(chuàng)業(yè)型企業(yè)融資上市的市場(chǎng),與主板市場(chǎng)相比,門(mén)檻低、風(fēng)險(xiǎn)高。近年來(lái),創(chuàng)業(yè)板迎來(lái)大面積新股破發(fā)的窘境,即新股的上市首日收盤(pán)價(jià)低于其發(fā)行價(jià)。破發(fā)的損失全部由廣大的投資者承擔(dān),打擊二級(jí)市場(chǎng)投資者的信心,不利于新股流通;降低保薦人和承銷(xiāo)商信譽(yù)度和業(yè)務(wù)量;影響發(fā)行公司信譽(yù),不利于其再融資。探究創(chuàng)業(yè)板新股破發(fā)成因并對(duì)其進(jìn)行預(yù)測(cè)具有重大意義。
以往對(duì)新股破發(fā)問(wèn)題的研究主要從傳統(tǒng)的財(cái)務(wù)指標(biāo)和上市公司基本信息出發(fā),未能全面地解釋這一現(xiàn)象?;ヂ?lián)網(wǎng)上關(guān)于上市公司和股民觀(guān)點(diǎn)的大數(shù)據(jù)為探究新股破發(fā)成因帶來(lái)了新的思路。本文基于行為金融學(xué)和有限注意力理論,利用Web挖掘技術(shù)和機(jī)器學(xué)習(xí)算法,從股票論壇和搜索引擎爬取數(shù)據(jù)進(jìn)行文本挖掘和情感分析。將建立的投資者情緒和關(guān)注指標(biāo)與傳統(tǒng)的金融學(xué)指標(biāo)相結(jié)合,全面探究創(chuàng)業(yè)板股票破發(fā)成因,建立預(yù)測(cè)模型。本文研究框架如圖1所示。實(shí)證表明,預(yù)測(cè)模型準(zhǔn)確率達(dá)到90%以上,可用于對(duì)創(chuàng)業(yè)板股票市場(chǎng)行情的早期研判,有助于監(jiān)管部門(mén)提早采取引導(dǎo)措施,避免新股破發(fā)帶來(lái)的危害,推動(dòng)創(chuàng)業(yè)板以及整個(gè)證券市場(chǎng)的協(xié)調(diào)發(fā)展。
1 國(guó)內(nèi)外相關(guān)研究現(xiàn)狀
對(duì)新股破發(fā)的影響因素,蔡春華認(rèn)為影響破發(fā)最主要的3個(gè)因素是每股收益、發(fā)行價(jià)格和日換手率[1]。肖奇定性地從發(fā)行公司、政府、承銷(xiāo)商和投資者4個(gè)維度去探究新股破發(fā)的原因[2]。
在文本挖掘技術(shù)興起之前,對(duì)于投資者情緒的度量主要是使用金融市場(chǎng)中其他數(shù)據(jù)計(jì)算得到的間接代表投資者情感的指標(biāo),魯訓(xùn)法選用“每周新開(kāi)交易賬戶(hù)數(shù)”作為反映投資者情緒變化的代理指標(biāo)[3]。
有限注意力理論認(rèn)為存在注意力配置的問(wèn)題,投資者關(guān)注確實(shí)會(huì)影響其對(duì)信息的反應(yīng),進(jìn)而影響決策。WYSOCKI P D發(fā)現(xiàn)發(fā)帖量能夠預(yù)測(cè)第二天的交易量與異常收益率[4]。
2 影響創(chuàng)業(yè)板新股破發(fā)的指標(biāo)體系建立
本文把市場(chǎng)因素、上市指標(biāo)、機(jī)構(gòu)參與情況以及公司財(cái)務(wù)狀況與投資者情緒和關(guān)注相結(jié)合,建立起表1所示的指標(biāo)體系。
3 投資者情緒和投資者關(guān)注指標(biāo)計(jì)算
3.1 投資者情緒指數(shù)計(jì)算
本文以東方財(cái)富股吧作為數(shù)據(jù)源,爬取45支作為樣本的創(chuàng)業(yè)板個(gè)股上市前后10天的帖子共61 921條,并從中抽取了2 000條進(jìn)行“積極”、“消極”和“中性”的人工情感標(biāo)注。用查全率和查準(zhǔn)率的綜合值f1來(lái)比較樸素貝葉斯(NB)和線(xiàn)性支持向量機(jī)(LinearSVC)等分類(lèi)算法的效率,結(jié)果如圖2所示。最終確定1 500的特征維度下的支持向量機(jī)法作為最佳分類(lèi)器。
3.1.1 樂(lè)觀(guān)情緒指數(shù)
樂(lè)觀(guān)情緒指數(shù)計(jì)算公式為:
表示t時(shí)間段內(nèi)類(lèi)別c的帖子的加權(quán)條數(shù),M看漲和M看跌分別代表t時(shí)刻看漲的帖子和看跌帖子的數(shù)目,若t時(shí)間段內(nèi)沒(méi)有人發(fā)帖,則認(rèn)為情緒指數(shù)為0。
3.1.2 意見(jiàn)分歧指數(shù)
情緒的方差計(jì)算公式如下:
3.2 投資者關(guān)注指標(biāo)計(jì)算
股票論壇某日發(fā)帖量可作為投資者關(guān)注的衡量指標(biāo),而搜索引擎也是中小投資者獲取信息的主要網(wǎng)絡(luò)渠道。百度在中國(guó)平均市場(chǎng)份額遠(yuǎn)超其他搜索引擎,故選擇百度指數(shù)作為數(shù)據(jù)源。對(duì)每支個(gè)股都將股票名稱(chēng)和股票代碼搜索強(qiáng)度加總來(lái)描述該股的綜合搜索強(qiáng)度。
4 創(chuàng)業(yè)板新股破發(fā)成因?qū)嵶C分析
4.1 樣本個(gè)股選取及時(shí)間范圍確定
本文按照與當(dāng)年上市的創(chuàng)業(yè)板新股總量成比例的原則選取了2011年1月25到2014年1月23日之間上市的45支創(chuàng)業(yè)板個(gè)股。
以股票的首發(fā)抑價(jià)率作為因變量來(lái)衡量創(chuàng)業(yè)板新股上市當(dāng)日的破發(fā)程度,抑價(jià)率越高,破發(fā)的程度越低,計(jì)算公式如下:
4.2 多元線(xiàn)性回歸
4.2.1 OLS多元線(xiàn)性回歸和多重共線(xiàn)性檢驗(yàn)
根據(jù)指標(biāo)體系建立多元逐步線(xiàn)性回歸模型,消除模型的共線(xiàn)性和異方差性后,結(jié)果如表2所示。
4.2.2 多元線(xiàn)性回歸結(jié)論
創(chuàng)業(yè)板指數(shù)代表的市場(chǎng)行情與新股抑價(jià)率成正比,說(shuō)明市場(chǎng)行情好的時(shí)候股票不容易破發(fā)。而在發(fā)行指標(biāo)中,市盈率、首發(fā)募集資金以及超募資金均與抑價(jià)率成反比,這體現(xiàn)了創(chuàng)業(yè)板新股“三高”問(wèn)題是導(dǎo)致創(chuàng)業(yè)板破發(fā)的重要原因。限售股的比例與首發(fā)抑價(jià)率成正比,說(shuō)明較高的機(jī)構(gòu)參與度往往可以降低股票的破發(fā)概率且影響力較大。此外公司本身的盈利情況和資產(chǎn)構(gòu)成也會(huì)影響其是否破發(fā)??梢园l(fā)現(xiàn)網(wǎng)絡(luò)變量是影響創(chuàng)業(yè)板破發(fā)的重要因素,首發(fā)前5~10天投資者越樂(lè)觀(guān)和關(guān)注度越高,股票破發(fā)的概率越小。而首發(fā)之后的5~10天投資者的情緒和關(guān)注對(duì)破發(fā)的影響大大降低,可能是這段時(shí)間內(nèi)投資者并沒(méi)有獲得更多的新消息。直到上市當(dāng)天,投資者情緒和關(guān)注又會(huì)對(duì)首發(fā)抑價(jià)率產(chǎn)生正向影響。當(dāng)投資者意見(jiàn)存在分歧時(shí),市場(chǎng)的投機(jī)氛圍弱,股票破發(fā)的風(fēng)險(xiǎn)也會(huì)降低。
5 新股破發(fā)預(yù)測(cè)模型
線(xiàn)性回歸模型中的顯著變量作為特征,以45只個(gè)股作為訓(xùn)練集,并以另外20只新股作為測(cè)試集,分別以支持向量機(jī)(SVM)和樸素貝葉斯(NB)模型建立分類(lèi)預(yù)測(cè)模型。采用十折交叉檢驗(yàn)的方法,用查全率和查準(zhǔn)率的綜合值f1作為評(píng)價(jià)模型準(zhǔn)確率的指標(biāo)。將預(yù)測(cè)模型與只用傳統(tǒng)金融學(xué)指標(biāo)作為特征建立的分類(lèi)模型進(jìn)行對(duì)比,結(jié)果如表3所示。
6 結(jié)論
實(shí)證研究中模型擬合優(yōu)度達(dá)到93%,很好地解釋了創(chuàng)業(yè)板股票破發(fā)的成因。市場(chǎng)指標(biāo)、發(fā)行指標(biāo)、機(jī)構(gòu)參與指標(biāo)、財(cái)務(wù)指標(biāo)、投資者情緒和關(guān)注都是創(chuàng)業(yè)板破發(fā)的重要影響因素。據(jù)此建立的新股破發(fā)預(yù)測(cè)模型較傳統(tǒng)預(yù)測(cè)模型準(zhǔn)確率從60%提升到90%以上。投資者情緒和關(guān)注本身是多因素的綜合反映,從這兩點(diǎn)入手來(lái)研究創(chuàng)業(yè)板股票破發(fā)問(wèn)題,開(kāi)辟了這一問(wèn)題研究的新視角。
考慮了網(wǎng)絡(luò)信息后模型擬合優(yōu)度從57%提升到了93%,說(shuō)明從網(wǎng)絡(luò)信息中獲取的投資者情緒和關(guān)注是影響創(chuàng)業(yè)板股票破發(fā)的重要因素?;赪eb挖掘的預(yù)測(cè)模型準(zhǔn)確率超過(guò)90%,可為投資者決策提供參考,減少損失。
根據(jù)實(shí)證結(jié)論給監(jiān)管部門(mén)的建議如下:(1)創(chuàng)業(yè)板新股“三高”問(wèn)題是導(dǎo)致創(chuàng)業(yè)板破發(fā)的重要原因,要完善創(chuàng)業(yè)板股票的發(fā)行和定價(jià)機(jī)制,增加獨(dú)立中介機(jī)構(gòu)的詢(xún)價(jià)權(quán)限,防止機(jī)構(gòu)為了自身利益報(bào)價(jià)過(guò)高;(2)創(chuàng)業(yè)板公司需強(qiáng)化信息披露,防止惡意隱瞞其財(cái)務(wù)和重要信息;(3)網(wǎng)絡(luò)已經(jīng)成為股市輿情的重要發(fā)源地,有關(guān)部門(mén)應(yīng)完善對(duì)論壇、搜索引擎等網(wǎng)絡(luò)平臺(tái)的監(jiān)管,加強(qiáng)投資者教育,引導(dǎo)情緒,促進(jìn)其理性投資。
參考文獻(xiàn)
[1] 蔡春華.中國(guó)創(chuàng)業(yè)板上市公司破發(fā)影響因素實(shí)證分析[J].現(xiàn)代商業(yè),2013(8):43-44.
[2] 肖奇.我國(guó)創(chuàng)業(yè)板新股破發(fā)原因探究[D].成都:西南財(cái)經(jīng)大學(xué),2012.
[3] 魯訓(xùn)法,黎建強(qiáng).中國(guó)股市指數(shù)與投資者情緒指數(shù)的相互關(guān)系[J].系統(tǒng)工程理論與實(shí)踐,2012(3):621-629.
[4] WYSOCKI P D. Cheap talk on the Web: the determinants of postings on stock message boards[J]. University of Michigan Business School Working Paper, 1998 (98025).