123,123

基于网络搜索数据的品牌汽车销量预测研究

谢天保,崔田

（西安理工大学，陕西西安 710054）

摘要： 随着大数据时代的到来，基于网络数据的应用研究已成为热点。以品牌汽车销量预测为目标，将传统相关性分析与基于LASSO的特征选择方法相结合，选取相关品牌的网络搜索数据关键特征，而后建立了LASSO线性回归、支持向量回归和随机森林三种机器学习预测模型，并与传统ARIMA模型进行比较分析。实验结果表明，随机森林模型的预测平均误差为6.4%，比ARIMA模型降低了12.2个百分点，预测结果可为汽车企业生产规划和制定营销方案提供有效的决策支持。

關(guān)鍵詞： 网络搜索数据汽车销量预测 LASSO特征选择机器学习算法

中圖分類號(hào)：F272.1；TP181
文獻(xiàn)標(biāo)識(shí)碼：A
DOI： 10.19358/j.issn.2096-5133.2018.08.012
中文引用格式：謝天保,崔田.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的品牌汽車銷量預(yù)測研究［J］.信息技術(shù)與網(wǎng)絡(luò)安全，2018,37（8）：50-53.

Research on brand vehicle sales forecasting based on network search data

Xie Tianbao，Cui Tian

（Xi’an University of Technology, Xi’an 710054, China）

Abstract： With the advent of the big data era, application research based on network data has become a hot spot. Aiming at brand car sales forecasting,this paper combined the traditional correlation analysis with the LASSO feature selection method to select the key features of the web search data of the related brands, and then established three machine learning prediction models of penalty linear regression, support vector regression and random forest and compared with the traditional ARIMA model. The experimental results show that the average prediction error of random forest model is 6.4%, which is 12.2% lower than that of ARIMA model. The forecast results can provide more effective decision support for the production planning and marketing plan of automobile manufacturing enterprises.

Key words : network search data;vehicle sales forecasting;LASSO feature selection; machine learning algorithm

0 引言

近年來，我國汽車產(chǎn)銷呈現(xiàn)較快增長，產(chǎn)銷總量屢創(chuàng)歷史新高，據(jù)中國汽車工業(yè)協(xié)會(huì)統(tǒng)計(jì)數(shù)據(jù)，2016年中國汽車產(chǎn)銷均超2 800萬輛，連續(xù)八年蟬聯(lián)全球第一^［1］。據(jù)車主之家網(wǎng)站提供的數(shù)據(jù)顯示，2009~2016年我國銷量排名前十的品牌汽車占比高達(dá)55.84%，對(duì)于我國汽車消費(fèi)者而言，品牌效應(yīng)十分顯著。但是汽車生產(chǎn)廠商追求規(guī)模效應(yīng)時(shí)存在一定的盲目性，導(dǎo)致產(chǎn)能過剩的問題日益凸顯。在嚴(yán)峻的形勢下，汽車生產(chǎn)企業(yè)應(yīng)認(rèn)真分析市場未來的需求量和可能存在的變化趨勢，合理規(guī)劃生產(chǎn)計(jì)劃，采用以銷定產(chǎn)的生產(chǎn)策略。因此如何準(zhǔn)確地預(yù)測銷量，對(duì)于汽車生產(chǎn)企業(yè)研究市場行情及時(shí)調(diào)整生產(chǎn)經(jīng)營策略有著極其重要的意義。隨著人工智能的出現(xiàn)以及基于網(wǎng)絡(luò)數(shù)據(jù)的預(yù)測研究的廣泛開展，將網(wǎng)絡(luò)搜索數(shù)據(jù)應(yīng)用于汽車銷量的預(yù)測已成為研究的熱點(diǎn)。

傳統(tǒng)的汽車銷量預(yù)測研究采用的主要方法有灰色系統(tǒng)理論^［2］、時(shí)間序列模型^［3］以及人工神經(jīng)網(wǎng)絡(luò)^［4］等，但這些研究采用的數(shù)據(jù)時(shí)間粒度比較大，研究對(duì)象大都集中于我國汽車年度總銷量的預(yù)測，研究成果難以應(yīng)用推廣。文獻(xiàn)［5］在建立網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)與汽車銷量理論框架的基礎(chǔ)上，使用自動(dòng)推薦技術(shù)選取關(guān)鍵詞并進(jìn)行關(guān)鍵詞合成，然后針對(duì)不同價(jià)格區(qū)間的汽車銷量與相應(yīng)合成指數(shù)進(jìn)行建模預(yù)測且平均絕對(duì)誤差百分?jǐn)?shù)均不超過4%，但是同一價(jià)格區(qū)間內(nèi)包含眾多不同品牌車型，預(yù)測結(jié)果無法提供有價(jià)值的決策支持；文獻(xiàn)［6］、文獻(xiàn)［7］針對(duì)大眾途觀和寶馬汽車銷量進(jìn)行預(yù)測研究，通過人工方式進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)關(guān)鍵詞的選取，發(fā)現(xiàn)加入百度關(guān)鍵詞作為解釋變量的模型相比傳統(tǒng)的ARMA模型，預(yù)測精度有了一定程度的提高；文獻(xiàn)［8］利用經(jīng)濟(jì)變量和谷歌在線搜索數(shù)據(jù)建立預(yù)測月度汽車銷售數(shù)據(jù)的多變量模型，結(jié)果表明包括谷歌搜索數(shù)據(jù)在內(nèi)的模型在統(tǒng)計(jì)上超過了大多數(shù)預(yù)測領(lǐng)域的傳統(tǒng)模型；文獻(xiàn)［9］提出了一種搜索數(shù)據(jù)關(guān)鍵特征選取方法，但是該選取方法最終僅僅保留了相關(guān)性最高的一個(gè)關(guān)鍵特征，難免會(huì)造成有效信息的損失。

綜上所述，目前的研究存在的問題包括研究對(duì)象與時(shí)間粒度選擇不當(dāng)，網(wǎng)絡(luò)數(shù)據(jù)特征分析及選取的科學(xué)體系暫未形成，傳統(tǒng)模型預(yù)測性能具有局限性。本文擬基于網(wǎng)絡(luò)搜索數(shù)據(jù)，將品牌汽車銷量作為研究對(duì)象，時(shí)間粒度選取為月度，將傳統(tǒng)相關(guān)性分析與基于LASSO的特征選擇方法相結(jié)合，篩選出最優(yōu)的關(guān)鍵特征數(shù)據(jù)，然后應(yīng)用多種機(jī)器學(xué)習(xí)算法建立品牌汽車銷量的預(yù)測模型，從而實(shí)現(xiàn)針對(duì)性更強(qiáng)、更準(zhǔn)確、更具有應(yīng)用價(jià)值的品牌汽車銷量的預(yù)測。

1 網(wǎng)絡(luò)搜索數(shù)據(jù)關(guān)鍵特征選取

本文選取“大眾”、“本田”、“奧迪”三個(gè)比較有代表性的品牌汽車作為研究對(duì)象，收集了2011年1月~2017年12月期間各品牌汽車月度銷量數(shù)據(jù)。根據(jù)消費(fèi)者購買決策過程，消費(fèi)者在產(chǎn)生購車需求后，大多數(shù)購車消費(fèi)者都會(huì)通過搜索引擎從網(wǎng)絡(luò)中快速獲取到所需要的信息，而關(guān)鍵詞搜索是在線信息搜索時(shí)最常用的策略，所以將用戶搜索關(guān)鍵詞作為網(wǎng)絡(luò)搜索數(shù)據(jù)的關(guān)鍵特征。本文選擇國內(nèi)應(yīng)用最為廣泛的百度搜索引擎的百度指數(shù)作為網(wǎng)絡(luò)搜索關(guān)鍵詞數(shù)據(jù)來源。下面以“大眾”品牌汽車為例進(jìn)行詳細(xì)說明。

1.1 關(guān)鍵詞的選取及拓展

本文采用文本挖掘的方法，結(jié)合汽車品牌、熱銷車型信息、車型配置指標(biāo)數(shù)據(jù)等各個(gè)方面的信息，對(duì)網(wǎng)絡(luò)上與大眾品牌汽車相關(guān)的新聞、論壇文章、點(diǎn)評(píng)、分享交流等信息進(jìn)行查找收集，剔除掉一些無用信息后，再使用NLPIR漢語分詞系統(tǒng)對(duì)原始文本進(jìn)行關(guān)鍵詞提取，得到關(guān)鍵詞列表及其權(quán)重，選定其中權(quán)值較高的“大眾”、“大眾4S店”、“大眾SUV”、“大眾POLO”、“大眾商務(wù)車”等為初始關(guān)鍵詞。然后圍繞選取的初始關(guān)鍵詞綜合使用了長尾關(guān)鍵詞拓展法、站長工具以及網(wǎng)頁相關(guān)搜索推薦等方法拓展出數(shù)量更多的關(guān)鍵詞，剔除重復(fù)或者有歧義的關(guān)鍵詞后建立了一個(gè)包含276個(gè)關(guān)鍵詞的初始詞庫。

1.2 關(guān)鍵詞搜索指數(shù)相關(guān)性分析

首先利用網(wǎng)絡(luò)爬蟲工具獲取初始詞庫中各關(guān)鍵詞相同時(shí)間段內(nèi)月度搜索數(shù)據(jù)，針對(duì)關(guān)鍵詞搜索數(shù)據(jù)進(jìn)行預(yù)處理（剔除缺失數(shù)據(jù)超過6個(gè)月或者搜索指數(shù)過低的關(guān)鍵詞數(shù)據(jù)），最后得到118個(gè)符合要求的關(guān)鍵詞搜索數(shù)據(jù)。但是并不是每個(gè)關(guān)鍵詞搜索數(shù)據(jù)都與實(shí)際銷量存在相關(guān)關(guān)系。所以本文首先應(yīng)用傳統(tǒng)相關(guān)性分析方法通過判定各個(gè)關(guān)鍵詞搜索數(shù)據(jù)與大眾品牌汽車銷量的Spearman秩相關(guān)系數(shù)，篩選出相關(guān)系數(shù)大于0.5的搜索關(guān)鍵詞（顯著相關(guān)），共計(jì)37個(gè)。然后采用時(shí)差相關(guān)分析確定上一步篩選出的關(guān)鍵詞搜索指數(shù)與大眾品牌汽車銷量的時(shí)滯階數(shù)均處于滯后1~3階的范圍（網(wǎng)絡(luò)搜索行為是一種即時(shí)性行為，而購買汽車作為重大經(jīng)濟(jì)決策，消費(fèi)者一般都會(huì)在做出購買決策前幾個(gè)月就開始搜索相關(guān)的信息）。

現(xiàn)有研究針對(duì)相關(guān)性分析結(jié)果一般有兩種處理方法:第一種是直接選取相關(guān)性最高的作為唯一的解釋變量；第二種是利用指數(shù)合成方法將合成后的關(guān)鍵指數(shù)作為解釋變量。兩種方法難免都會(huì)造成有效信息的損失。但是若保留所有的解釋變量，解釋變量之間也可能存在多重共線性，所以本文在相關(guān)性分析基礎(chǔ)上應(yīng)用LASSO算法來進(jìn)一步分析與選取特征^［10］。

1.3 基于LASSO的特征選取

在高維數(shù)據(jù)變量選擇方法的研究領(lǐng)域中，Tibshirani在1996年提出普通線性模型下的Least Absolute Shrinkage and Selection Operate(LASSO)算法，LASSO算法就是在損失函數(shù)后面加上懲罰項(xiàng)（即L1正則項(xiàng)），L1正則項(xiàng)可以約束方程的稀疏性，這種稀疏性即可應(yīng)用于特征的選擇，這種方法與傳統(tǒng)的算法相比優(yōu)點(diǎn)在于可以在進(jìn)行連續(xù)的變量選擇的同時(shí)進(jìn)行模型參數(shù)估計(jì)^［11］。而且LASSO算法可以有效解決解釋變量多重共線性的問題，使得后續(xù)建立的模型擁有穩(wěn)定的性能。

針對(duì)上一節(jié)相關(guān)性分析結(jié)果，采用R語言中的glmnet包實(shí)現(xiàn)的LASSO算法對(duì)關(guān)鍵詞搜索數(shù)據(jù)進(jìn)行分析與特征選取。通過分析模型的Lambda解路徑圖可以發(fā)現(xiàn)，隨著懲罰的力度加大，越來越多的變量系數(shù)會(huì)被壓縮為0，而那些在Lambda比較大時(shí)仍然擁有非零系數(shù)的變量就是越重要的解釋變量^［12-13］。本文選取平均絕對(duì)誤差（MAE）作為評(píng)價(jià)指標(biāo)，通過交叉驗(yàn)證得到最優(yōu)Lambda值，模型MAE與Lambda之間的關(guān)系如圖1所示。

微信截圖_20180922160501.png

圖1中左側(cè)虛線是最佳Lambda取值（lambda.min=0.143 065），也就是模型MAE最低時(shí)的Lambda取值，此時(shí)非零系數(shù)的變量個(gè)數(shù)僅為12個(gè)，相比之前37個(gè)關(guān)鍵詞特征數(shù)據(jù)已經(jīng)大幅度地縮減。通過查看coefficients參數(shù)可以得到模型的Intercept為5.630 547 963 2，所選取的關(guān)鍵詞變量及其所對(duì)應(yīng)的參數(shù)估計(jì)如表1所示。

微信截圖_20180922160551.png

至此，本文首先進(jìn)行關(guān)鍵詞的選取及拓展，然后將傳統(tǒng)相關(guān)性分析與基于LASSO的特征選擇相結(jié)合應(yīng)用于搜索數(shù)據(jù)關(guān)鍵詞選取，最終選出針對(duì)“大眾”品牌汽車的12個(gè)網(wǎng)絡(luò)搜索數(shù)據(jù)關(guān)鍵特征。使用同樣的方法，篩選得出“本田”及“奧迪”品牌汽車對(duì)應(yīng)的網(wǎng)絡(luò)搜索數(shù)據(jù)關(guān)鍵特征分別為12個(gè)和13個(gè)。

2 實(shí)驗(yàn)分析與討論

通過LASSO算法的應(yīng)用有效地解決了解釋變量多重共線性的問題，同時(shí)在特征選擇的過程中也得到了LASSO線性回歸模型參數(shù)估計(jì)，但是該模型及現(xiàn)有研究大都使用基于最小二乘法的線性回歸模型，都無法解決異方差性及解釋變量與被解釋變量非線性關(guān)系的問題，這就會(huì)增加系數(shù)估計(jì)值的方差，結(jié)果造成系數(shù)估計(jì)值不穩(wěn)定，對(duì)異常值非常敏感，繼而會(huì)嚴(yán)重影響回歸線，最終影響預(yù)測值的準(zhǔn)確度^［14］。所以本文又選取了兩種非線性的機(jī)器學(xué)習(xí)算法建立模型并進(jìn)行詳細(xì)的對(duì)比分析。

本文選取2011年1月~2016年12月的數(shù)據(jù)作為訓(xùn)練集，將2017年12個(gè)月的數(shù)據(jù)作為測試集，采用R語言針對(duì)“大眾”、“本田”、“奧迪”品牌汽車的銷量預(yù)測建立了支持向量回歸模型及隨機(jī)森林模型，按照MAE值最小原則應(yīng)用網(wǎng)格搜索法（GridSearch）進(jìn)行模型參數(shù)調(diào)優(yōu)，同時(shí)針對(duì)三個(gè)品牌建立傳統(tǒng)的時(shí)間序列預(yù)測模型——自回歸積分滑動(dòng)平均模型（ARIMA）進(jìn)行綜合比較分析。為了有效和直觀地衡量不同模型的預(yù)測能力，本文選取均方根誤差(RMSE)、平均絕對(duì)百分比誤差(MAPE)兩個(gè)指標(biāo)來評(píng)估預(yù)測結(jié)果，各模型測試集預(yù)測結(jié)果如表2所示。

微信截圖_20180922160645.png

從表2可以看出，無論從RMSE還是MAPE來說，機(jī)器學(xué)習(xí)模型的預(yù)測效果均有顯著優(yōu)勢，相比傳統(tǒng)的時(shí)間序列ARIMA模型大幅度提高了預(yù)測準(zhǔn)確度，而且從MAPE指標(biāo)結(jié)果來看，ARIMA模型對(duì)于不同品牌汽車銷量預(yù)測差異非常大（奧迪比本田高了近15%），機(jī)器學(xué)習(xí)模型預(yù)測性能比較穩(wěn)定。所有模型中性能最優(yōu)的是隨機(jī)森林模型，預(yù)測平均誤差為6.4%，比ARIMA模型降低了12.2個(gè)百分點(diǎn)，相比文獻(xiàn)［15］、［16］對(duì)大眾及奧迪相同品牌汽車月度銷量預(yù)測的MAPE分別降低了2.81%和4.63%，預(yù)測精度有了顯著提升。從本質(zhì)上分析，網(wǎng)絡(luò)搜索數(shù)據(jù)與對(duì)應(yīng)品牌汽車銷量之間的關(guān)系并不是單純的線性關(guān)系，其中非線性關(guān)系的程度應(yīng)該大于線性關(guān)系的程度，因而兩種非線性機(jī)器學(xué)習(xí)模型的預(yù)測更為精確。

以“大眾”為例展示各模型測試集的預(yù)測值與實(shí)際值對(duì)比如圖2所示。其中可以看出LASOO線性回歸模型（圖（b））及支持向量回歸模型（圖（c））的預(yù)測精度明顯優(yōu)于ARIMA模型（圖（a）），ARIMA模型雖然能夠預(yù)測銷量的基本趨勢，但整體預(yù)測效果比較差，而且以上三種模型的峰值敏感度都較低，即對(duì)峰值的預(yù)測誤差均比較大。通過與隨機(jī)森林模型（圖（d））進(jìn)行對(duì)比，可以清晰直觀地看出，隨機(jī)森林模型與其他模型相比在峰值預(yù)測準(zhǔn)確度上有明顯差異，顯然隨機(jī)森林模型對(duì)于峰值和整體預(yù)測的結(jié)果都更精確。由此可以得出結(jié)論，針對(duì)汽車品牌粒度的月度銷量預(yù)測問題，建立基于網(wǎng)絡(luò)搜索數(shù)據(jù)關(guān)鍵特征的隨機(jī)森林模型是一種切實(shí)可行的方案。

微信截圖_20180922160750.png

3 結(jié)論

本文以品牌汽車銷量為研究對(duì)象，通過關(guān)鍵詞的選取及拓展，將相關(guān)性分析與基于LASSO的特征選擇相結(jié)合，最終篩選出針對(duì)不同品牌汽車的網(wǎng)絡(luò)搜索數(shù)據(jù)關(guān)鍵特征，在解決多重共線性及減少過擬合的基礎(chǔ)上保留最有效的數(shù)據(jù)，然后分別建立了傳統(tǒng)時(shí)間序列模型及三種機(jī)器學(xué)習(xí)模型，通過對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析，發(fā)現(xiàn)機(jī)器學(xué)習(xí)模型的預(yù)測效果均有顯著優(yōu)勢，其中隨機(jī)森林模型預(yù)測性能最優(yōu)。本文提出的基于網(wǎng)絡(luò)搜索數(shù)據(jù)的預(yù)測方法可以利用前期網(wǎng)絡(luò)搜索數(shù)據(jù)預(yù)測后續(xù)汽車銷量，而相應(yīng)品牌的汽車生產(chǎn)廠商可以根據(jù)預(yù)測結(jié)果及時(shí)調(diào)整企業(yè)的生產(chǎn)和營銷策略。模型的可靠性檢驗(yàn)及推廣應(yīng)用是接下來的研究方向。

參考文獻(xiàn)

［1］中國汽車工業(yè)協(xié)會(huì).中國汽車工業(yè)發(fā)展年度報(bào)告（2016）［Ｍ］.北京：社會(huì)科學(xué)文獻(xiàn)出版社,2016.

［2］黃琦.基于灰色理論的汽車銷售量預(yù)測研究［J］.機(jī)械制造,2013,51(4):78-80.

［3］胡彥君.ARIMA模型在汽車銷量預(yù)測中的應(yīng)用及SAS實(shí)現(xiàn)［J］.河北企業(yè),2012(4):11-12.

［4］王旭天. 基于BP神經(jīng)網(wǎng)絡(luò)的我國汽車銷量預(yù)測分析［D］.上海：東華大學(xué),2016.

［5］袁慶玉,彭賡,劉穎,等.基于網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)的汽車銷量預(yù)測研究［J］.管理學(xué)家(學(xué)術(shù)版),2011(1):12-24.

［6］孔令頂.基于互聯(lián)網(wǎng)搜索量的大眾途觀汽車銷量預(yù)測研究［J］.時(shí)代金融,2015(30):222,226.

［7］王守中,崔東佳,彭賡.基于Web搜索數(shù)據(jù)的寶馬汽車銷量預(yù)測研究［J］.經(jīng)濟(jì)師,2013(12):22-24，26.

［8］ FANTAZZINI D, TOKTAMYSOVA Z. Forecasting german car sales using Google data and multivariate models［J］.International Journal of Production Economics,2015,170: 97-135.

［9］李憶,文瑞,楊立成.網(wǎng)絡(luò)搜索指數(shù)與汽車銷量關(guān)系研究——基于文本挖掘的關(guān)鍵詞獲?。跩］.現(xiàn)代情報(bào),2016,36(8):131-136，177.

［10］趙東波. 線性回歸模型中多重共線性問題的研究［D］.錦州：渤海大學(xué),2017.

［11］李鋒,蓋玉潔,盧一強(qiáng).測量誤差模型的自適應(yīng)LASSO變量選擇方法研究［J］.中國科學(xué):數(shù)學(xué),2014,44(9):983-1006.

［12］劉曉寧.基于Lasso特征選擇的方法比較［J］.安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2014,13(1):26-30.

［13］李春紅,吳英,覃朝勇.基于LASSO變量選擇方法的網(wǎng)絡(luò)廣告點(diǎn)擊率預(yù)測模型研究［J］.數(shù)理統(tǒng)計(jì)與管理,2016,35(5):803-809.

［14］郭貔,王力,郝元濤.基于LASSO回歸模型與百度搜索數(shù)據(jù)構(gòu)建的流感疫情預(yù)測系統(tǒng)［J］.中國衛(wèi)生統(tǒng)計(jì),2017,34(2):186-191.

［15］崔東佳. 大數(shù)據(jù)時(shí)代背景下的品牌汽車銷量預(yù)測的實(shí)證研究［D］.開封：河南大學(xué),2014.

［16］田銳鋒.用季節(jié)性交乘模型預(yù)測奧迪汽車在華銷量［J］.統(tǒng)計(jì)與管理,2016(8):70-71.

（收稿日期：2018-04-03）

作者簡介：

謝天保（1966-），男，博士，副教授，主要研究方向：數(shù)據(jù)挖掘、電子商務(wù)與決策支持。

崔田（1991-），通信作者，男，碩士研究生，主要研究方向：數(shù)據(jù)挖掘、電子商務(wù)。E-mail：328348221@qq.com。

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容