文獻標識碼: A
文章編號: 0258-7998(2015)02-0160-03
0 引言
高復雜度、樣本數(shù)據(jù)規(guī)模的持續(xù)增長是時間序列的兩大特點[1]。時間序列預測算法是從傳統(tǒng)的以ARIMA模型為核心的線性預測算法發(fā)展到以機器學習算法為核心的非線性預測算法。線性預測算法能夠以較低的計算復雜度獲得較為理想的運算結果,非線性預測算法能夠很好地逼近任意復雜度的非線性函數(shù)。而組合預測算法針對同一時間序列,結合線性和非線性模型的優(yōu)點,可以獲得更佳預測效果。
組合預測方法由J.M.Bates和C.WJ.Granger在1969年首次提出,并廣泛應用于各個領域。如ARIMA模型和SVM算法的組合在預測股票走勢時,預測精度與單一模型相比有明顯提高[2]。利用粒子群算法優(yōu)化的BP神經網絡的學習算法,結合ARIMA和GM灰色預測的三個模型的組合預測也證明了其有效性與精確性[3-4]。ARIMA和BP的組合方案被應用于海洋流速、城市交通客流量的預測中[5-6]。
時間序列預測屬于對時間序列規(guī)律的總結歸納,是犯罪數(shù)據(jù)挖掘的重要應用之一[7-8]。在犯罪預測領域,國內外學者進行了一系列研究。如對犯罪預測的研究方法的探索[9];通過相空間重構針對時間序列進行重構,并使用基于粒子群(Particle Swarm Optimized,PSO)優(yōu)化的最小二乘支持向量機LSSVM建立犯罪趨勢預測模型[10];使用SVD算法對犯罪時間序列進行分解及預測[11]等,但單一模型預測的精度還有待改善?;诖?,如何對犯罪時間序列進行精確和高效的預測成為一個重要的研究課題。本文提出的混合模型利用ARIMA、LSSVM和組合預測法的優(yōu)勢,對微軟公共犯罪數(shù)據(jù)集進行建模與預測。通過仿真實驗得出結論,ARIMA-LSSVM混合模型與常用的ARIMA-BP混合模型相比,預測精確度有明顯提高。
1 時間序列預處理-相空間重構
對于高維時間序列數(shù)據(jù),在建模之前需對序列預先進行相空間重構PSR處理。
首先對長度為N的原始時間序列Xt={x1,x2,…,xN}進行處理,得到延遲序列Y(t):
其中,?子稱為延遲算子或采樣算子,m稱為嵌入的維度。
然后建立Y(t)到Y(t+T)的映射函數(shù)關系:
YF(t+T)=f(Y(t))+et(2)
其中,Y(t)為原始序列,YF(t+T)為預測序列,et為典型噪聲因子。
由式(2)可得:
因此預測結果可以表示為:
其中,x為t+T+(m-1)子時刻時間序列的取值。由式(3)和式(4)可知,YF(t+T)中包含主要預測結果。
2 ARIMA模型
ARIMA(Autoregressive Integrated Moving Average Model)模型表達式為ARIMA(p,d,q)。其中d代表差分次數(shù),p和q分別代表自回歸和移動平均系數(shù)。
模型定義如下:
引入延遲算子(B):
模型簡化為:
若xt為非平穩(wěn)序列,通過差分得到平穩(wěn)序列zt:
其中,d為差分次數(shù)。
3 LSSVM模型
最小二乘支持向量機LSSVM 是結構最小化風險函數(shù)為二次損失函數(shù)的支持向量機。
支持向量機分類器的表達式為:
其中,k=1,…,N;?棕為權重值,b為結構風險規(guī)則。xk為輸入模式,yk為輸出。?準為將輸入數(shù)據(jù)映射到高維特征空間的非線性映射。?著k為誤差變量。
對于最小二乘支持向量機,基于結構風險最小化原則,優(yōu)化問題為:
其中,?酌>0,為正則化參數(shù)。
根據(jù)Karush-Kuhn-Tucker(KKT)條件和Mercer條件,LSSVM的優(yōu)化問題轉化為求解線性方程,最后得到方程:
LSSVM的核函數(shù)徑向基RBF核:
其中,?滓為核寬度。RBF內核適用于大多數(shù)預測問題,且效率高,處理速度快。使用粒子群優(yōu)化算法PSO優(yōu)化的LSSVM比傳統(tǒng)LSSVM具有更好的分類效果[12]。
4 ARIMA-LSSVM混合模型
混合模型包括一個線性模型和一個或多個非線性模型?;旌夏P蚙t可以表示為:
Ht=Lt+Nt(13)
其中,Lt和Nt分別為混合模型的線性和非線性成分。
首先由線性模型ARIMA得出序列預測值t,與原序列值相減計算得到預測殘差?著t:
然后用非線性模型LSSVM對殘差序列進行建模:
其中,f(·)為非線性函數(shù),?著t-n為t-n時刻的殘差,?駐t為隨機誤差。
最后,殘差序列經過非線性模型修正后得到t,相加得到最終結果:
Granger的實驗證明混合模型要取得最優(yōu)預測效果,成員模型應該是次優(yōu)的[13]。ARIMA模型在短期預測中預測誤差較小[14],混合模型首先利用ARIMA獲取較為精確的預測序列,與原序列相減得到殘差序列。殘差序列對應于ARIMA無法解釋的非線性規(guī)律,然后使用LSSVM模型對非線性部分進行建模與預測。最后將兩部分的結果相加得到混合模型最終預測結果。算法框架圖如圖1所示。
5 實驗
5.1 數(shù)據(jù)集
實驗數(shù)據(jù)集為1993年~2009年美國警方記錄在案的犯罪數(shù)據(jù)[15],實驗環(huán)境為SPSS16.0和MatlabR2011a。
5.2 預測模型的評判標準
使用如下統(tǒng)計量檢驗模型的擬合效果和預測效果:
其中,Zt、t分別為真實值和預測值。MSE和MAPE分別為均方誤差和平均絕對百分比誤差。n為預測樣本個數(shù)。eMSE和eMAPE值越小,表明模型的預測精度越高。
5.3 預測模型的參數(shù)選擇
ARIMA模型的參數(shù)根據(jù)自相關函數(shù)圖ACF和偏自相關函數(shù)圖PACF進行選擇。LSSVM模型使用RBF核函數(shù)和二維柵格搜索方法尋找最優(yōu)核參數(shù)。BP神經網絡結構設置為3-10-5-1。
5.4 實驗方案
首先對模型ARIMA、GM、BP、LSSVM進行時間序列建模,計算其預測誤差,結果見表1。
結果表明,ARIMA、BP、LSSVM 3種算法的誤差較小。綜合建模和預測效果,選取ARIMA、LSSVM、BP作為對比模型。
然后使用本文提出的 ARIMA-LSSVM 混合模型進行預測,預測的結果對比如圖2所示。橫坐標表示時間序列的序列號K,縱坐標表示對應時刻的犯罪數(shù)據(jù)。K=12,13,14時曲線對應于2007~2009年的預測值。算法預測參數(shù)對比見表2。
實驗結果表明,ARIMA-LSSVM對犯罪時間序列的預測誤差 MAPE遠小于其他預測模型,預測準確度也較高。由于單一的線性模型或者非線性模型預測具有不穩(wěn)定性,而本文選取的模型充分考慮了時間序列的平穩(wěn)和非平穩(wěn)性,使預測容納更多隱含信息,結合模型的優(yōu)勢,大大提高了預測的穩(wěn)定性和精確性,預測的結果更有實際意義。
6 結論
本文使用ARIMA-LSSVM混合模型對犯罪時間序列進行組合預測,結果表明與ARIMA-BP混合模型相比, 該模型對小樣本的犯罪時間序列具有更高的預測精度和有效性。本文屬于針對時間信息的歸納與推測,而結合空間信息和時間信息的時空分析與預測更能體現(xiàn)犯罪數(shù)據(jù)之間的緊密聯(lián)系,分析結果包含更多信息,是未來進一步的研究方向。
參考文獻
[1] 何書元.應用時間序列分析[M].北京:北京大學出版社,2004:185-229.
[2] Pai Pingfeng,Lin Chih-Sheng.A hybrid ARIMA and supportvector machines model in stock price forecasting[J].Omega,2005,33(6):497-505.
[3] 崔吉峰,乞建勛,楊尚東.基于粒子群改進BP神經網絡的組合預測模型及其應用[J].中南大學學報:自然科學版,2009,40(1):190-194.
[4] 單銳,王淑花,李玲玲,等.基于ARIMA,BP神經網絡與GM的組合模型[J].遼寧工程技術大學學報:自然科學版,2012,31(1):118-122.
[5] 董世超.基于ARIMA-BP神經網絡模型海流流速預測研究[J].中國科技信息,2014(2):86-88.
[6] 劉杰.城市交通樞紐短期客流量的組合預測模型[J].交通信息與安全,2014(2):41-44.
[7] Fu Tak-chung.A review on time series data mining[C].Engineering Applications of Artificial Intelligence,2011,24(1):164-181.
[8] Yu Chung-Hsien.Crime forecasting using data mining techniques[C].Data Mining Workshops(ICDMW),2011 IEEE11th International Conference on.IEEE,2011:779-786.
[9] 黃超,李繼紅.犯罪預測的方法[J].江蘇警官學院學報,2011,26(1):107-110.
[10] 王少軍.時間序列預測的可重構計算研究[D].哈爾濱:哈爾濱工業(yè)大學, 2012.
[11] JIANG Q,BARRICARTE J J S.A crime rate forecast and decomposition method[J].International Journal of Crimino-logy and Sociological Theory,2011,4(2):648-656.
[12] ALWEE R,SHAMSUDDIN S M,SALLEHUDDIN R.Hybrid support vector regression and autoregressive integ-rated moving average models improved by particle swarm optimization for property crime rates forecasting with economic indicators[J].The Scientific World Journal,2013(1):951475.
[13] Yearly time series(1993-2012),provided by Eurostat(website)[DB/CD].https://datamarket.com/data/set/1c05/crimes-recorded-by-the-police#!ds=1c05!vwx=6:6fwj=3.6.a.11.19&display=l.
[14] 陳昌和,李清海,張衍國,等.爐排-循環(huán)床復合垃圾焚燒爐燃燒過程模型[J].清華大學學報(自然科學版),2008,48(5):832-835.
[15] Yang Xiaoguang.An empirical study on stock price based on ARIMA model[C].International Conference on LogisticsEngineering,Management and Computer Science,LEMCS,2014:273-276.