摘 要: 針對現(xiàn)有話務(wù)預測模型變量單一、預測誤差大等問題引入了逐步回歸分析法;結(jié)合海河銀行信用卡呼叫中心實際需求,對話務(wù)數(shù)據(jù)進行了抽取集成等預處理操作;隨之建立了各影響因素的一元回歸模型,并在此基礎(chǔ)上得到了多元逐步回歸的話務(wù)預測模型;最后將此建模方法與其他分析法進行了綜合比較并給出評價。
關(guān)鍵詞: 話務(wù)預測;回歸分析;逐步回歸;時間序列分析
0 引言
目前許多企業(yè)的呼叫中心都面臨著話務(wù)量激增、話務(wù)員大幅度增長的問題,如何準確預測話務(wù)量對移動通信網(wǎng)絡(luò)的管理具有重大的意義。
當前,建立預測模型的主要方法有Kalman濾波[1-2]、時間序列預測[3-4]、話務(wù)量OLAP分析[5]等。其中Kalman濾波和時間序列預測法相對簡單,但難以滿足現(xiàn)階段話務(wù)量的復雜變化,話務(wù)量OLAP分析技術(shù)則處于起步階段,并沒有大范圍地推廣應(yīng)用。國內(nèi)各廠商的話務(wù)預測基本是以各種時間序列模型作為預測的核心技術(shù),僅僅基于話務(wù)數(shù)據(jù),使用時間序列回歸預測法和指數(shù)平滑預測法[6]進行預測。然而這兩種方法都不適用于具有季節(jié)變動規(guī)律的分月話務(wù)量預測。因此當前迫切需要的話務(wù)預測模型是基于多因素預測話務(wù)量波動趨勢的模型。
本文通過比較不同回歸分析法的優(yōu)缺點,提出使用逐步回歸分析法解決預測話務(wù)量不夠精準、運算量太大的問題。以海河銀行信用卡業(yè)務(wù)呼叫中心為實例,重點闡述了多元逐步回歸話務(wù)預測模型的建模過程,并做了模型顯著性檢驗。最后通過與其他回歸分析法及時間序列分析法的比較,證明了基于逐步回歸分析的話務(wù)預測模型在曲線擬合度、運算量等方面具有更優(yōu)的性能。
1 逐步回歸分析法介紹
回歸分析是一種研究多個變量之間的函數(shù)關(guān)系的統(tǒng)計分析方法,如果能找到影響預測對象的主要因素,并且取得準確的數(shù)量資料,就可以采用回歸分析法來進行預測。銀行信用卡中心的話務(wù)量與其業(yè)務(wù)辦理相關(guān),影響因素可以明確提煉,并且與話務(wù)量相關(guān)的記錄數(shù)據(jù)獲取難度不大,因此十分符合回歸分析法的要求。
回歸方法一般分為窮盡法、逐步剔除法、逐步加入法和逐步回歸分析法。窮盡法的工作量極大,一般很少使用;逐步剔除法需要把所有變量都引入回歸函數(shù),對類似海河銀行這樣大型的話務(wù)中心而言,成本開銷太大,難以推廣;逐步加入法雖不需將所有變量都引入函數(shù),但沒有考慮引入新自變量后,現(xiàn)有的自變量顯著程度是否變化。在此基礎(chǔ)上,引入逐步回歸分析法來解決建模過程中計算量與顯著程度相沖突的問題。
逐步回歸分析法的核心思想是考慮自變量對因變量的影響顯著程度,從大至小一一引入回歸函數(shù)。每次引入都是剩下的自變量中對因變量影響最為顯著的自變量,因此可減少一定的計算量。另外,引入新的自變量后,需要對函數(shù)中現(xiàn)有的老的自變量做檢驗,查看其是否還有很高的顯著程度。如其顯著程度很低,則將它從回歸函數(shù)中剔除。最終得到的回歸函數(shù)既不會遺漏對因變量影響顯著的自變量,也不會包含那些影響不大的自變量。
2 逐步回歸模型建立
影響信用卡中心客服話務(wù)量的因素基本包括信用卡的所有業(yè)務(wù),需要從銷售、審批、帳務(wù)、促銷等多個方面選擇一些重要因素參與預測模型的探索。
2.1 相關(guān)數(shù)據(jù)抽取和集成
模型的建立以海河銀行信用卡中心近幾年各系統(tǒng)的數(shù)據(jù)為基礎(chǔ),由于數(shù)據(jù)量巨大且在原系統(tǒng)內(nèi)做數(shù)據(jù)集成必然會對生產(chǎn)環(huán)境系統(tǒng)的運行產(chǎn)生影響,因此,增加了原系統(tǒng)明細數(shù)據(jù)層。為了提高數(shù)據(jù)抽取的速度,保持原系統(tǒng)明細數(shù)據(jù)層的數(shù)據(jù)與原系統(tǒng)數(shù)據(jù)的一致性,并且降低對生產(chǎn)環(huán)境運行系統(tǒng)的影響,抽取過程遵循以下原則:
?。?)以時間字段作為唯一過濾條件;
(2)只抽取需要使用的部分表的部分字段。
基于以上原則,可以有效避免因為其他邏輯缺陷,導致數(shù)據(jù)重復抽取或遺漏抽取的可能性。數(shù)據(jù)抽取后,可通過按日期分組聚合影響因素的方法,統(tǒng)計發(fā)卡數(shù)、臨時額度調(diào)整數(shù)量、賬單或交易分期申請數(shù)量等信息。也可依照其他類別分組聚合影響因素,統(tǒng)計特定信息,如審批拒絕數(shù)量、各類短信發(fā)送數(shù)量等。
2.2 集成數(shù)據(jù)層數(shù)據(jù)清洗
從原系統(tǒng)明細數(shù)據(jù)層集成后的數(shù)據(jù)被存入集成數(shù)據(jù)層,雖然此層存放了用于下階段數(shù)據(jù)挖掘所需的全部數(shù)據(jù),但直接用于探索模型會出現(xiàn)很多噪音,影響模型探索和預測的準確度,因此數(shù)據(jù)清洗是不可或缺的。
?。?)錯誤數(shù)據(jù)
話務(wù)量數(shù)據(jù)是從客戶服務(wù)系統(tǒng)和CTI系統(tǒng)關(guān)聯(lián)得到,由于每個系統(tǒng)都存在一定的缺陷,一旦系統(tǒng)發(fā)生故障,可能會丟失故障期間接入的通話信息,或者正常的話務(wù)信息會統(tǒng)計出錯,有時被翻倍統(tǒng)計。因此需要給話務(wù)量受影響較大的故障日期增加故障標志位。
依次比對故障日期前后幾天話務(wù)量的數(shù)據(jù)變化,發(fā)現(xiàn)此類數(shù)據(jù)沒有任何規(guī)律和趨勢可循,有時甚至相差很大。由于客戶服務(wù)系統(tǒng)和CTI系統(tǒng)的故障會直接影響到此次模型的因變量話務(wù)量,如果通過其他技術(shù)手段更新故障當天的話務(wù)量未必會對模型探索有所幫助,甚至可能會由于估計值和實際值相差很大而影響預測模型的準確性。因此在此次數(shù)據(jù)清洗中,把存在故障標志位的數(shù)據(jù)排除在外,不作為模型探索的基礎(chǔ)數(shù)據(jù)。
(2)空值處理
實際生產(chǎn)業(yè)務(wù)中可能會有很多原因?qū)е履硯讉€日期的某些話務(wù)量影響因素存在空值。經(jīng)檢查數(shù)據(jù)中心7×24監(jiān)控的系統(tǒng)運行狀況,在數(shù)據(jù)為空的日期,當晚賬單分期和交易分期的申請單跑批處理失敗,因此會被加入第二天數(shù)據(jù)一起重新跑批。由此,將賬單分期和交易分期的申請數(shù)量出現(xiàn)空值后第二天的數(shù)據(jù)除以2(個別日期追尋至后3天),計算這幾天的算術(shù)平均值,并分別將其記為這幾天的賬單分期和交易分期的申請數(shù)量。類似地如果空值前后幾天數(shù)據(jù)沒有翻倍等現(xiàn)象,將空值前后一天或幾天的數(shù)量相加,求其算術(shù)平均值當作空值當天的數(shù)量。
?。?)字段衍生
很多潛在的變量有時會對模型起到關(guān)鍵的影響[7]。某些影響因素,其數(shù)量可能對當天的話務(wù)量不一定產(chǎn)生直接影響,但對于其前后幾天的話務(wù)量必定會產(chǎn)生影響。例如賬單日數(shù)量,很少有客戶會在賬單日當天一出賬單,立即致電給呼叫中心,一般會推遲幾天。
由此,當天的話務(wù)量不僅僅只與當天的賬單日數(shù)量相關(guān),應(yīng)與賬單日前4天和后2天的數(shù)量都相關(guān)。在此,采取類似移動平均的算法,將賬單日前4天、當天、后2天的賬單數(shù)量相加,除以7求其算術(shù)平均值作為衍生的賬單日數(shù)量字段。
2.3 自變量篩選
影響話務(wù)量的因素較多,并不是所有因素對話務(wù)量都會產(chǎn)生很大影響。有時非重要的影響因素的加入,對模型的準確度提高不多,但卻使模型復雜度急劇增加。因此,本文使用SPSS平臺的分類回歸樹模型,通過尋找回歸樹的最佳分支選擇影響因素作為模型自變量。
假設(shè)話務(wù)量和各影響因素存在如式(1)函數(shù)關(guān)系,其中{y1,y2,y3…yn}表示話務(wù)量所有值的集合,橫排{xn1,xn2,xn3…xnm}表示不同的話務(wù)量影響因素,豎列{x11,x21,x31…xn1}表示某個影響因素不同日期的值。
先計算所有因變量話務(wù)量的平均值,如式(2):
在所有話務(wù)量影響因素中任選一個影響因素,在此取發(fā)卡量,將其按照發(fā)卡量排序,取第一條發(fā)卡數(shù)值,將回歸樹劃分為左右子樹。取其對應(yīng)的話務(wù)量,分別計算其平方和離差。然后,再取前2個發(fā)卡數(shù)值,將回歸樹劃分為左右子樹,計算其平方和離差。以此類推,計算出所有可能的平方和離差。式(4)為計算樹的離均差平方和與左、右子樹的離均差平方和之差S。
S=SS-SSL-SSR=6 254 521 322(4)
在所有左右子樹劃分中,取最大的S值時的劃分為發(fā)卡量的最佳劃分。以同樣的方法,對所有的影響因素計算其最大的S值,從每個影響因素的最大S值中,取最大值的那個影響因素為所有影響因素的最重要影響因素。因為“發(fā)卡數(shù)”、“固定額度調(diào)整通知短信數(shù)量”和“額度不足和超限提醒短信數(shù)量”這三個影響因素的重要性都達到80%以上,理應(yīng)對模型有較高的擬合度。把它們作為預測模型建立的自變量,將話務(wù)量作為預測模型建立的因變量。
2.4 一元回歸模型
首先建立發(fā)卡數(shù)與話務(wù)量的一元回歸模型。在SPSS平臺中導入發(fā)卡數(shù)與話務(wù)量的詳細歷史數(shù)據(jù),將話務(wù)量作為Y軸變量,發(fā)卡數(shù)作為X軸變量,得到其散點圖。從整體發(fā)展趨勢看,話務(wù)量和發(fā)卡數(shù)量確實存在一定關(guān)系,但具體屬于哪種關(guān)系,只憑肉眼觀察無法明確判斷。為了進一步確定其函數(shù)關(guān)系,使用SPSS的曲線估計功能,選擇包括“線性”、“對數(shù)”、“倒數(shù)”、“二次”、“三次”、“復合”、“冪”、“S”、“增長”、“指數(shù)”10個模型加以分析。最終得到模型的曲線擬合圖如圖1所示,模型匯總和參數(shù)估計值如表1所示。
從各模型的R方分析可見,三次方程的曲線擬合度最高。因此,話務(wù)量和發(fā)卡數(shù)存在三次方程的關(guān)系,如式(5)。其中Y為話務(wù)量,X為發(fā)卡數(shù),C0、C1、C2、C3為常數(shù)。
Y=C0+C1X+C2X2+C3X3(5)
同理可得固定額度調(diào)整通知短信數(shù)量與話務(wù)量關(guān)系以及額度不足和超限提醒短信數(shù)量與話務(wù)量關(guān)系都較為符合以下對數(shù)函數(shù)關(guān)系:
Y=C0+C1lnX(6)
由此,因變量話務(wù)量分別與發(fā)卡數(shù)、固定額度調(diào)整通知短信數(shù)量、額度不足和超限提醒短信數(shù)量這三個最重要的影響因素之間建立了一元非線性回歸模型,為之后多元逐步回歸模型的建立奠定了重要基礎(chǔ)。
2.5 模型線性化
為了方便最終模型的生成,先將比較難處理的非線性回歸問題轉(zhuǎn)換為容易處理的線性回歸問題。
?。?)發(fā)卡數(shù)
令X=P1、X2=P2、X3=P3,則轉(zhuǎn)換后的方程如式(7)所示:
Y=C0+C1P1+C2P2+C3P3(7)
轉(zhuǎn)換后的方程由原來只有發(fā)卡數(shù)一個自變量變?yōu)?個自變量。為了保持對應(yīng),用于訓練模型,需將原始數(shù)據(jù)也相應(yīng)地增加至3個自變量。這3個自變量分別為發(fā)卡數(shù)(原始值)、發(fā)卡數(shù)的平方值和發(fā)卡數(shù)的立方值。
?。?)固定額度調(diào)整通知短信數(shù)量
令N=lnX,對數(shù)函數(shù)方程轉(zhuǎn)化為:
Y=C0+C1N(8)
其中新自變量N為原自變量固定額度調(diào)整通知短信數(shù)量的對數(shù)值。
?。?)額度不足和超限提醒短信數(shù)量
令X′=lnX,則轉(zhuǎn)換后的線性函數(shù)方程為:
Y=C0+C1X′(9)
其中變量X′為原額度不足和超限提醒短信數(shù)量的對數(shù)值。
2.6 多元逐步回歸模型
雖然每個重要影響因素與話務(wù)量都存在一定的關(guān)系,但從單個函數(shù)方程的R方得知,其影響程度并不明顯。如果將每個重要影響因素與話務(wù)量的相關(guān)性做累加,勢必能得到一個回歸效果更顯著的方程,如式(10)所示。其中Y代表話務(wù)量,C0~C5為常數(shù),X1代表發(fā)卡數(shù),X2代表固定額度調(diào)整通知短信數(shù)量,X3代表額度不足和超限提醒短信數(shù)量。
Y=C0+C1X1+C2X12+C3X13+C4lnX2+C5lnX3(10)
基于式(7)~(9)所示方程,將所有重要影響因素的公式相加,與非線性模型(式(10))相對應(yīng),并只保留一個常數(shù)項,生成線性的五元一次方程,如式(11)所示。
Y=C0+C1P1+C2P2+C3P3+C4P4+C5P5(11)
其中Y表示話務(wù)量,P1表示發(fā)卡數(shù)(原始值),P2表示發(fā)卡數(shù)的平方值,P3表示發(fā)卡數(shù)的立方值,P4表示固定額度調(diào)整通知短信數(shù)量的對數(shù)值,P5表示額度不足和超限提醒短信數(shù)量的對數(shù)值,C0~C5為常數(shù)。采用逐步回歸分析法,將各自變量依次添加進回歸方程,每次都對方程中各自變量進行F顯著性檢驗。
從試驗結(jié)果得知,整個逐步回歸過程中,每加入一個自變量,其F檢驗值都小于F0.05,因此沒有影響因素從方程中剔除。最終模型R方變化過程如表2所示。
由此可見,在逐步添加影響因素時,調(diào)整R方由0.780上升到0.872,說明整個方程具有一定的擬合度。從調(diào)整R方的變化趨勢來看,最后一個影響因素的加入其增幅只有0.001,再增加影響因素對整個方程的擬合度影響不大。最終取得回歸模型各系數(shù)值如表3所示。
3 實驗分析
從模型擬合度看,最終多元逐步回歸模型的R方為0.872,明顯高于前三種一元回歸模型(R方分別為 0.796、0.659、0.751)。只以“發(fā)卡數(shù)”、“固定額度調(diào)整通知短信數(shù)量”或者“額度不足和超限提醒短信數(shù)量”一種影響因素來預測話務(wù)量走勢是不夠精確的。此類分析法雖然快速簡單、易于實現(xiàn),但預測誤差很大,因而沒有實用價值。
相比于其他多元回歸分析法,逐步回歸分析是較為折中的算法。既不會像窮盡法那樣生成很多回歸方程,又能動態(tài)加入和剔除自變量,提高回歸方程的顯著性,消除重復共線性。因此應(yīng)用逐步回歸分析法建立話務(wù)量預測模型是極具現(xiàn)實意義的一項研究。
時間序列被定義為按照時間先后順序排列的一組定量觀測[8],時間序列分析指對其觀察、研究,找到其隱藏的、不被人們所熟知的變化規(guī)律和趨勢,從而創(chuàng)建模型,預測未來的此類數(shù)據(jù)的走勢的方法[9]。若時間序列平穩(wěn),可以用自回歸模型AR(p)、滑動平均MA模型、自回歸移動平均模型ARMA(p,q)來進行分析。ARMA模型能夠較好地描述時間序列,但是其前提是時間序列是平穩(wěn)的,缺點是預測速度慢??紤]到信用卡呼叫中心話務(wù)量可能存在循環(huán)周期性變動,在此選擇ARIMA模型[10]。預測走勢如圖2所示。
很明顯,前半部分話務(wù)量總體基本很平穩(wěn),但后半部分明顯出現(xiàn)一個向上增長的整體趨勢。這也和海河銀行信用卡中心近幾年響應(yīng)總行的“大力發(fā)展信用卡業(yè)務(wù)”相吻合。從擬合度看,時間序列分析法模型統(tǒng)計出的R方為0.65,而逐步回歸模型得到的R方為0.872。顯然通過逐步回歸分析預測話務(wù)量的模型擬合度更高。
究其原因,時間序列分析法只是挖掘了隨時間推移的話務(wù)量波動趨勢,而基于多個影響因素的逐步回歸分析法,除了考慮海河銀行信用卡發(fā)行規(guī)模擴大的影響因素外,還增加了固定額度調(diào)整通知短信數(shù)量以及額度不足和超限提醒短信數(shù)量,從三個方面綜合預測未來話務(wù)量的整體走勢。上述實驗也證明了逐步回歸分析法的模型擬合度要高于時間序列分析法。
4 結(jié)論
基于逐步回歸的多元非線性話務(wù)預測模型能夠依照各影響因素而變化,預測較為準確,誤差水平低。就算法復雜度而言,基于時間序列的模型更簡單直觀、易于實現(xiàn)。如果能將其與回歸預測模型相結(jié)合,交替使用,可進一步提高預測的準確性并降低時間復雜度。同時逐步回歸分析法也有自身局限性,一般適合于有明顯的增長特性和階段特征的大話務(wù)量預測,預測周期通常以月和年等為單位。對于話務(wù)變化劇烈、量級小、時間短的話務(wù)量預測,可能會因誤差較大而無法使用。此方法有待于進一步研究。
參考文獻
[1] GREWAL M S, ANDREWS A P. Kalman filtering: theory and practice using MATLAB[M]. New York: John Wiley & Sons, 2011.
[2] HARVEY A C. Forecasting, structural time series models and the Kalman filter[M]. Cambridge: Cambridge University press, 1990.
[3] CORTEZ P, RIO M, ROCHA M, et al. Multi-scale Internet traffic forecasting using neural networks and time series methods[J]. Expert Systems. 2012,29(2):143-155.
[4] DURBIN J, KOOPMAN S J. Time series analysis by state space methods[M]. Oxford: Oxford University Press, 2012.
[5] FENG H. Performance problems of forecasting systems[C]. In 15th East-European conference on Advances in Databases and Information Systems, 2011:254-261.
[6] 程偉.基于季節(jié)變動模型的話務(wù)量預測[J].湖北郵電技術(shù),2000(3):24-26.
[7] STANEK D M, MOKHTARIAN P L. Developing models of preference for home-based and center-based telecommunting: Findings and forecasts[J]. Technological Forecasting and Social Change, 1998,57(1):53-74.
[8] KIRCHG?魧SSNER G, WOLTERS J, HASSLER U. Introduction to modern time series analysis[M]. Berlin:Springer, 2012.
[9] 劉童.話務(wù)量時間序列預測方法的實現(xiàn)[D].長春:吉林大學,2008.
[10] MADDEN G, SAVAGE S J, COBLE-NEAL G. Forecasting United States-Asia international message telephone service[J]. International Journal of Forecasting, 2002, 18(4): 523-543.