摘 要: 針對(duì)現(xiàn)有話務(wù)預(yù)測(cè)模型變量單一、預(yù)測(cè)誤差大等問題引入了逐步回歸分析法;結(jié)合海河銀行信用卡呼叫中心實(shí)際需求,對(duì)話務(wù)數(shù)據(jù)進(jìn)行了抽取集成等預(yù)處理操作;隨之建立了各影響因素的一元回歸模型,并在此基礎(chǔ)上得到了多元逐步回歸的話務(wù)預(yù)測(cè)模型;最后將此建模方法與其他分析法進(jìn)行了綜合比較并給出評(píng)價(jià)。
關(guān)鍵詞: 話務(wù)預(yù)測(cè);回歸分析;逐步回歸;時(shí)間序列分析
0 引言
目前許多企業(yè)的呼叫中心都面臨著話務(wù)量激增、話務(wù)員大幅度增長(zhǎng)的問題,如何準(zhǔn)確預(yù)測(cè)話務(wù)量對(duì)移動(dòng)通信網(wǎng)絡(luò)的管理具有重大的意義。
當(dāng)前,建立預(yù)測(cè)模型的主要方法有Kalman濾波[1-2]、時(shí)間序列預(yù)測(cè)[3-4]、話務(wù)量OLAP分析[5]等。其中Kalman濾波和時(shí)間序列預(yù)測(cè)法相對(duì)簡(jiǎn)單,但難以滿足現(xiàn)階段話務(wù)量的復(fù)雜變化,話務(wù)量OLAP分析技術(shù)則處于起步階段,并沒有大范圍地推廣應(yīng)用。國(guó)內(nèi)各廠商的話務(wù)預(yù)測(cè)基本是以各種時(shí)間序列模型作為預(yù)測(cè)的核心技術(shù),僅僅基于話務(wù)數(shù)據(jù),使用時(shí)間序列回歸預(yù)測(cè)法和指數(shù)平滑預(yù)測(cè)法[6]進(jìn)行預(yù)測(cè)。然而這兩種方法都不適用于具有季節(jié)變動(dòng)規(guī)律的分月話務(wù)量預(yù)測(cè)。因此當(dāng)前迫切需要的話務(wù)預(yù)測(cè)模型是基于多因素預(yù)測(cè)話務(wù)量波動(dòng)趨勢(shì)的模型。
本文通過比較不同回歸分析法的優(yōu)缺點(diǎn),提出使用逐步回歸分析法解決預(yù)測(cè)話務(wù)量不夠精準(zhǔn)、運(yùn)算量太大的問題。以海河銀行信用卡業(yè)務(wù)呼叫中心為實(shí)例,重點(diǎn)闡述了多元逐步回歸話務(wù)預(yù)測(cè)模型的建模過程,并做了模型顯著性檢驗(yàn)。最后通過與其他回歸分析法及時(shí)間序列分析法的比較,證明了基于逐步回歸分析的話務(wù)預(yù)測(cè)模型在曲線擬合度、運(yùn)算量等方面具有更優(yōu)的性能。
1 逐步回歸分析法介紹
回歸分析是一種研究多個(gè)變量之間的函數(shù)關(guān)系的統(tǒng)計(jì)分析方法,如果能找到影響預(yù)測(cè)對(duì)象的主要因素,并且取得準(zhǔn)確的數(shù)量資料,就可以采用回歸分析法來(lái)進(jìn)行預(yù)測(cè)。銀行信用卡中心的話務(wù)量與其業(yè)務(wù)辦理相關(guān),影響因素可以明確提煉,并且與話務(wù)量相關(guān)的記錄數(shù)據(jù)獲取難度不大,因此十分符合回歸分析法的要求。
回歸方法一般分為窮盡法、逐步剔除法、逐步加入法和逐步回歸分析法。窮盡法的工作量極大,一般很少使用;逐步剔除法需要把所有變量都引入回歸函數(shù),對(duì)類似海河銀行這樣大型的話務(wù)中心而言,成本開銷太大,難以推廣;逐步加入法雖不需將所有變量都引入函數(shù),但沒有考慮引入新自變量后,現(xiàn)有的自變量顯著程度是否變化。在此基礎(chǔ)上,引入逐步回歸分析法來(lái)解決建模過程中計(jì)算量與顯著程度相沖突的問題。
逐步回歸分析法的核心思想是考慮自變量對(duì)因變量的影響顯著程度,從大至小一一引入回歸函數(shù)。每次引入都是剩下的自變量中對(duì)因變量影響最為顯著的自變量,因此可減少一定的計(jì)算量。另外,引入新的自變量后,需要對(duì)函數(shù)中現(xiàn)有的老的自變量做檢驗(yàn),查看其是否還有很高的顯著程度。如其顯著程度很低,則將它從回歸函數(shù)中剔除。最終得到的回歸函數(shù)既不會(huì)遺漏對(duì)因變量影響顯著的自變量,也不會(huì)包含那些影響不大的自變量。
2 逐步回歸模型建立
影響信用卡中心客服話務(wù)量的因素基本包括信用卡的所有業(yè)務(wù),需要從銷售、審批、帳務(wù)、促銷等多個(gè)方面選擇一些重要因素參與預(yù)測(cè)模型的探索。
2.1 相關(guān)數(shù)據(jù)抽取和集成
模型的建立以海河銀行信用卡中心近幾年各系統(tǒng)的數(shù)據(jù)為基礎(chǔ),由于數(shù)據(jù)量巨大且在原系統(tǒng)內(nèi)做數(shù)據(jù)集成必然會(huì)對(duì)生產(chǎn)環(huán)境系統(tǒng)的運(yùn)行產(chǎn)生影響,因此,增加了原系統(tǒng)明細(xì)數(shù)據(jù)層。為了提高數(shù)據(jù)抽取的速度,保持原系統(tǒng)明細(xì)數(shù)據(jù)層的數(shù)據(jù)與原系統(tǒng)數(shù)據(jù)的一致性,并且降低對(duì)生產(chǎn)環(huán)境運(yùn)行系統(tǒng)的影響,抽取過程遵循以下原則:
(1)以時(shí)間字段作為唯一過濾條件;
(2)只抽取需要使用的部分表的部分字段。
基于以上原則,可以有效避免因?yàn)槠渌壿嬋毕?,?dǎo)致數(shù)據(jù)重復(fù)抽取或遺漏抽取的可能性。數(shù)據(jù)抽取后,可通過按日期分組聚合影響因素的方法,統(tǒng)計(jì)發(fā)卡數(shù)、臨時(shí)額度調(diào)整數(shù)量、賬單或交易分期申請(qǐng)數(shù)量等信息。也可依照其他類別分組聚合影響因素,統(tǒng)計(jì)特定信息,如審批拒絕數(shù)量、各類短信發(fā)送數(shù)量等。
2.2 集成數(shù)據(jù)層數(shù)據(jù)清洗
從原系統(tǒng)明細(xì)數(shù)據(jù)層集成后的數(shù)據(jù)被存入集成數(shù)據(jù)層,雖然此層存放了用于下階段數(shù)據(jù)挖掘所需的全部數(shù)據(jù),但直接用于探索模型會(huì)出現(xiàn)很多噪音,影響模型探索和預(yù)測(cè)的準(zhǔn)確度,因此數(shù)據(jù)清洗是不可或缺的。
?。?)錯(cuò)誤數(shù)據(jù)
話務(wù)量數(shù)據(jù)是從客戶服務(wù)系統(tǒng)和CTI系統(tǒng)關(guān)聯(lián)得到,由于每個(gè)系統(tǒng)都存在一定的缺陷,一旦系統(tǒng)發(fā)生故障,可能會(huì)丟失故障期間接入的通話信息,或者正常的話務(wù)信息會(huì)統(tǒng)計(jì)出錯(cuò),有時(shí)被翻倍統(tǒng)計(jì)。因此需要給話務(wù)量受影響較大的故障日期增加故障標(biāo)志位。
依次比對(duì)故障日期前后幾天話務(wù)量的數(shù)據(jù)變化,發(fā)現(xiàn)此類數(shù)據(jù)沒有任何規(guī)律和趨勢(shì)可循,有時(shí)甚至相差很大。由于客戶服務(wù)系統(tǒng)和CTI系統(tǒng)的故障會(huì)直接影響到此次模型的因變量話務(wù)量,如果通過其他技術(shù)手段更新故障當(dāng)天的話務(wù)量未必會(huì)對(duì)模型探索有所幫助,甚至可能會(huì)由于估計(jì)值和實(shí)際值相差很大而影響預(yù)測(cè)模型的準(zhǔn)確性。因此在此次數(shù)據(jù)清洗中,把存在故障標(biāo)志位的數(shù)據(jù)排除在外,不作為模型探索的基礎(chǔ)數(shù)據(jù)。
?。?)空值處理
實(shí)際生產(chǎn)業(yè)務(wù)中可能會(huì)有很多原因?qū)е履硯讉€(gè)日期的某些話務(wù)量影響因素存在空值。經(jīng)檢查數(shù)據(jù)中心7×24監(jiān)控的系統(tǒng)運(yùn)行狀況,在數(shù)據(jù)為空的日期,當(dāng)晚賬單分期和交易分期的申請(qǐng)單跑批處理失敗,因此會(huì)被加入第二天數(shù)據(jù)一起重新跑批。由此,將賬單分期和交易分期的申請(qǐng)數(shù)量出現(xiàn)空值后第二天的數(shù)據(jù)除以2(個(gè)別日期追尋至后3天),計(jì)算這幾天的算術(shù)平均值,并分別將其記為這幾天的賬單分期和交易分期的申請(qǐng)數(shù)量。類似地如果空值前后幾天數(shù)據(jù)沒有翻倍等現(xiàn)象,將空值前后一天或幾天的數(shù)量相加,求其算術(shù)平均值當(dāng)作空值當(dāng)天的數(shù)量。
(3)字段衍生
很多潛在的變量有時(shí)會(huì)對(duì)模型起到關(guān)鍵的影響[7]。某些影響因素,其數(shù)量可能對(duì)當(dāng)天的話務(wù)量不一定產(chǎn)生直接影響,但對(duì)于其前后幾天的話務(wù)量必定會(huì)產(chǎn)生影響。例如賬單日數(shù)量,很少有客戶會(huì)在賬單日當(dāng)天一出賬單,立即致電給呼叫中心,一般會(huì)推遲幾天。
由此,當(dāng)天的話務(wù)量不僅僅只與當(dāng)天的賬單日數(shù)量相關(guān),應(yīng)與賬單日前4天和后2天的數(shù)量都相關(guān)。在此,采取類似移動(dòng)平均的算法,將賬單日前4天、當(dāng)天、后2天的賬單數(shù)量相加,除以7求其算術(shù)平均值作為衍生的賬單日數(shù)量字段。
2.3 自變量篩選
影響話務(wù)量的因素較多,并不是所有因素對(duì)話務(wù)量都會(huì)產(chǎn)生很大影響。有時(shí)非重要的影響因素的加入,對(duì)模型的準(zhǔn)確度提高不多,但卻使模型復(fù)雜度急劇增加。因此,本文使用SPSS平臺(tái)的分類回歸樹模型,通過尋找回歸樹的最佳分支選擇影響因素作為模型自變量。
假設(shè)話務(wù)量和各影響因素存在如式(1)函數(shù)關(guān)系,其中{y1,y2,y3…yn}表示話務(wù)量所有值的集合,橫排{xn1,xn2,xn3…xnm}表示不同的話務(wù)量影響因素,豎列{x11,x21,x31…xn1}表示某個(gè)影響因素不同日期的值。
先計(jì)算所有因變量話務(wù)量的平均值,如式(2):
在所有話務(wù)量影響因素中任選一個(gè)影響因素,在此取發(fā)卡量,將其按照發(fā)卡量排序,取第一條發(fā)卡數(shù)值,將回歸樹劃分為左右子樹。取其對(duì)應(yīng)的話務(wù)量,分別計(jì)算其平方和離差。然后,再取前2個(gè)發(fā)卡數(shù)值,將回歸樹劃分為左右子樹,計(jì)算其平方和離差。以此類推,計(jì)算出所有可能的平方和離差。式(4)為計(jì)算樹的離均差平方和與左、右子樹的離均差平方和之差S。
S=SS-SSL-SSR=6 254 521 322(4)
在所有左右子樹劃分中,取最大的S值時(shí)的劃分為發(fā)卡量的最佳劃分。以同樣的方法,對(duì)所有的影響因素計(jì)算其最大的S值,從每個(gè)影響因素的最大S值中,取最大值的那個(gè)影響因素為所有影響因素的最重要影響因素。因?yàn)椤鞍l(fā)卡數(shù)”、“固定額度調(diào)整通知短信數(shù)量”和“額度不足和超限提醒短信數(shù)量”這三個(gè)影響因素的重要性都達(dá)到80%以上,理應(yīng)對(duì)模型有較高的擬合度。把它們作為預(yù)測(cè)模型建立的自變量,將話務(wù)量作為預(yù)測(cè)模型建立的因變量。
2.4 一元回歸模型
首先建立發(fā)卡數(shù)與話務(wù)量的一元回歸模型。在SPSS平臺(tái)中導(dǎo)入發(fā)卡數(shù)與話務(wù)量的詳細(xì)歷史數(shù)據(jù),將話務(wù)量作為Y軸變量,發(fā)卡數(shù)作為X軸變量,得到其散點(diǎn)圖。從整體發(fā)展趨勢(shì)看,話務(wù)量和發(fā)卡數(shù)量確實(shí)存在一定關(guān)系,但具體屬于哪種關(guān)系,只憑肉眼觀察無(wú)法明確判斷。為了進(jìn)一步確定其函數(shù)關(guān)系,使用SPSS的曲線估計(jì)功能,選擇包括“線性”、“對(duì)數(shù)”、“倒數(shù)”、“二次”、“三次”、“復(fù)合”、“冪”、“S”、“增長(zhǎng)”、“指數(shù)”10個(gè)模型加以分析。最終得到模型的曲線擬合圖如圖1所示,模型匯總和參數(shù)估計(jì)值如表1所示。
從各模型的R方分析可見,三次方程的曲線擬合度最高。因此,話務(wù)量和發(fā)卡數(shù)存在三次方程的關(guān)系,如式(5)。其中Y為話務(wù)量,X為發(fā)卡數(shù),C0、C1、C2、C3為常數(shù)。
Y=C0+C1X+C2X2+C3X3(5)
同理可得固定額度調(diào)整通知短信數(shù)量與話務(wù)量關(guān)系以及額度不足和超限提醒短信數(shù)量與話務(wù)量關(guān)系都較為符合以下對(duì)數(shù)函數(shù)關(guān)系:
Y=C0+C1lnX(6)
由此,因變量話務(wù)量分別與發(fā)卡數(shù)、固定額度調(diào)整通知短信數(shù)量、額度不足和超限提醒短信數(shù)量這三個(gè)最重要的影響因素之間建立了一元非線性回歸模型,為之后多元逐步回歸模型的建立奠定了重要基礎(chǔ)。
2.5 模型線性化
為了方便最終模型的生成,先將比較難處理的非線性回歸問題轉(zhuǎn)換為容易處理的線性回歸問題。
?。?)發(fā)卡數(shù)
令X=P1、X2=P2、X3=P3,則轉(zhuǎn)換后的方程如式(7)所示:
Y=C0+C1P1+C2P2+C3P3(7)
轉(zhuǎn)換后的方程由原來(lái)只有發(fā)卡數(shù)一個(gè)自變量變?yōu)?個(gè)自變量。為了保持對(duì)應(yīng),用于訓(xùn)練模型,需將原始數(shù)據(jù)也相應(yīng)地增加至3個(gè)自變量。這3個(gè)自變量分別為發(fā)卡數(shù)(原始值)、發(fā)卡數(shù)的平方值和發(fā)卡數(shù)的立方值。
?。?)固定額度調(diào)整通知短信數(shù)量
令N=lnX,對(duì)數(shù)函數(shù)方程轉(zhuǎn)化為:
Y=C0+C1N(8)
其中新自變量N為原自變量固定額度調(diào)整通知短信數(shù)量的對(duì)數(shù)值。
?。?)額度不足和超限提醒短信數(shù)量
令X′=lnX,則轉(zhuǎn)換后的線性函數(shù)方程為:
Y=C0+C1X′(9)
其中變量X′為原額度不足和超限提醒短信數(shù)量的對(duì)數(shù)值。
2.6 多元逐步回歸模型
雖然每個(gè)重要影響因素與話務(wù)量都存在一定的關(guān)系,但從單個(gè)函數(shù)方程的R方得知,其影響程度并不明顯。如果將每個(gè)重要影響因素與話務(wù)量的相關(guān)性做累加,勢(shì)必能得到一個(gè)回歸效果更顯著的方程,如式(10)所示。其中Y代表話務(wù)量,C0~C5為常數(shù),X1代表發(fā)卡數(shù),X2代表固定額度調(diào)整通知短信數(shù)量,X3代表額度不足和超限提醒短信數(shù)量。
Y=C0+C1X1+C2X12+C3X13+C4lnX2+C5lnX3(10)
基于式(7)~(9)所示方程,將所有重要影響因素的公式相加,與非線性模型(式(10))相對(duì)應(yīng),并只保留一個(gè)常數(shù)項(xiàng),生成線性的五元一次方程,如式(11)所示。
Y=C0+C1P1+C2P2+C3P3+C4P4+C5P5(11)
其中Y表示話務(wù)量,P1表示發(fā)卡數(shù)(原始值),P2表示發(fā)卡數(shù)的平方值,P3表示發(fā)卡數(shù)的立方值,P4表示固定額度調(diào)整通知短信數(shù)量的對(duì)數(shù)值,P5表示額度不足和超限提醒短信數(shù)量的對(duì)數(shù)值,C0~C5為常數(shù)。采用逐步回歸分析法,將各自變量依次添加進(jìn)回歸方程,每次都對(duì)方程中各自變量進(jìn)行F顯著性檢驗(yàn)。
從試驗(yàn)結(jié)果得知,整個(gè)逐步回歸過程中,每加入一個(gè)自變量,其F檢驗(yàn)值都小于F0.05,因此沒有影響因素從方程中剔除。最終模型R方變化過程如表2所示。
由此可見,在逐步添加影響因素時(shí),調(diào)整R方由0.780上升到0.872,說明整個(gè)方程具有一定的擬合度。從調(diào)整R方的變化趨勢(shì)來(lái)看,最后一個(gè)影響因素的加入其增幅只有0.001,再增加影響因素對(duì)整個(gè)方程的擬合度影響不大。最終取得回歸模型各系數(shù)值如表3所示。
3 實(shí)驗(yàn)分析
從模型擬合度看,最終多元逐步回歸模型的R方為0.872,明顯高于前三種一元回歸模型(R方分別為 0.796、0.659、0.751)。只以“發(fā)卡數(shù)”、“固定額度調(diào)整通知短信數(shù)量”或者“額度不足和超限提醒短信數(shù)量”一種影響因素來(lái)預(yù)測(cè)話務(wù)量走勢(shì)是不夠精確的。此類分析法雖然快速簡(jiǎn)單、易于實(shí)現(xiàn),但預(yù)測(cè)誤差很大,因而沒有實(shí)用價(jià)值。
相比于其他多元回歸分析法,逐步回歸分析是較為折中的算法。既不會(huì)像窮盡法那樣生成很多回歸方程,又能動(dòng)態(tài)加入和剔除自變量,提高回歸方程的顯著性,消除重復(fù)共線性。因此應(yīng)用逐步回歸分析法建立話務(wù)量預(yù)測(cè)模型是極具現(xiàn)實(shí)意義的一項(xiàng)研究。
時(shí)間序列被定義為按照時(shí)間先后順序排列的一組定量觀測(cè)[8],時(shí)間序列分析指對(duì)其觀察、研究,找到其隱藏的、不被人們所熟知的變化規(guī)律和趨勢(shì),從而創(chuàng)建模型,預(yù)測(cè)未來(lái)的此類數(shù)據(jù)的走勢(shì)的方法[9]。若時(shí)間序列平穩(wěn),可以用自回歸模型AR(p)、滑動(dòng)平均MA模型、自回歸移動(dòng)平均模型ARMA(p,q)來(lái)進(jìn)行分析。ARMA模型能夠較好地描述時(shí)間序列,但是其前提是時(shí)間序列是平穩(wěn)的,缺點(diǎn)是預(yù)測(cè)速度慢??紤]到信用卡呼叫中心話務(wù)量可能存在循環(huán)周期性變動(dòng),在此選擇ARIMA模型[10]。預(yù)測(cè)走勢(shì)如圖2所示。
很明顯,前半部分話務(wù)量總體基本很平穩(wěn),但后半部分明顯出現(xiàn)一個(gè)向上增長(zhǎng)的整體趨勢(shì)。這也和海河銀行信用卡中心近幾年響應(yīng)總行的“大力發(fā)展信用卡業(yè)務(wù)”相吻合。從擬合度看,時(shí)間序列分析法模型統(tǒng)計(jì)出的R方為0.65,而逐步回歸模型得到的R方為0.872。顯然通過逐步回歸分析預(yù)測(cè)話務(wù)量的模型擬合度更高。
究其原因,時(shí)間序列分析法只是挖掘了隨時(shí)間推移的話務(wù)量波動(dòng)趨勢(shì),而基于多個(gè)影響因素的逐步回歸分析法,除了考慮海河銀行信用卡發(fā)行規(guī)模擴(kuò)大的影響因素外,還增加了固定額度調(diào)整通知短信數(shù)量以及額度不足和超限提醒短信數(shù)量,從三個(gè)方面綜合預(yù)測(cè)未來(lái)話務(wù)量的整體走勢(shì)。上述實(shí)驗(yàn)也證明了逐步回歸分析法的模型擬合度要高于時(shí)間序列分析法。
4 結(jié)論
基于逐步回歸的多元非線性話務(wù)預(yù)測(cè)模型能夠依照各影響因素而變化,預(yù)測(cè)較為準(zhǔn)確,誤差水平低。就算法復(fù)雜度而言,基于時(shí)間序列的模型更簡(jiǎn)單直觀、易于實(shí)現(xiàn)。如果能將其與回歸預(yù)測(cè)模型相結(jié)合,交替使用,可進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確性并降低時(shí)間復(fù)雜度。同時(shí)逐步回歸分析法也有自身局限性,一般適合于有明顯的增長(zhǎng)特性和階段特征的大話務(wù)量預(yù)測(cè),預(yù)測(cè)周期通常以月和年等為單位。對(duì)于話務(wù)變化劇烈、量級(jí)小、時(shí)間短的話務(wù)量預(yù)測(cè),可能會(huì)因誤差較大而無(wú)法使用。此方法有待于進(jìn)一步研究。
參考文獻(xiàn)
[1] GREWAL M S, ANDREWS A P. Kalman filtering: theory and practice using MATLAB[M]. New York: John Wiley & Sons, 2011.
[2] HARVEY A C. Forecasting, structural time series models and the Kalman filter[M]. Cambridge: Cambridge University press, 1990.
[3] CORTEZ P, RIO M, ROCHA M, et al. Multi-scale Internet traffic forecasting using neural networks and time series methods[J]. Expert Systems. 2012,29(2):143-155.
[4] DURBIN J, KOOPMAN S J. Time series analysis by state space methods[M]. Oxford: Oxford University Press, 2012.
[5] FENG H. Performance problems of forecasting systems[C]. In 15th East-European conference on Advances in Databases and Information Systems, 2011:254-261.
[6] 程偉.基于季節(jié)變動(dòng)模型的話務(wù)量預(yù)測(cè)[J].湖北郵電技術(shù),2000(3):24-26.
[7] STANEK D M, MOKHTARIAN P L. Developing models of preference for home-based and center-based telecommunting: Findings and forecasts[J]. Technological Forecasting and Social Change, 1998,57(1):53-74.
[8] KIRCHG?魧SSNER G, WOLTERS J, HASSLER U. Introduction to modern time series analysis[M]. Berlin:Springer, 2012.
[9] 劉童.話務(wù)量時(shí)間序列預(yù)測(cè)方法的實(shí)現(xiàn)[D].長(zhǎng)春:吉林大學(xué),2008.
[10] MADDEN G, SAVAGE S J, COBLE-NEAL G. Forecasting United States-Asia international message telephone service[J]. International Journal of Forecasting, 2002, 18(4): 523-543.