123,123

基于分步特征提取和组合分类器的电信客户流失预测模型

2016年微型机与应用第13期

徐子伟，王传启，王鹏，黄海

（中国科学技术大学信息科学技术学院，安徽合肥 230027）

摘要： 针对电信客户流失数据集存在的数据维度过高及单一分类器预测效果较弱的问题，结合过滤式和封装式特征选择方法的优点及组合分类器的较高预测能力，提出了一种基于Fisher比率与预测风险准则的分步特征选择方法结合组合分类器的电信客户流失预测模型。首先，基于Fisher比率从原始特征集合中提取具有较高判别能力的特征；其次，采用预测风险准则进一步选取对分类模型预测效果影响较大的特征；最后，构建基于平均概率输出和加权概率输出的组合分类器，以进一步提高客户流失预测效果。实验结果表明，相对于单步特征提取和单分类器模型，该方法能够提高对客户流失预测的效果。

關(guān)鍵詞： 电信客户流失预测分步特征提取组合分类器

Abstract：

Key words :

　　徐子偉，王傳啟，王鵬，黃海

　?。ㄖ袊茖W(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院，安徽合肥 230027）

　　摘要：針對電信客戶流失數(shù)據(jù)集存在的數(shù)據(jù)維度過高及單一分類器預(yù)測效果較弱的問題，結(jié)合過濾式和封裝式特征選擇方法的優(yōu)點及組合分類器的較高預(yù)測能力，提出了一種基于Fisher比率與預(yù)測風(fēng)險準(zhǔn)則的分步特征選擇方法結(jié)合組合分類器的電信客戶流失預(yù)測模型。首先，基于Fisher比率從原始特征集合中提取具有較高判別能力的特征；其次，采用預(yù)測風(fēng)險準(zhǔn)則進一步選取對分類模型預(yù)測效果影響較大的特征；最后，構(gòu)建基于平均概率輸出和加權(quán)概率輸出的組合分類器，以進一步提高客戶流失預(yù)測效果。實驗結(jié)果表明，相對于單步特征提取和單分類器模型，該方法能夠提高對客戶流失預(yù)測的效果。

　　關(guān)鍵詞：電信客戶流失預(yù)測；分步特征提取；組合分類器

0引言

　　隨著科學(xué)技術(shù)的快速革新，國內(nèi)電信市場日趨飽和，競爭日益加劇。吸引新的客戶和挽留已有客戶成為電信行業(yè)客戶關(guān)系管理的兩個重要主題。據(jù)統(tǒng)計，吸引一個新客戶的成本是挽留一個已有客戶的5~6倍［1］。進行潛在流失客戶的預(yù)測分析并制定有針對性的挽留策略，能夠減少企業(yè)客戶流失率和利潤損失。因此，構(gòu)建一個高效、準(zhǔn)確的電信客戶流失預(yù)測模型具有重大意義。

　　針對電信客戶流失預(yù)測問題，國內(nèi)外學(xué)者進行了廣泛的研究，取得了豐富的研究成果。本文根據(jù)流失預(yù)測模型的構(gòu)建策略，將這些文獻(xiàn)粗略地分為基于單分類器和組合分類器的流失預(yù)測模型。例如，國內(nèi)外學(xué)者分別構(gòu)建了基于支持向量機（Support Vector Machine, SVM）［2］、決策樹（Decision Tree, DT）［34］、邏輯斯蒂回歸（Logistic Regression, LR）［34］、神經(jīng)網(wǎng)絡(luò)［5］、隨機森林（Random Forest, RF）［6］、提升樹［7］和樸素貝葉斯（Naive Bayes, NB）［8］分類算法的流失預(yù)測模型。相對于單分類器，組合分類器具有更好的預(yù)測性能。參考文獻(xiàn)［9］針對移動和無線服務(wù)提供商中的流失預(yù)測問題，提出了一個基于RF、LR和DT的組合分類器。參考文獻(xiàn)［10］提出了一個基于RF、旋轉(zhuǎn)森林（Rotation Forest）和K近鄰的組合分類器進行潛在客戶的流失預(yù)測分析，驗證了組合分類器比單一分類器具有較好的預(yù)測性能。

　　然而，針對客戶流失預(yù)測分析問題，很多學(xué)者重點關(guān)注于分類器的選擇與調(diào)整，往往忽視了流失數(shù)據(jù)集中的維度過高問題。特征選擇方法是一個解決高維度問題的有效方法，它能夠從原始特征集合中選取重要特征，減少無用和噪聲特征，提高分類器的預(yù)測準(zhǔn)確性，減少計算資源的開銷。在客戶流失預(yù)測領(lǐng)域，基于專家經(jīng)驗知識和基本統(tǒng)計信息的特征選擇是兩種典型的特征選擇方法。參考文獻(xiàn)［6］采用最大相關(guān)和最小冗余算法選取與目標(biāo)列具有較強相關(guān)性的特征集合，同時減少特征之間的冗余性。參考文獻(xiàn)［11］提出一個基于專家經(jīng)驗知識和馬爾科夫覆蓋發(fā)現(xiàn)技術(shù)（Markov Blanket Discovery technique, MBD）的兩步特征提取方法。

　　基于專家經(jīng)驗知識的特征選擇方法往往具有主觀性和片面性的缺點?；诮y(tǒng)計信息的特征選擇方法，即過濾式特征選擇方法，采用特征列與目標(biāo)列之間的統(tǒng)計信息構(gòu)造相應(yīng)指標(biāo)以選取與目標(biāo)列具有較強相關(guān)性的特征。該方法復(fù)雜度低，通用性強，可以快速去除不相關(guān)或相關(guān)度低的特征。然而，該方法的特征評估指標(biāo)獨立于分類算法，忽視了不同特征對分類器預(yù)測效果具有不同影響的問題。封裝式特征選擇方法根據(jù)分類器的評估指標(biāo)對特征進行排序，如準(zhǔn)確率、召回率或AUC等，能夠詳細(xì)評估每個特征對分類器預(yù)測效果的影響程度。

　　針對電信客戶流失領(lǐng)域特征選擇方法存在的上述問題和單分類器預(yù)測能力較弱的問題，本文結(jié)合過濾式和封裝式特征選擇方法的優(yōu)點以及組合分類器較強的預(yù)測性能，提出了一種基于Fisher比率和預(yù)測風(fēng)險（Prediction Risk, PR）準(zhǔn)則的兩步特征提取方法（本文命名為FP-PR算法），并結(jié)合組合分類器的電信客戶流失預(yù)測模型。該模型首先采用Fisher比率從原始特征集合中選取具有較強判別能力的特征；在此基礎(chǔ)上，結(jié)合預(yù)測風(fēng)險準(zhǔn)則，進一步提取對分類器預(yù)測效果影響較大的特征。然后，結(jié)合Spark大數(shù)據(jù)處理框架，采用NB、線性支持向量機（Linear Support Vector Machine, LSVM）、LR、DT和RF構(gòu)建單分類器預(yù)測模型。最后，按照“優(yōu)勝劣汰”原則，選取預(yù)測性能較好的3個分類器構(gòu)建組合分類器，以提高流失預(yù)測準(zhǔn)確率。

1前述方法描述

　　參考數(shù)據(jù)挖掘的一般流程，本文提出的電信客戶流失預(yù)測模型的構(gòu)建過程如圖1所示。

　　該過程包括基本數(shù)據(jù)預(yù)處理、兩步特征提取和組合分類器構(gòu)建3個關(guān)鍵環(huán)節(jié)。其中，基本數(shù)據(jù)預(yù)處理包括缺失值填充、標(biāo)準(zhǔn)化、離散化和類別不均衡問題處理。

　　1.1基本數(shù)據(jù)預(yù)處理

　　本文采用KDD競賽Orange電信數(shù)據(jù)集進行實驗分析與方法驗證。該份數(shù)據(jù)集數(shù)據(jù)質(zhì)量非常差，需要進行大量的數(shù)據(jù)預(yù)處理工作。數(shù)據(jù)預(yù)處理的目的是對原始數(shù)據(jù)集進行轉(zhuǎn)換處理，以滿足數(shù)據(jù)挖掘工具與算法的要求。本實驗基本數(shù)據(jù)預(yù)處理包含缺失值填充、標(biāo)準(zhǔn)化、離散化和均衡化處理。此外，傳統(tǒng)的分類算法包含類別樣本近似均衡的假設(shè)條件。然而，電信客戶流失數(shù)據(jù)集是一個典型的不均衡數(shù)據(jù)集，正負(fù)樣本比例為1∶12.62。傳統(tǒng)的數(shù)據(jù)不均衡問題處理方法主要有采樣和調(diào)整分類算法參數(shù)估計方法。本實驗為了避免隨機抽樣過程中隨機因素導(dǎo)致的結(jié)果不穩(wěn)定問題，采用過采樣策略構(gòu)建均衡樣本數(shù)據(jù)集。

　　1.2兩步特征提取方法

　　本文針對流失數(shù)據(jù)集中的維度較高以及該領(lǐng)域特征選擇方法存在的上述問題，結(jié)合過濾式和嵌入式特征選擇方法的優(yōu)點，提出了基于Fisher比率和預(yù)測風(fēng)險準(zhǔn)則的兩步特征提取方法，算法描述如下：

　　算法1：FR-PR算法

　　輸入：訓(xùn)練數(shù)據(jù)集T={(x,y)}，F(xiàn)isher比率所選特征數(shù)為f1，預(yù)測風(fēng)險所選特征數(shù)為f2，分類器C

　　輸出：優(yōu)化特征子集F_Optimal

　　(1)開始;

　　（2）根據(jù)Fisher比率公式計算特征i對應(yīng)的Fisher比率Fi；

　　（3）根據(jù)Fi值降序排列所有特征，并選取前f1個特征作為一步特征提取的優(yōu)化特征子集；

　?。?）根據(jù)步驟（3）選擇的f1個特征，重新構(gòu)建數(shù)據(jù)集T－temp;

　　（5）基于T－temp數(shù)據(jù)集和所有f1個特征，計算分類器C對應(yīng)的AUC指標(biāo);

　　（6）將特征j對應(yīng)的所有樣本以特征j的樣本均值替代，根據(jù)預(yù)測風(fēng)險公式計算AUC(j)和R(j);

　　（7）根據(jù)R(j)值重新降序排列Fisher比率得到的f1個特征，并選擇前f2個特征作為優(yōu)化特征子集F_Optimal

　?。?）結(jié)束。

　　基于Fisher比率的特征選擇是一種過濾式特征選擇方法。結(jié)合每個類別對應(yīng)樣本的均值和方差，F(xiàn)isher比例能夠篩選出具有較強判別能力的特征。Fisher比率的公式如下：

　　Fisher′s Ratio(i)=(ui1－ui2)2/(σ2i1+σ2i2)(1)

　　其中，ui、σi是每個類別對應(yīng)特征i樣本的均值與方差。Fisher′s Ratio(i)代表特征i對應(yīng)的Fisher比率，該值越大，說明特征i對目標(biāo)列的判別能力越強。

　　預(yù)測風(fēng)險準(zhǔn)則是一種嵌入式特征選擇方法，該方法通過將特征i的所有樣本以該特征的均值代替，結(jié)合分類模型評估指標(biāo)（本文取AUC）來判別特征i對分類器的影響程度。特征i對應(yīng)的預(yù)測風(fēng)險如下：

　　Ri=AUC－AUC(i)(2)

　　其中，AUC指Fisher比率所選特征對應(yīng)分類模型的評估指標(biāo)，AUC(i)指將特征i所有樣本以均值替代后的特征集合對應(yīng)的分類模型評估指標(biāo)。Ri為兩者之差，代表特征i的預(yù)測風(fēng)險。Ri大于0的程度越大，說明特征i對分類模型預(yù)測效果的影響越大。

　　1.3組合分類器構(gòu)建

　　本實驗結(jié)合大數(shù)據(jù)處理框架Spark，分別構(gòu)建了基于NB、LSVM、LR、DT和RF分類算法的流失預(yù)測模型，并采用AUC評估指標(biāo)來判別分類器預(yù)測性能的好壞。在此基礎(chǔ)上，從5種分類模型中選取3個預(yù)測性能較好的分類器構(gòu)建組合分類器。本文的組合分類器構(gòu)建方法如下：

　　算法2：組合分類器構(gòu)建方法

　　輸入：分類器Ci，i=1,2,…,n

　　輸出：組合分類器C及其預(yù)測概率輸出

　?。?）開始;

　　（2）根據(jù)兩步特征提取的優(yōu)化特征子集訓(xùn)練n個分類器C1,C2,…,Cn，計算相應(yīng)的分類評估指標(biāo)AUC(i);

　?。?）根據(jù)各個分類器對應(yīng)的AUC值，選取前m個預(yù)測性能較好的分類器Cj,j=1,2,…,m，對應(yīng)預(yù)測概率輸出為pj;

　　（4）依據(jù)如下策略構(gòu)建組合分類器C，并計算組合分類器對應(yīng)的預(yù)測概率輸出p：

　?、俳M合分類器C的概率輸出p取值為m個分類器的平均概率輸出：

　　 $C8X_7$IX8MESTM{UZA[B0WV.png$

　　②組合分類器C的概率輸出p取值為m個分類器的加權(quán)平均概率輸出：

　　 FFYUUZ{$Q~61YVZ%%M6G(K5.png

　?。?）結(jié)束。

　　組合分類器構(gòu)建的兩種主要方法是多數(shù)投票和組合概率輸出。本文采用組合概率輸出的方式構(gòu)建組合分類器模型，并結(jié)合平均概率輸出和加權(quán)平均概率輸出的方式確定組合分類器的概率輸出。平均概率輸出組合分類器模型對各個分類器模型的概率輸出進行平均化處理，而加權(quán)平均概率輸出組合分類器模型對各個分類器模型的概率輸出進行加權(quán)求和。其中，加權(quán)概率輸出模型的權(quán)重由各個分類器的AUC指標(biāo)進行單位化處理求得。

2實驗結(jié)果及其分析

　　2.1數(shù)據(jù)集描述

　　Orange數(shù)據(jù)集包含230個特征（190個數(shù)值特征和40個類別特征）和50 000個樣本（3 672個正類樣本和4 6328個負(fù)類樣本）。本實驗將該數(shù)據(jù)集以7∶3的比例分割為訓(xùn)練集和測試集。訓(xùn)練集由前2 570個正類樣本和前32 430個負(fù)類樣本構(gòu)成，測試集由其余樣本構(gòu)成。

　　2.2實驗結(jié)果與分析

　　如前所述，本文客戶流失預(yù)測模型構(gòu)建過程包括基本數(shù)據(jù)預(yù)處理、兩步特征提?。ㄒ設(shè)ne和Two表示）和組合分類器構(gòu)建3個主要步驟。其中，基本數(shù)據(jù)預(yù)處理包含空值填充、離散化、標(biāo)準(zhǔn)化和均衡化（以Fill、Disc、Stan和Bal表示）。組合分類器的構(gòu)建采用平均概率輸出和加權(quán)概率輸出兩種策略（以Ens1和Ens2表示）。本文對每一步數(shù)據(jù)處理產(chǎn)生的實驗結(jié)果進行展示和分析，如表1所示。

　　如表1所示，離散化和標(biāo)準(zhǔn)化處理能夠明顯提升NB和LSVM的預(yù)測效果。然而，不合理的離散化方式降低了LR、DT和RF的預(yù)測效果。此外，均衡化數(shù)據(jù)處理能夠提高各分類器的預(yù)測效果，這是由于傳統(tǒng)的分類算法往往包含類別樣本近似均衡的假設(shè)條件。分步特征提取對預(yù)測結(jié)果的影響如表2所示。

　　如表2所示，特征提取能夠提高分類器的預(yù)測效果。相比一步特征提取，本文提出的兩步特征提取方法能夠進一步提高分類器的預(yù)測性能。然而，由于基于基尼指數(shù)的特征選擇方法所選的特征類似于兩步特征選擇方法提取的特征，決策樹的預(yù)測效果變化不大，這也間接說明了決策樹算法較強的魯棒性。由表2得知，LR、DT和RF具有較強的預(yù)測性能，本文選取這三種分類算法構(gòu)建組合分類器。其中，LR采用均值填充、均衡化處理和兩步特征提取到的60個特征進行模型的構(gòu)建；DT采用離散化、均衡化處理和兩步特征提取到的90個特征進行模型的訓(xùn)練；而RF采用均值填充、均衡化處理和兩步特征提取的70個特征進行模型的訓(xùn)練。如前所述，本文采用平均概率輸出和加權(quán)概率輸出的方式構(gòu)建組合分類器。實驗結(jié)果如表3所示。

　　如表3所示，基于組合分類器的客戶流失預(yù)測模型預(yù)測效果優(yōu)于單個分類器。基于加權(quán)平均概率輸出的組合分類器預(yù)測效果優(yōu)于基于平均概率輸出的組合分類器，因為加權(quán)概率輸出的策略提升了預(yù)測效果較好的單一分類器在組合分類器中的權(quán)重。本文提出的基于兩步特征提取和加權(quán)組合分類器的電信客戶流失預(yù)測模型取得了最優(yōu)預(yù)測效果0.7201AUC。

3結(jié)論

　　本文針對電信客戶流失數(shù)據(jù)集中的維度較高和單一分類器預(yù)測效果較弱的問題，提出了基于兩步特征提取和組合分類器的客戶流失預(yù)測模型構(gòu)建方法。結(jié)合過濾式特征選擇和封裝式特征選擇方法的優(yōu)點，構(gòu)建了基于Fisher比例和預(yù)測風(fēng)險的兩步特征提取方法。該方法提取的優(yōu)化特征子集具有較強的判別能力，同時對分類器的預(yù)測效果影響較大。此外，為了進一步提高分類器的預(yù)測效果，本文基于“優(yōu)勝劣汰”的思想構(gòu)建了組合分類器。實驗結(jié)果表明，本文提出的兩步特征提取和組合分類器的電信客戶流失預(yù)測模型取得了較好的預(yù)測效果。然而，本文構(gòu)建的兩步特征選擇方法僅采用了一種過濾式特征選擇方法和一種嵌入式特征選擇方法。在下一步研究中，將嘗試更多的特征提取方法以尋求最優(yōu)方法組合，同時探索更優(yōu)的類別不均衡問題處理方法，以優(yōu)化客戶流失預(yù)測模型預(yù)測效果。

參考文獻(xiàn)

　?。?］ KOTLER P. Marketing management: analysis, planning, implementation, and control［J］. The PrenticeHall Series in Marketing, 1988, 67(11):297320.

　　［2］ COUSSEMENT K, VAN DEN POEL D. Churn prediction in subscription services: an application of support vector machines while comparing two parameterselection techniques［J］. Expert Systems with Applications, 2008, 34(1): 313327.

　?。?］ HUANG B Q, KECHADI MT, BUCKLEY B. Customer churn prediction for broadband Internet services［C］. Data Warehousing and Knowledge Discovery, 11th International Conference, DaWaK 2009, Linz, Austria, 2009: 229243.［4］ NIE G, ROWE W, ZHANG L, et al. Credit card churn forecasting by logistic regression and decision tree［J］. Expert Systems with Applications, 2011, 38(12): 1527315285.

　?。?］ TSAUI C F, LU Y H. Customer churn prediction by hybrid neural networks［J］. Expert Systems with Applications, 2009, 36(10): 1254712553.

　?。?］ IDRIS A, RIZWAN M, KHAN A. Churn prediction in telecom using Random Forest and PSO based data balancing in combination with various feature selection strategies［J］. Computers & Electrical Engineering, 2012, 38(6): 18081819.

　?。?］ IDRIS A, KHAN A, LEE Y S. Genetic programming and adaboosting based churn prediction for telecom［C］. Systems Man and Cybernetics (SMC), 2012 IEEE International Conference on. IEEE, 2012: 13281332.

　?。?］ HADDEN J, TIWARI A, ROY R, et al. Computer assisted customer churn management: Stateoftheart and future trends［J］. Computers & Operations Research, 2007, 34(10): 29022917.

　?。?］ YABAS U, CANKAYA H C. Churn prediction in subscriber management for mobile and wireless communications services［C］. Globecom Workshops (GC Wkshps), 2013 IEEE. IEEE, 2013: 991995.

　?。?0］ IDRIS A, KHAN A. Ensemble based efficient churn prediction model for telecom［C］. Frontiers of Information Technology (FIT), 2014 12th International Conference on. IEEE, 2014: 238244.

　?。?1］ HONG, X, ZHANG Z G, ZHANG Y S. Churn prediction in telecom using a hybrid twophase feature selection method［C］.Intelligent Information Technology Application, 2009. IITA 2009. Third International Symposium on. IEEE, 2009, 3: 576579.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容