《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 基于分步特征提取和組合分類器的電信客戶流失預(yù)測(cè)模型
基于分步特征提取和組合分類器的電信客戶流失預(yù)測(cè)模型
2016年微型機(jī)與應(yīng)用第13期
徐子偉,王傳啟,王鵬,黃海
(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥 230027)
摘要: 針對(duì)電信客戶流失數(shù)據(jù)集存在的數(shù)據(jù)維度過高及單一分類器預(yù)測(cè)效果較弱的問題,結(jié)合過濾式和封裝式特征選擇方法的優(yōu)點(diǎn)及組合分類器的較高預(yù)測(cè)能力,提出了一種基于Fisher比率與預(yù)測(cè)風(fēng)險(xiǎn)準(zhǔn)則的分步特征選擇方法結(jié)合組合分類器的電信客戶流失預(yù)測(cè)模型。首先,基于Fisher比率從原始特征集合中提取具有較高判別能力的特征;其次,采用預(yù)測(cè)風(fēng)險(xiǎn)準(zhǔn)則進(jìn)一步選取對(duì)分類模型預(yù)測(cè)效果影響較大的特征;最后,構(gòu)建基于平均概率輸出和加權(quán)概率輸出的組合分類器,以進(jìn)一步提高客戶流失預(yù)測(cè)效果。實(shí)驗(yàn)結(jié)果表明,相對(duì)于單步特征提取和單分類器模型,該方法能夠提高對(duì)客戶流失預(yù)測(cè)的效果。
Abstract:
Key words :

  徐子偉,王傳啟,王鵬,黃海

 ?。ㄖ袊茖W(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥 230027)

  摘要:針對(duì)電信客戶流失數(shù)據(jù)集存在的數(shù)據(jù)維度過高及單一分類器預(yù)測(cè)效果較弱的問題,結(jié)合過濾式和封裝式特征選擇方法的優(yōu)點(diǎn)及組合分類器的較高預(yù)測(cè)能力,提出了一種基于Fisher比率與預(yù)測(cè)風(fēng)險(xiǎn)準(zhǔn)則的分步特征選擇方法結(jié)合組合分類器的電信客戶流失預(yù)測(cè)模型。首先,基于Fisher比率從原始特征集合中提取具有較高判別能力的特征;其次,采用預(yù)測(cè)風(fēng)險(xiǎn)準(zhǔn)則進(jìn)一步選取對(duì)分類模型預(yù)測(cè)效果影響較大的特征;最后,構(gòu)建基于平均概率輸出和加權(quán)概率輸出的組合分類器,以進(jìn)一步提高客戶流失預(yù)測(cè)效果。實(shí)驗(yàn)結(jié)果表明,相對(duì)于單步特征提取和單分類器模型,該方法能夠提高對(duì)客戶流失預(yù)測(cè)的效果。

  關(guān)鍵詞:電信客戶流失預(yù)測(cè);分步特征提取;組合分類器

0引言

  隨著科學(xué)技術(shù)的快速革新,國內(nèi)電信市場(chǎng)日趨飽和,競爭日益加劇。吸引新的客戶和挽留已有客戶成為電信行業(yè)客戶關(guān)系管理的兩個(gè)重要主題。據(jù)統(tǒng)計(jì),吸引一個(gè)新客戶的成本是挽留一個(gè)已有客戶的5~6倍[1]。進(jìn)行潛在流失客戶的預(yù)測(cè)分析并制定有針對(duì)性的挽留策略,能夠減少企業(yè)客戶流失率和利潤損失。因此,構(gòu)建一個(gè)高效、準(zhǔn)確的電信客戶流失預(yù)測(cè)模型具有重大意義。

  針對(duì)電信客戶流失預(yù)測(cè)問題,國內(nèi)外學(xué)者進(jìn)行了廣泛的研究,取得了豐富的研究成果。本文根據(jù)流失預(yù)測(cè)模型的構(gòu)建策略,將這些文獻(xiàn)粗略地分為基于單分類器和組合分類器的流失預(yù)測(cè)模型。例如,國內(nèi)外學(xué)者分別構(gòu)建了基于支持向量機(jī)(Support Vector Machine, SVM)[2]、決策樹(Decision Tree, DT)[34]、邏輯斯蒂回歸(Logistic Regression, LR)[34]、神經(jīng)網(wǎng)絡(luò)[5]、隨機(jī)森林(Random Forest, RF)[6]、提升樹[7]和樸素貝葉斯(Naive Bayes, NB)[8]分類算法的流失預(yù)測(cè)模型。相對(duì)于單分類器,組合分類器具有更好的預(yù)測(cè)性能。參考文獻(xiàn)[9]針對(duì)移動(dòng)和無線服務(wù)提供商中的流失預(yù)測(cè)問題,提出了一個(gè)基于RF、LR和DT的組合分類器。參考文獻(xiàn)[10]提出了一個(gè)基于RF、旋轉(zhuǎn)森林(Rotation Forest)和K近鄰的組合分類器進(jìn)行潛在客戶的流失預(yù)測(cè)分析,驗(yàn)證了組合分類器比單一分類器具有較好的預(yù)測(cè)性能。

  然而,針對(duì)客戶流失預(yù)測(cè)分析問題,很多學(xué)者重點(diǎn)關(guān)注于分類器的選擇與調(diào)整,往往忽視了流失數(shù)據(jù)集中的維度過高問題。特征選擇方法是一個(gè)解決高維度問題的有效方法,它能夠從原始特征集合中選取重要特征,減少無用和噪聲特征,提高分類器的預(yù)測(cè)準(zhǔn)確性,減少計(jì)算資源的開銷。在客戶流失預(yù)測(cè)領(lǐng)域,基于專家經(jīng)驗(yàn)知識(shí)和基本統(tǒng)計(jì)信息的特征選擇是兩種典型的特征選擇方法。參考文獻(xiàn)[6]采用最大相關(guān)和最小冗余算法選取與目標(biāo)列具有較強(qiáng)相關(guān)性的特征集合,同時(shí)減少特征之間的冗余性。參考文獻(xiàn)[11]提出一個(gè)基于專家經(jīng)驗(yàn)知識(shí)和馬爾科夫覆蓋發(fā)現(xiàn)技術(shù)(Markov Blanket Discovery technique, MBD)的兩步特征提取方法。

  基于專家經(jīng)驗(yàn)知識(shí)的特征選擇方法往往具有主觀性和片面性的缺點(diǎn)。基于統(tǒng)計(jì)信息的特征選擇方法,即過濾式特征選擇方法,采用特征列與目標(biāo)列之間的統(tǒng)計(jì)信息構(gòu)造相應(yīng)指標(biāo)以選取與目標(biāo)列具有較強(qiáng)相關(guān)性的特征。該方法復(fù)雜度低,通用性強(qiáng),可以快速去除不相關(guān)或相關(guān)度低的特征。然而,該方法的特征評(píng)估指標(biāo)獨(dú)立于分類算法,忽視了不同特征對(duì)分類器預(yù)測(cè)效果具有不同影響的問題。封裝式特征選擇方法根據(jù)分類器的評(píng)估指標(biāo)對(duì)特征進(jìn)行排序,如準(zhǔn)確率、召回率或AUC等,能夠詳細(xì)評(píng)估每個(gè)特征對(duì)分類器預(yù)測(cè)效果的影響程度。

  針對(duì)電信客戶流失領(lǐng)域特征選擇方法存在的上述問題和單分類器預(yù)測(cè)能力較弱的問題,本文結(jié)合過濾式和封裝式特征選擇方法的優(yōu)點(diǎn)以及組合分類器較強(qiáng)的預(yù)測(cè)性能,提出了一種基于Fisher比率和預(yù)測(cè)風(fēng)險(xiǎn)(Prediction Risk, PR)準(zhǔn)則的兩步特征提取方法(本文命名為FP-PR算法),并結(jié)合組合分類器的電信客戶流失預(yù)測(cè)模型。該模型首先采用Fisher比率從原始特征集合中選取具有較強(qiáng)判別能力的特征;在此基礎(chǔ)上,結(jié)合預(yù)測(cè)風(fēng)險(xiǎn)準(zhǔn)則,進(jìn)一步提取對(duì)分類器預(yù)測(cè)效果影響較大的特征。然后,結(jié)合Spark大數(shù)據(jù)處理框架,采用NB、線性支持向量機(jī)(Linear Support Vector Machine, LSVM)、LR、DT和RF構(gòu)建單分類器預(yù)測(cè)模型。最后,按照“優(yōu)勝劣汰”原則,選取預(yù)測(cè)性能較好的3個(gè)分類器構(gòu)建組合分類器,以提高流失預(yù)測(cè)準(zhǔn)確率。

1前述方法描述

  參考數(shù)據(jù)挖掘的一般流程,本文提出的電信客戶流失預(yù)測(cè)模型的構(gòu)建過程如圖1所示。

001.jpg

  該過程包括基本數(shù)據(jù)預(yù)處理、兩步特征提取和組合分類器構(gòu)建3個(gè)關(guān)鍵環(huán)節(jié)。其中,基本數(shù)據(jù)預(yù)處理包括缺失值填充、標(biāo)準(zhǔn)化、離散化和類別不均衡問題處理。

  1.1基本數(shù)據(jù)預(yù)處理

  本文采用KDD競賽Orange電信數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析與方法驗(yàn)證。該份數(shù)據(jù)集數(shù)據(jù)質(zhì)量非常差,需要進(jìn)行大量的數(shù)據(jù)預(yù)處理工作。數(shù)據(jù)預(yù)處理的目的是對(duì)原始數(shù)據(jù)集進(jìn)行轉(zhuǎn)換處理,以滿足數(shù)據(jù)挖掘工具與算法的要求。本實(shí)驗(yàn)基本數(shù)據(jù)預(yù)處理包含缺失值填充、標(biāo)準(zhǔn)化、離散化和均衡化處理。此外,傳統(tǒng)的分類算法包含類別樣本近似均衡的假設(shè)條件。然而,電信客戶流失數(shù)據(jù)集是一個(gè)典型的不均衡數(shù)據(jù)集,正負(fù)樣本比例為1∶12.62。傳統(tǒng)的數(shù)據(jù)不均衡問題處理方法主要有采樣和調(diào)整分類算法參數(shù)估計(jì)方法。本實(shí)驗(yàn)為了避免隨機(jī)抽樣過程中隨機(jī)因素導(dǎo)致的結(jié)果不穩(wěn)定問題,采用過采樣策略構(gòu)建均衡樣本數(shù)據(jù)集。

  1.2兩步特征提取方法

  本文針對(duì)流失數(shù)據(jù)集中的維度較高以及該領(lǐng)域特征選擇方法存在的上述問題,結(jié)合過濾式和嵌入式特征選擇方法的優(yōu)點(diǎn),提出了基于Fisher比率和預(yù)測(cè)風(fēng)險(xiǎn)準(zhǔn)則的兩步特征提取方法,算法描述如下:

  算法1:FR-PR算法

  輸入:訓(xùn)練數(shù)據(jù)集T={(x,y)},F(xiàn)isher比率所選特征數(shù)為f1,預(yù)測(cè)風(fēng)險(xiǎn)所選特征數(shù)為f2,分類器C

  輸出:優(yōu)化特征子集F_Optimal

  (1)開始;

 ?。?)根據(jù)Fisher比率公式計(jì)算特征i對(duì)應(yīng)的Fisher比率Fi;

 ?。?)根據(jù)Fi值降序排列所有特征,并選取前f1個(gè)特征作為一步特征提取的優(yōu)化特征子集;

  (4)根據(jù)步驟(3)選擇的f1個(gè)特征,重新構(gòu)建數(shù)據(jù)集T-temp;

  (5)基于T-temp數(shù)據(jù)集和所有f1個(gè)特征,計(jì)算分類器C對(duì)應(yīng)的AUC指標(biāo);

  (6)將特征j對(duì)應(yīng)的所有樣本以特征j的樣本均值替代,根據(jù)預(yù)測(cè)風(fēng)險(xiǎn)公式計(jì)算AUC(j)和R(j);

  (7)根據(jù)R(j)值重新降序排列Fisher比率得到的f1個(gè)特征,并選擇前f2個(gè)特征作為優(yōu)化特征子集F_Optimal

  (8)結(jié)束。

  基于Fisher比率的特征選擇是一種過濾式特征選擇方法。結(jié)合每個(gè)類別對(duì)應(yīng)樣本的均值和方差,F(xiàn)isher比例能夠篩選出具有較強(qiáng)判別能力的特征。Fisher比率的公式如下:

  Fisher′s Ratio(i)=(ui1-ui2)2/(σ2i1+σ2i2)(1)

  其中,ui、σi是每個(gè)類別對(duì)應(yīng)特征i樣本的均值與方差。Fisher′s Ratio(i)代表特征i對(duì)應(yīng)的Fisher比率,該值越大,說明特征i對(duì)目標(biāo)列的判別能力越強(qiáng)。

  預(yù)測(cè)風(fēng)險(xiǎn)準(zhǔn)則是一種嵌入式特征選擇方法,該方法通過將特征i的所有樣本以該特征的均值代替,結(jié)合分類模型評(píng)估指標(biāo)(本文取AUC)來判別特征i對(duì)分類器的影響程度。特征i對(duì)應(yīng)的預(yù)測(cè)風(fēng)險(xiǎn)如下:

  Ri=AUC-AUC(i)(2)

  其中,AUC指Fisher比率所選特征對(duì)應(yīng)分類模型的評(píng)估指標(biāo),AUC(i)指將特征i所有樣本以均值替代后的特征集合對(duì)應(yīng)的分類模型評(píng)估指標(biāo)。Ri為兩者之差,代表特征i的預(yù)測(cè)風(fēng)險(xiǎn)。Ri大于0的程度越大,說明特征i對(duì)分類模型預(yù)測(cè)效果的影響越大。

  1.3組合分類器構(gòu)建

  本實(shí)驗(yàn)結(jié)合大數(shù)據(jù)處理框架Spark,分別構(gòu)建了基于NB、LSVM、LR、DT和RF分類算法的流失預(yù)測(cè)模型,并采用AUC評(píng)估指標(biāo)來判別分類器預(yù)測(cè)性能的好壞。在此基礎(chǔ)上,從5種分類模型中選取3個(gè)預(yù)測(cè)性能較好的分類器構(gòu)建組合分類器。本文的組合分類器構(gòu)建方法如下:

  算法2:組合分類器構(gòu)建方法

  輸入:分類器Ci,i=1,2,…,n

  輸出:組合分類器C及其預(yù)測(cè)概率輸出

 ?。?)開始;

 ?。?)根據(jù)兩步特征提取的優(yōu)化特征子集訓(xùn)練n個(gè)分類器C1,C2,…,Cn,計(jì)算相應(yīng)的分類評(píng)估指標(biāo)AUC(i);

 ?。?)根據(jù)各個(gè)分類器對(duì)應(yīng)的AUC值,選取前m個(gè)預(yù)測(cè)性能較好的分類器Cj,j=1,2,…,m,對(duì)應(yīng)預(yù)測(cè)概率輸出為pj;

 ?。?)依據(jù)如下策略構(gòu)建組合分類器C,并計(jì)算組合分類器對(duì)應(yīng)的預(yù)測(cè)概率輸出p:

 ?、俳M合分類器C的概率輸出p取值為m個(gè)分類器的平均概率輸出:

  C8X_7$IX8MESTM{UZA[B0WV.png

 ?、诮M合分類器C的概率輸出p取值為m個(gè)分類器的加權(quán)平均概率輸出:

  FFYUUZ{$Q~61YVZ%%M6G(K5.png

 ?。?)結(jié)束。

  組合分類器構(gòu)建的兩種主要方法是多數(shù)投票和組合概率輸出。本文采用組合概率輸出的方式構(gòu)建組合分類器模型,并結(jié)合平均概率輸出和加權(quán)平均概率輸出的方式確定組合分類器的概率輸出。平均概率輸出組合分類器模型對(duì)各個(gè)分類器模型的概率輸出進(jìn)行平均化處理,而加權(quán)平均概率輸出組合分類器模型對(duì)各個(gè)分類器模型的概率輸出進(jìn)行加權(quán)求和。其中,加權(quán)概率輸出模型的權(quán)重由各個(gè)分類器的AUC指標(biāo)進(jìn)行單位化處理求得。

2實(shí)驗(yàn)結(jié)果及其分析

  2.1數(shù)據(jù)集描述

  Orange數(shù)據(jù)集包含230個(gè)特征(190個(gè)數(shù)值特征和40個(gè)類別特征)和50 000個(gè)樣本(3 672個(gè)正類樣本和4 6328個(gè)負(fù)類樣本)。本實(shí)驗(yàn)將該數(shù)據(jù)集以7∶3的比例分割為訓(xùn)練集和測(cè)試集。訓(xùn)練集由前2 570個(gè)正類樣本和前32 430個(gè)負(fù)類樣本構(gòu)成,測(cè)試集由其余樣本構(gòu)成。

  2.2實(shí)驗(yàn)結(jié)果與分析

  如前所述,本文客戶流失預(yù)測(cè)模型構(gòu)建過程包括基本數(shù)據(jù)預(yù)處理、兩步特征提?。ㄒ設(shè)ne和Two表示)和組合分類器構(gòu)建3個(gè)主要步驟。其中,基本數(shù)據(jù)預(yù)處理包含空值填充、離散化、標(biāo)準(zhǔn)化和均衡化(以Fill、Disc、Stan和Bal表示)。組合分類器的構(gòu)建采用平均概率輸出和加權(quán)概率輸出兩種策略(以Ens1和Ens2表示)。本文對(duì)每一步數(shù)據(jù)處理產(chǎn)生的實(shí)驗(yàn)結(jié)果進(jìn)行展示和分析,如表1所示。

002.jpg

  如表1所示,離散化和標(biāo)準(zhǔn)化處理能夠明顯提升NB和LSVM的預(yù)測(cè)效果。然而,不合理的離散化方式降低了LR、DT和RF的預(yù)測(cè)效果。此外,均衡化數(shù)據(jù)處理能夠提高各分類器的預(yù)測(cè)效果,這是由于傳統(tǒng)的分類算法往往包含類別樣本近似均衡的假設(shè)條件。分步特征提取對(duì)預(yù)測(cè)結(jié)果的影響如表2所示。

003.jpg

  如表2所示,特征提取能夠提高分類器的預(yù)測(cè)效果。相比一步特征提取,本文提出的兩步特征提取方法能夠進(jìn)一步提高分類器的預(yù)測(cè)性能。然而,由于基于基尼指數(shù)的特征選擇方法所選的特征類似于兩步特征選擇方法提取的特征,決策樹的預(yù)測(cè)效果變化不大,這也間接說明了決策樹算法較強(qiáng)的魯棒性。由表2得知,LR、DT和RF具有較強(qiáng)的預(yù)測(cè)性能,本文選取這三種分類算法構(gòu)建組合分類器。其中,LR采用均值填充、均衡化處理和兩步特征提取到的60個(gè)特征進(jìn)行模型的構(gòu)建;DT采用離散化、均衡化處理和兩步特征提取到的90個(gè)特征進(jìn)行模型的訓(xùn)練;而RF采用均值填充、均衡化處理和兩步特征提取的70個(gè)特征進(jìn)行模型的訓(xùn)練。如前所述,本文采用平均概率輸出和加權(quán)概率輸出的方式構(gòu)建組合分類器。實(shí)驗(yàn)結(jié)果如表3所示。

004.jpg

  如表3所示,基于組合分類器的客戶流失預(yù)測(cè)模型預(yù)測(cè)效果優(yōu)于單個(gè)分類器?;诩訖?quán)平均概率輸出的組合分類器預(yù)測(cè)效果優(yōu)于基于平均概率輸出的組合分類器,因?yàn)榧訖?quán)概率輸出的策略提升了預(yù)測(cè)效果較好的單一分類器在組合分類器中的權(quán)重。本文提出的基于兩步特征提取和加權(quán)組合分類器的電信客戶流失預(yù)測(cè)模型取得了最優(yōu)預(yù)測(cè)效果0.7201AUC。

3結(jié)論

  本文針對(duì)電信客戶流失數(shù)據(jù)集中的維度較高和單一分類器預(yù)測(cè)效果較弱的問題,提出了基于兩步特征提取和組合分類器的客戶流失預(yù)測(cè)模型構(gòu)建方法。結(jié)合過濾式特征選擇和封裝式特征選擇方法的優(yōu)點(diǎn),構(gòu)建了基于Fisher比例和預(yù)測(cè)風(fēng)險(xiǎn)的兩步特征提取方法。該方法提取的優(yōu)化特征子集具有較強(qiáng)的判別能力,同時(shí)對(duì)分類器的預(yù)測(cè)效果影響較大。此外,為了進(jìn)一步提高分類器的預(yù)測(cè)效果,本文基于“優(yōu)勝劣汰”的思想構(gòu)建了組合分類器。實(shí)驗(yàn)結(jié)果表明,本文提出的兩步特征提取和組合分類器的電信客戶流失預(yù)測(cè)模型取得了較好的預(yù)測(cè)效果。然而,本文構(gòu)建的兩步特征選擇方法僅采用了一種過濾式特征選擇方法和一種嵌入式特征選擇方法。在下一步研究中,將嘗試更多的特征提取方法以尋求最優(yōu)方法組合,同時(shí)探索更優(yōu)的類別不均衡問題處理方法,以優(yōu)化客戶流失預(yù)測(cè)模型預(yù)測(cè)效果。

參考文獻(xiàn)

 ?。?] KOTLER P. Marketing management: analysis, planning, implementation, and control[J]. The PrenticeHall Series in Marketing, 1988, 67(11):297320.

 ?。?] COUSSEMENT K, VAN DEN POEL D. Churn prediction in subscription services: an application of support vector machines while comparing two parameterselection techniques[J]. Expert Systems with Applications, 2008, 34(1): 313327.

 ?。?] HUANG B Q, KECHADI MT, BUCKLEY B. Customer churn prediction for broadband Internet services[C]. Data Warehousing and Knowledge Discovery, 11th International Conference, DaWaK 2009, Linz, Austria, 2009: 229243.[4] NIE G, ROWE W, ZHANG L, et al. Credit card churn forecasting by logistic regression and decision tree[J]. Expert Systems with Applications, 2011, 38(12): 1527315285.

 ?。?] TSAUI C F, LU Y H. Customer churn prediction by hybrid neural networks[J]. Expert Systems with Applications, 2009, 36(10): 1254712553.

 ?。?] IDRIS A, RIZWAN M, KHAN A. Churn prediction in telecom using Random Forest and PSO based data balancing in combination with various feature selection strategies[J]. Computers & Electrical Engineering, 2012, 38(6): 18081819.

 ?。?] IDRIS A, KHAN A, LEE Y S. Genetic programming and adaboosting based churn prediction for telecom[C]. Systems Man and Cybernetics (SMC), 2012 IEEE International Conference on. IEEE, 2012: 13281332.

 ?。?] HADDEN J, TIWARI A, ROY R, et al. Computer assisted customer churn management: Stateoftheart and future trends[J]. Computers & Operations Research, 2007, 34(10): 29022917.

 ?。?] YABAS U, CANKAYA H C. Churn prediction in subscriber management for mobile and wireless communications services[C]. Globecom Workshops (GC Wkshps), 2013 IEEE. IEEE, 2013: 991995.

 ?。?0] IDRIS A, KHAN A. Ensemble based efficient churn prediction model for telecom[C]. Frontiers of Information Technology (FIT), 2014 12th International Conference on. IEEE, 2014: 238244.

  [11] HONG, X, ZHANG Z G, ZHANG Y S. Churn prediction in telecom using a hybrid twophase feature selection method[C].Intelligent Information Technology Application, 2009. IITA 2009. Third International Symposium on. IEEE, 2009, 3: 576579.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。