摘 要: 針對(duì)固網(wǎng)漏話的用戶數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,利用SPSS Clementine軟件,采用聚類分析算法,分析用戶數(shù)據(jù)特征,最終得到用戶遇忙話務(wù)量在各時(shí)間段上的分布、各地區(qū)用戶數(shù)量的統(tǒng)計(jì)、各地區(qū)精準(zhǔn)用戶和普通用戶的ARPU值對(duì)比以及對(duì)用戶的分類。根據(jù)數(shù)據(jù)挖掘的結(jié)果,運(yùn)營(yíng)商可以為用戶提供個(gè)性化服務(wù),提高用戶滿意度和忠誠(chéng)度。
關(guān)鍵詞: 漏話;數(shù)據(jù)挖掘;數(shù)據(jù)分析
0 引言
中國(guó)的通信業(yè)近年來(lái)進(jìn)入了一個(gè)增長(zhǎng)速度相對(duì)較緩的穩(wěn)步增長(zhǎng)期。如今“以客戶為中心”[1]已經(jīng)成為運(yùn)營(yíng)商競(jìng)爭(zhēng)的新原則,同時(shí)電信企業(yè)是一個(gè)比其他企業(yè)擁有更多用戶和用戶數(shù)據(jù)的企業(yè)。
伴隨著3G移動(dòng)通信和移動(dòng)互聯(lián)網(wǎng)的蓬勃發(fā)展,傳統(tǒng)固定電話逐漸淡出了人們的視線;特別是個(gè)人家庭用戶,固定電話逐漸成為附屬品或是奢侈的工藝品。相比個(gè)人和家庭用戶,政企客戶所受的沖擊相對(duì)小一些。漏話問(wèn)題是政企客戶面臨的一個(gè)大問(wèn)題,為了解決這一問(wèn)題,需要針對(duì)固網(wǎng)政企客戶采取新的漏話業(yè)務(wù)。
如何找到這些用戶、如何讓用戶接受漏話保護(hù)服務(wù)、如何滿足用戶個(gè)性化需求,是亟需解決的問(wèn)題。本文通過(guò)數(shù)據(jù)挖掘技術(shù),找到需要使用漏話保護(hù)的固網(wǎng)用戶。漏話業(yè)務(wù)牽涉到相應(yīng)的費(fèi)用,不是所有的用戶均需開(kāi)通,應(yīng)分析各時(shí)段、各地區(qū)用戶的不同特征,使用一種合適的算法對(duì)用戶進(jìn)行劃分。
1 數(shù)據(jù)挖掘和知識(shí)獲取
數(shù)據(jù)挖掘[2]是在數(shù)據(jù)庫(kù)中進(jìn)行知識(shí)發(fā)現(xiàn)的重要方法,是從大量的表面數(shù)據(jù)中提取隱藏在其中的知識(shí)的過(guò)程。近年來(lái),該技術(shù)發(fā)展迅速,已應(yīng)用到各個(gè)領(lǐng)域。本文主要介紹固話漏話用戶數(shù)據(jù)挖掘和分析。
2 數(shù)據(jù)挖掘技術(shù)應(yīng)用于電信用戶數(shù)據(jù)研究
2.1 固網(wǎng)用戶數(shù)據(jù)的組成和結(jié)構(gòu)
對(duì)于企業(yè)來(lái)說(shuō),大量的用戶數(shù)據(jù)不僅有利于客戶關(guān)系管理(CRM)[3],同時(shí)也是獲得用戶知識(shí)的源泉。從用戶知識(shí)發(fā)現(xiàn)的過(guò)程中可以看到,用戶數(shù)據(jù)的質(zhì)量會(huì)對(duì)知識(shí)發(fā)現(xiàn)的結(jié)果產(chǎn)生直接的影響,所以用戶數(shù)據(jù)準(zhǔn)備也是一項(xiàng)很重要的步驟。從商業(yè)系統(tǒng)中提取出高質(zhì)量的用戶數(shù)據(jù)就成為一項(xiàng)最主要的工作。
固網(wǎng)企業(yè)的用戶數(shù)據(jù)包括用戶基本信息、用戶賬單信息以及客服信息。數(shù)據(jù)倉(cāng)庫(kù)就是根據(jù)這種方式來(lái)組織的。
2.2 知識(shí)發(fā)現(xiàn)的方法和過(guò)程
用戶知識(shí)發(fā)現(xiàn)概括如下:根據(jù)提出的商業(yè)目標(biāo),分析大量的用戶數(shù)據(jù),找出隱藏的和未知的規(guī)律或者豐富已知的規(guī)律,進(jìn)而提出模型;最后要將數(shù)據(jù)挖掘和分析的結(jié)果轉(zhuǎn)化成有商業(yè)意義的方法,然后采取進(jìn)一步的行動(dòng)。用戶知識(shí)發(fā)現(xiàn)必須遵循以下幾個(gè)步驟:商業(yè)理解,數(shù)據(jù)理解,數(shù)據(jù)準(zhǔn)備,分類模型,評(píng)估應(yīng)用[4]。知識(shí)發(fā)現(xiàn)的流程如圖1所示。
2.3 數(shù)據(jù)挖掘建立用戶分類模型
近年來(lái),“以客戶為中心”的電信市場(chǎng)開(kāi)始強(qiáng)調(diào)為不同用戶提供個(gè)性化服務(wù),其前提條件就是用戶分類。這也說(shuō)明了過(guò)去的消費(fèi)行為也預(yù)示了未來(lái)的消費(fèi)傾向。
?。?)商業(yè)理解
對(duì)用戶的理解不僅是理解電信市場(chǎng)的開(kāi)始,也是理解客戶關(guān)系管理的開(kāi)始。在電信企業(yè)中對(duì)用戶的理解包括:用戶種類,不同類中用戶的本質(zhì)屬性區(qū)別,用戶偏好,不同類別之間的用戶如何通信等。
?。?)用戶數(shù)據(jù)準(zhǔn)備
對(duì)用戶分類的研究主要是從用戶屬性中得到用戶特征和行為習(xí)慣。主要數(shù)據(jù)來(lái)源于用戶賬單信息,同時(shí)也需要從商業(yè)系統(tǒng)中得到一些用戶的基本屬性信息。
?。?)用戶分類模型
本文使用聚類分析對(duì)用戶進(jìn)行細(xì)分以建立分類模型。聚類分析是把大量數(shù)據(jù)點(diǎn)的集合根據(jù)最大化類內(nèi)相似性、最小化類間相似性的原則進(jìn)行聚類或分組,使得每個(gè)類中的數(shù)據(jù)之間最大限度地相似、而不同類中的數(shù)據(jù)之間最大限度地不同。歐氏距離可以用來(lái)測(cè)量?jī)蓚€(gè)樣本之間的距離,計(jì)算公式如下:
其中比較常用的算法為K-means算法[5],本文也將采用該算法。該算法首先指定聚類數(shù)目k,然后確定k個(gè)初始類的中心,可以由用戶指定,也可以根據(jù)數(shù)據(jù)本身結(jié)構(gòu)的中心初步確定每個(gè)類別的原始中心點(diǎn),然后根據(jù)距離最近原則進(jìn)行分類,形成新的分類,計(jì)算出新的類別中心點(diǎn)。按照新的中心位置,重新計(jì)算每一記錄距離新的類別中心點(diǎn)的距離,并重新進(jìn)行歸類,不斷地重復(fù)這一過(guò)程,直到達(dá)到一定的收斂標(biāo)準(zhǔn)。本文即采用該算法對(duì)漏話保護(hù)系統(tǒng)的用戶數(shù)據(jù)進(jìn)行分析。
3 固網(wǎng)漏話用戶數(shù)據(jù)分析
3.1 關(guān)于固網(wǎng)漏話用戶數(shù)據(jù)分析的商業(yè)理解
通過(guò)各種渠道調(diào)查,對(duì)固網(wǎng)漏話用戶數(shù)據(jù)分析的目標(biāo)可以概括為以下幾點(diǎn):
?。?)對(duì)用戶通話次數(shù)、時(shí)間段等分析,找出特征,以此來(lái)尋找目標(biāo)用戶;
?。?)對(duì)用戶開(kāi)通漏話保護(hù)業(yè)務(wù)前后的ARPU值分析比較,分析收益的對(duì)比;
?。?)對(duì)目標(biāo)用戶數(shù)據(jù)分析,從用戶分類的角度來(lái)管理,設(shè)計(jì)針對(duì)性的服務(wù),提升用戶滿意度。
3.2 系統(tǒng)用戶數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備的過(guò)程:明確目標(biāo);制定計(jì)劃;分析變量的獲??;數(shù)據(jù)收集和獲??;數(shù)據(jù)集成。根據(jù)當(dāng)前客戶關(guān)系管理基本狀況和數(shù)據(jù)挖掘的目的,涉及到的人口屬性變量有:性別、年齡、住址、用戶職業(yè)、婚否、學(xué)歷、薪資等。用戶分類結(jié)束之后,再使用描述變量來(lái)進(jìn)行分析說(shuō)明。
本文選用某市電信公司運(yùn)營(yíng)支持系統(tǒng)和經(jīng)營(yíng)分析系統(tǒng)的數(shù)據(jù),從中選取了基本客戶基本信息表、客戶詳細(xì)話表、賬單及繳費(fèi)信息表、產(chǎn)品信息表、業(yè)務(wù)使用清單等原始數(shù)據(jù)。選擇的分類變量如表1所示。
數(shù)據(jù)挖掘工具選擇SPSS Clementine[6]。在使用該工具進(jìn)行挖掘之前,需要對(duì)數(shù)據(jù)進(jìn)行清洗:
?。?)刪掉不滿足要求的數(shù)據(jù):選擇普通的用戶;選擇狀態(tài)正常的用戶;選擇入網(wǎng)時(shí)間較長(zhǎng)的用戶,使數(shù)據(jù)有完整的用戶周期;
?。?)去掉異常數(shù)據(jù):比如用于測(cè)試的號(hào)碼;
?。?)去掉極端值:不具備普遍性的極值容易產(chǎn)生噪聲。
3.3 固網(wǎng)漏話用戶數(shù)據(jù)分析結(jié)果
考慮到不同分類建立的有效性和簡(jiǎn)便性,以及固話用戶和數(shù)據(jù)源的特點(diǎn),本文采用常見(jiàn)的K-means算法,其高可靠性、高精準(zhǔn)性以及低復(fù)雜度使其成為主流的聚類算法。本文選用SPSS Clementine作為數(shù)據(jù)挖掘工具進(jìn)行K-means聚類分析[7-8]。使用SPSS Clementine軟件進(jìn)行K-means聚類分析的流程圖[9]軟件截圖如圖2所示。
獲取原始數(shù)據(jù)并進(jìn)行預(yù)處理之后,選擇參與聚類的細(xì)分變量,輸入簇的個(gè)數(shù)k,選擇k=7,然后點(diǎn)擊“聚類”按鈕,使用K-means算法[10]對(duì)固網(wǎng)漏話用戶數(shù)據(jù)進(jìn)行聚類。經(jīng)過(guò)正常值選擇、極值處理等一系列的數(shù)據(jù)清洗工作,最后用于研究的記錄有251 284條。
3.4 分析結(jié)果和解釋
通過(guò)SPSS Clementine分析,得出遇忙話務(wù)量在各時(shí)間段上的分布,如圖3所示。
由圖3可以看出,93%的遇忙話務(wù)都出現(xiàn)在8∶00~18∶00的工作時(shí)段,這說(shuō)明該時(shí)段遇忙話務(wù)較多,話務(wù)量流失嚴(yán)重,特別需要遇忙話務(wù)的解決方法。而這一時(shí)間段遇忙話務(wù)量最多的就是政企用戶,這些話務(wù)量流失對(duì)政企用戶將造成巨大的損失:30 000政企用戶一個(gè)月遇忙話務(wù)損失達(dá)到260萬(wàn)次,本網(wǎng)超過(guò)120萬(wàn)次,每個(gè)月預(yù)計(jì)損失20萬(wàn);以電信中等發(fā)達(dá)省份為例:符合條件的政企高端用戶約為60萬(wàn);每年度損失的潛在業(yè)務(wù)收入為50 000萬(wàn)。
經(jīng)過(guò)分析,得到該市各地區(qū)已開(kāi)通和未開(kāi)通漏話保護(hù)業(yè)務(wù)的用戶分布,如圖4所示。C區(qū)屬于政務(wù)新區(qū),未開(kāi)通漏話業(yè)務(wù)的用戶較多,而F區(qū)屬于工業(yè)園區(qū),企業(yè)較多,很多用戶已開(kāi)通漏話保護(hù)業(yè)務(wù),但是還有大量用戶未開(kāi)通該業(yè)務(wù),所以C區(qū)和F區(qū)應(yīng)該作為該業(yè)務(wù)的重點(diǎn)推廣地區(qū)。
如圖5所示,用于分析的用戶中高端精準(zhǔn)用戶約占23%,普通用戶約占77%,而高端精準(zhǔn)用戶的ARPU值遠(yuǎn)遠(yuǎn)高于普通用戶,在總的收益中,高端用戶貢獻(xiàn)約占69%,這符合帕累托定律,20%的高端用戶貢獻(xiàn)80%的業(yè)務(wù)收入,80%的普通用戶貢獻(xiàn)20%的業(yè)務(wù)收入。以最小的代價(jià),換取最高的利益,始終是企業(yè)追求的共同目標(biāo)。
通過(guò)聚類分析,將用戶分為7類,如表2所示,分別得出遇忙頻率與通話時(shí)長(zhǎng)、通話次數(shù)、出賬費(fèi)用之間的關(guān)系,發(fā)現(xiàn)均呈正比關(guān)系。通過(guò)分析尋找合適的閾值可以將這三個(gè)參數(shù)作為選擇精準(zhǔn)用戶的三個(gè)條件,因此在經(jīng)過(guò)比較之后,選擇高頻次遇忙用戶的三個(gè)精準(zhǔn)條件分別為通話次數(shù)>500次、通話時(shí)長(zhǎng)>14 000 min、出賬費(fèi)用>750元。對(duì)這三個(gè)條件進(jìn)行組合,滿足三個(gè)條件的有1類,滿足任意兩個(gè)條件的共3類,僅滿足一個(gè)條件的共3類,合計(jì)7類用戶。經(jīng)過(guò)分析,其精準(zhǔn)度由高到低為通話時(shí)長(zhǎng)>出賬費(fèi)用>通話次數(shù)。所以應(yīng)該合理選擇精準(zhǔn)條件,在不同的地區(qū)選擇相應(yīng)的條件,并優(yōu)先考慮通話時(shí)長(zhǎng)。從所有用戶中選擇滿足精準(zhǔn)條件的用戶,剔除已開(kāi)通的用戶,作為目標(biāo)精準(zhǔn)用戶,最后進(jìn)行分批次有效開(kāi)通。
綜上分析,固網(wǎng)漏話業(yè)務(wù)是一個(gè)非常有潛力的業(yè)務(wù),解決漏話問(wèn)題是提高用戶滿意度和忠誠(chéng)度的重要途徑。根據(jù)上文的分析,在8∶00~18∶00時(shí)間段,用戶遇忙話務(wù)量非常多,在這段時(shí)間內(nèi),企業(yè)需要更多的漏話接入服務(wù)器,而在其他時(shí)間段可以減少接入服務(wù)器以節(jié)約成本。而在不同的地區(qū),用戶數(shù)量和精準(zhǔn)用戶的數(shù)量也不同,應(yīng)該選擇精準(zhǔn)用戶較為集中的地區(qū)優(yōu)先推廣漏話保護(hù)業(yè)務(wù)。由于精準(zhǔn)高端用戶帶來(lái)的收益遠(yuǎn)遠(yuǎn)超過(guò)普通用戶,所以要對(duì)經(jīng)過(guò)篩選的精準(zhǔn)用戶采取針對(duì)性措施,比如在C區(qū)和F區(qū)大力宣傳,以各種形式讓精準(zhǔn)客戶看到該業(yè)務(wù)帶來(lái)的收益,還可以電話推廣為精準(zhǔn)用戶提供信息。
4 結(jié)論
本文將聚類挖掘方法應(yīng)用到固網(wǎng)漏話用戶數(shù)據(jù)分析中[11],采用SPSS Clementine工具進(jìn)行數(shù)據(jù)挖掘。漏話保護(hù)系統(tǒng)主要針對(duì)政企高端用戶提出,主要目的是為了提高通話接通率,以提高政企用戶的效益,達(dá)到用戶和運(yùn)營(yíng)商的共贏。而對(duì)用戶數(shù)據(jù)的分析,是為了運(yùn)營(yíng)商可以更好地服務(wù)于政企客戶,為企業(yè)帶來(lái)更多的利益,從根本上改善固網(wǎng)漏話問(wèn)題。
參考文獻(xiàn)
[1] 江哲雅.聚類挖掘在電信客戶分類中的研究與應(yīng)用[D].上海:上海交通大學(xué),2013.
[2] 段素花.電信運(yùn)營(yíng)中的客戶價(jià)值模型的分析與設(shè)計(jì)[D].成都:成都理工大學(xué),2010.
[3] 鞏建光.面向電信領(lǐng)域的數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2012.
[4] 穆芳.?dāng)?shù)據(jù)挖掘技術(shù)在電信大客戶管理系統(tǒng)中的應(yīng)用研究[D].重慶:重慶大學(xué),2003.
[5] 胡湘萍.基于近鄰圖的k-means初始中心選擇調(diào)優(yōu)算法[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(4):178-181,192.
[6] 阮桂海.SPSS for windows應(yīng)用教程[M].北京:電子工業(yè)出版社,1998.
[7] 劉先勇.SPSS 11.0統(tǒng)計(jì)分析軟件與應(yīng)用作者[M].北京:國(guó)防工業(yè)出版社,2002.
[8] 羅應(yīng)婷.SPSS統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐[M].北京:電子工業(yè)出版社,2007.
[9] 李仁義.?dāng)?shù)據(jù)挖掘中聚類分析算法的研究與應(yīng)用[D].成都:電子科技大學(xué),2009.
[10] 成婭輝.K-means算法改進(jìn)及其在通信行業(yè)客戶細(xì)分中的應(yīng)用[D].長(zhǎng)沙:湖南大學(xué),2010.
[11] Zhao Chunfang, Wu Yingliang, Gao Haijun. Study on knowledge acquisition of the telecom customers′consuming behavior based on data mining[D]. Guangzhou: School of Economics and Commerce South China University of Technology, 2008.