文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.183235
中文引用格式: 石元博,張?chǎng)蚊?,黃越洋. 移動(dòng)用戶(hù)維系挽留系統(tǒng)中K-means算法應(yīng)用[J].電子技術(shù)應(yīng)用,2019,45(2):5-8.
英文引用格式: Shi Yuanbo,Zhang Xinming,Huang Yueyang. Application of K-means algorithm in mobile user retention system[J]. Application of Electronic Technique,2019,45(2):5-8.
0 引言
伴隨移動(dòng)運(yùn)營(yíng)商4G技術(shù)逐漸的應(yīng)用成熟,運(yùn)營(yíng)商相互之間的競(jìng)爭(zhēng)壓力日趨白熱化,存量用戶(hù)的爭(zhēng)奪逐漸成為運(yùn)營(yíng)商提規(guī)模、增效益的競(jìng)爭(zhēng)核心[1]。為了能將原有客戶(hù)順利轉(zhuǎn)化為新用戶(hù),并根據(jù)客戶(hù)的特征和行為對(duì)客戶(hù)的保持程度進(jìn)行預(yù)測(cè),制定有效的客戶(hù)挽留和贏回策略并實(shí)現(xiàn)盈利是每一個(gè)運(yùn)營(yíng)商亟需解決的問(wèn)題。
近年來(lái),數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為生產(chǎn)經(jīng)營(yíng)的重要因素,數(shù)據(jù)挖掘、數(shù)據(jù)分析迅速成為各大行業(yè)的熱門(mén)詞匯。數(shù)據(jù)挖掘引發(fā)的用戶(hù)需求的極大滿(mǎn)足,使得傳統(tǒng)運(yùn)營(yíng)商發(fā)展模式面臨巨大挑戰(zhàn)和危機(jī)[2]。
通過(guò)對(duì)用戶(hù)行為精準(zhǔn)分析,搭建數(shù)據(jù)挖掘營(yíng)銷(xiāo)模型對(duì)用戶(hù)進(jìn)行聚類(lèi),實(shí)現(xiàn)網(wǎng)絡(luò)、終端、業(yè)務(wù)統(tǒng)一適配[3],有助于完善落實(shí)用戶(hù)全生命周期維系管理體系,加強(qiáng)用戶(hù)消費(fèi)監(jiān)控,協(xié)助用戶(hù)解決套餐消費(fèi)不匹配問(wèn)題,提升用戶(hù)對(duì)業(yè)務(wù)依賴(lài)性,提升用戶(hù)忠誠(chéng)度和穩(wěn)定度,提高用戶(hù)對(duì)移動(dòng)服務(wù)的期望、提升用戶(hù)感知增強(qiáng)用戶(hù)黏性。
1 維系挽留系統(tǒng)模型建立
1.1 系統(tǒng)應(yīng)用對(duì)象分析
用戶(hù)細(xì)分是對(duì)于用戶(hù)維系挽留的數(shù)據(jù)進(jìn)行分析的一個(gè)必要手段,有利于后期數(shù)據(jù)矩陣的建立,用戶(hù)細(xì)分步驟如圖1所示。
在移動(dòng)用戶(hù)營(yíng)銷(xiāo)中,用戶(hù)價(jià)值和用戶(hù)的穩(wěn)定程度是判斷該用戶(hù)維系的關(guān)鍵指標(biāo),因此在做用戶(hù)分類(lèi)時(shí)以這兩個(gè)指標(biāo)為用戶(hù)細(xì)分屬性,按照資源保障優(yōu)先級(jí)由高到低的程度將用戶(hù)分為:黃金客戶(hù)、高位客戶(hù)、波動(dòng)客戶(hù)、低端客戶(hù)、潛力客戶(hù)和跳騷客戶(hù)6類(lèi)。通過(guò)聚類(lèi)方法對(duì)移動(dòng)用戶(hù)進(jìn)行聚類(lèi),明確分群用戶(hù)及用戶(hù)資源配置原則,將有限的資源優(yōu)先投放給最有價(jià)值的用戶(hù),得出聚類(lèi)后的用戶(hù)類(lèi)別如表1所示。
隨著通信市場(chǎng)嚴(yán)重飽和,用戶(hù)流失較為嚴(yán)重,其主要原因表現(xiàn)在兩個(gè)方面:(1)各個(gè)運(yùn)營(yíng)商之間競(jìng)爭(zhēng)以?xún)r(jià)格屬性特征競(jìng)爭(zhēng)激烈;(2)用戶(hù)對(duì)業(yè)務(wù)模塊滿(mǎn)意程度不高。
1.2 數(shù)據(jù)準(zhǔn)備
用戶(hù)在使用移動(dòng)通信業(yè)務(wù)時(shí),如在網(wǎng)上營(yíng)業(yè)廳上進(jìn)行費(fèi)用詳單查詢(xún)、話(huà)費(fèi)查詢(xún)、業(yè)務(wù)充值等,這些行為都會(huì)以半結(jié)構(gòu)化的數(shù)據(jù)方式記錄在中央服務(wù)器的Web日志和交易記錄中,通過(guò)數(shù)據(jù)提取和預(yù)處理后建立數(shù)據(jù)倉(cāng)庫(kù),為用戶(hù)數(shù)據(jù)的分析和維系挽留系統(tǒng)的數(shù)據(jù)挖掘提供基礎(chǔ)數(shù)據(jù)。用戶(hù)數(shù)據(jù)分析主要采集的用戶(hù)數(shù)據(jù)信息包括:存量用戶(hù)的基本信息和用戶(hù)的交易記錄。數(shù)據(jù)屬性包括:(1)存量用戶(hù)基本信息,即用戶(hù)手機(jī)號(hào)、用戶(hù)姓名、用戶(hù)狀態(tài)、用戶(hù)入網(wǎng)時(shí)間、近3個(gè)月出賬收入等屬性信息;(2)用戶(hù)交易信息,即產(chǎn)品ID、用戶(hù)通信號(hào)碼、業(yè)務(wù)類(lèi)型、預(yù)存交易金額、瀏覽次數(shù)等屬性信息。
當(dāng)用戶(hù)數(shù)據(jù)屬性確定之后,按照屬性建立用戶(hù)數(shù)據(jù)矩陣,矩陣以?xún)r(jià)值作為主軸,結(jié)合穩(wěn)定度,構(gòu)建交叉矩陣,并以客戶(hù)編碼標(biāo)識(shí),結(jié)合用戶(hù)規(guī)模、收入規(guī)模占比分析,對(duì)交叉矩陣用戶(hù)進(jìn)行合并,通過(guò)重要-緊急的矩陣管理,判定資源保障優(yōu)先級(jí)。其中,存量用戶(hù)交叉矩陣如圖2所示。
矩陣數(shù)據(jù)形式如下:
(1)存量用戶(hù)屬性矩陣Vm×n
存量用戶(hù)信息矩陣主要包括用戶(hù)的自然屬性,代表了用戶(hù)的一般性質(zhì),其具體的表現(xiàn)形式為:
其中,vi代表為一個(gè)可維系用戶(hù),總共有m個(gè)可維系用戶(hù);vij為可維系用戶(hù)i的第j個(gè)屬性,共有n個(gè)屬性。
(2)用戶(hù)興趣信息矩陣Pm×k
在用戶(hù)B2C模式下,用戶(hù)通過(guò)Web進(jìn)行交易,交易及瀏覽的次數(shù)不同,代表了用戶(hù)的興趣度,分別為興趣度進(jìn)行加權(quán)賦值,將興趣度分為三類(lèi):一般、有興趣、非常有興趣。通過(guò)用戶(hù)的興趣等級(jí)進(jìn)行用戶(hù)興趣信息矩陣的建立。
其中,dij是第i個(gè)可維系用戶(hù)對(duì)第j次交易的感興趣等級(jí)程度,值為一般、有興趣、非常有興趣。通過(guò)以上的矩陣的構(gòu)建可以將每一個(gè)用戶(hù)的情況唯一地表示成一個(gè)向量,可以通過(guò)向量的計(jì)算來(lái)分析用戶(hù)的性質(zhì)。
1.3 基于B2C環(huán)境下的模型的建立
用戶(hù)行為分析是指企業(yè)通過(guò)對(duì)用戶(hù)的存量自然屬性、用戶(hù)興趣行為軌跡所表現(xiàn)的特征進(jìn)行分析,來(lái)了解用戶(hù)的消費(fèi)偏好,分析用戶(hù)流失的原因,判定用戶(hù)獲取渠道,管理用戶(hù)的滿(mǎn)意度及預(yù)測(cè)用戶(hù)的忠誠(chéng)度,并制定用戶(hù)維系挽留計(jì)劃[4-5]。
根據(jù)以上的定義,可以構(gòu)建一個(gè)基于B2C模式下的用戶(hù)行為分析框架,如圖3所示,完整的用戶(hù)行為分析過(guò)程如下:
(1)用戶(hù)和電子商務(wù)平臺(tái)的交互過(guò)程;
(2)數(shù)據(jù)收集、整理過(guò)程;
(3)知識(shí)獲取過(guò)程;
(4)數(shù)據(jù)挖掘過(guò)程;
(5)決策優(yōu)化過(guò)程;
(6)維系挽留系統(tǒng)。
建立一個(gè)可以可靠預(yù)測(cè)用戶(hù)行為的維系挽留模型,首先需要數(shù)據(jù)源并進(jìn)行預(yù)處理分析,然后經(jīng)過(guò)參數(shù)確定后進(jìn)行預(yù)測(cè)識(shí)別,在識(shí)別的過(guò)程中進(jìn)行聚類(lèi)分析和數(shù)據(jù)挖掘,將預(yù)測(cè)結(jié)果建立決策樹(shù),最終給出維系挽留的預(yù)測(cè)結(jié)果[6]。
2 數(shù)據(jù)挖掘算法在系統(tǒng)中的應(yīng)用
2.1 數(shù)據(jù)分析
在維系挽留中,數(shù)據(jù)挖掘的應(yīng)用主要表現(xiàn)在以下幾個(gè)方面:
(1)獲得新用戶(hù)
通過(guò)數(shù)據(jù)挖掘可以針對(duì)不同用戶(hù)的興趣程度、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求等用戶(hù)購(gòu)買(mǎi)屬性來(lái)對(duì)新用戶(hù)進(jìn)行促銷(xiāo)。
(2)維系挽留住老用戶(hù)
數(shù)據(jù)挖掘技術(shù)中的分類(lèi)算法則可以將所有的用戶(hù)分為不同的種類(lèi),可以完全做到為不同的用戶(hù)提供完全不同的產(chǎn)品服務(wù)來(lái)提高用戶(hù)的滿(mǎn)意度。
(3)對(duì)老用戶(hù)進(jìn)行交叉銷(xiāo)售
對(duì)老用戶(hù)進(jìn)行交叉銷(xiāo)售,預(yù)測(cè)用戶(hù)的下一個(gè)購(gòu)買(mǎi)行為。
數(shù)據(jù)分類(lèi)工作的目的就是學(xué)習(xí)訓(xùn)練出分類(lèi)模型,利用該模型可以將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)目映射到預(yù)先設(shè)定好的某個(gè)類(lèi)別中,具體來(lái)說(shuō):給定一個(gè)數(shù)據(jù)庫(kù)D={t1,t2,…,tn}和一組類(lèi)C={C1,C2,…,Cm},分類(lèi)問(wèn)題是去確定一個(gè)映射f:D→C,每個(gè)元組ti被分配到一個(gè)類(lèi)中,一個(gè)類(lèi)Cj包含映射到該類(lèi)的所有元組,即Cj={ti|f(ti)=Cj,1≤i≤n,ti∈D}。
2.2 K-means在維系挽留系統(tǒng)中的應(yīng)用
K-means算法是一種得到廣泛應(yīng)用的聚類(lèi)算法,該算法也稱(chēng)為k-均值算法[7]。k-均值算法以k為參數(shù),將n個(gè)對(duì)象分為k個(gè)簇,每個(gè)簇滿(mǎn)足低耦合高內(nèi)聚的特性,即使得簇內(nèi)部的屬性元素具有較高的相似度,而簇與簇之間元素的相似度較低[8]。
2.3 數(shù)據(jù)準(zhǔn)備
在維系挽留系統(tǒng)中,本文需要對(duì)用戶(hù)的消費(fèi)習(xí)慣和行為等特征進(jìn)行分析,進(jìn)行聚類(lèi)。本文利用運(yùn)營(yíng)商在某一階段的用戶(hù)數(shù)據(jù)對(duì)其進(jìn)行學(xué)習(xí),給出聚類(lèi)數(shù)據(jù)樣本,如表2所示,為后續(xù)的數(shù)據(jù)細(xì)化分類(lèi)工作的推進(jìn)提供參考依據(jù)。
然后,從數(shù)據(jù)庫(kù)中選取數(shù)據(jù)樣本,如表3所示。
按照K-means算法對(duì)上面數(shù)據(jù)表中所給出的企業(yè)用戶(hù)進(jìn)行聚類(lèi)分析。在此實(shí)例中主要對(duì)用戶(hù)的收入、ARPU、是否合約捆綁、是否滲透和有效語(yǔ)音交往圈總?cè)藬?shù)進(jìn)行分析,根據(jù)它們之間所存在的潛在關(guān)系得到相應(yīng)不同的類(lèi),并且從結(jié)果當(dāng)中得到相應(yīng)的聚類(lèi)規(guī)則。本文希望從分析的結(jié)果中能夠得到以下一些用戶(hù)的屬性類(lèi)別:其他屬性和收入大體相關(guān);合約捆綁和是否滲透基本一致等顯著特征的類(lèi)別。這些屬性類(lèi)別可以使企業(yè)的決策者們能夠根據(jù)數(shù)據(jù)的分類(lèi)進(jìn)行相應(yīng)營(yíng)銷(xiāo)策略的制定和實(shí)施。
2.4 K-means聚類(lèi)算法實(shí)現(xiàn)
本文采用C#語(yǔ)言對(duì)K-means算法進(jìn)行實(shí)現(xiàn),將表3所選取的50名消費(fèi)用戶(hù)作為數(shù)據(jù)輸入建立用戶(hù)樣本數(shù)組,數(shù)組元素個(gè)數(shù)n=50;將所有數(shù)據(jù)劃分為5類(lèi),即簇?cái)?shù)數(shù)組個(gè)數(shù)k=5;按照歐式距離公式將用戶(hù)劃分為最近的均值聚類(lèi)中。然后進(jìn)行遞歸,直到運(yùn)算完成。算法流程圖如圖4所示。
程序運(yùn)行開(kāi)始后,首先調(diào)用子程序LoadPatterns(char*fname)進(jìn)行裝載數(shù)據(jù),同時(shí)將數(shù)據(jù)轉(zhuǎn)換成Pattern[i][j]數(shù)組;接著調(diào)用子程序InitClusters()進(jìn)行簇中心的初始化過(guò)程,將選取數(shù)據(jù)樣本中的前k個(gè)樣本作為初始的聚類(lèi)中心;然后程序?qū)⑦M(jìn)入主控程序RunKMeans(),它將比較每個(gè)對(duì)象和各個(gè)簇中心的距離,將數(shù)據(jù)對(duì)象分配到與簇中心距離最短的簇中;然后再根據(jù)對(duì)象的分配重新計(jì)算簇的中心,如果簇中心不再發(fā)生變化,即ConFlag=True,則聚類(lèi)已完成,否則繼續(xù)遞歸運(yùn)算;最后運(yùn)行子程序ShowCenters()和ShowCluster(),輸出聚類(lèi)中心和每個(gè)簇成員的數(shù)目,程序結(jié)束。
3 數(shù)據(jù)測(cè)試及分析
通過(guò)對(duì)算法的實(shí)現(xiàn)發(fā)現(xiàn)將數(shù)據(jù)樣本輸入得出結(jié)果基本與分析一致,加大樣本數(shù)量對(duì)用戶(hù)進(jìn)行分析,還可得出用戶(hù)消費(fèi)能力和消費(fèi)意愿,結(jié)果分布如圖5所示。
由圖5可見(jiàn),用戶(hù)消費(fèi)能力呈現(xiàn)平均分布情況,高端客戶(hù)平均分布在49元~73元之間,低端客戶(hù)用戶(hù)數(shù)分布最多的區(qū)間位于10元~12元之間。消費(fèi)意愿普遍高于用戶(hù)消費(fèi)能力,說(shuō)明用戶(hù)具備極大的消費(fèi)潛力。特別是高端用戶(hù)消費(fèi)能力明顯增強(qiáng)。
4 結(jié)論
本文首先建立用戶(hù)維系挽留系統(tǒng),并利用數(shù)據(jù)挖掘算法對(duì)用戶(hù)特征進(jìn)行挖掘聚類(lèi)。另外,對(duì)算法進(jìn)一步實(shí)現(xiàn),最后,采用運(yùn)營(yíng)商實(shí)際產(chǎn)生數(shù)據(jù)對(duì)算法進(jìn)行驗(yàn)證,表明分類(lèi)結(jié)果真實(shí)可靠。
參考文獻(xiàn)
[1] 郭光亮.江蘇聯(lián)通客戶(hù)維系與挽留策略研究[D].上海:華東理工大學(xué),2011.
[2] 沈偉,高尚,梅鋒.建立基于生命周期的維系挽留系統(tǒng)[J].通信企業(yè)管理,2013(1):76-77.
[3] 劉晨,孫秀杰,李響.電信企業(yè)客戶(hù)維系挽留應(yīng)用數(shù)據(jù)挖掘探討[J].商場(chǎng)現(xiàn)代化,2008(24):29.
[4] 葉晟,龐貴泳.基于BCS數(shù)據(jù)倉(cāng)庫(kù)的廣西聯(lián)通存量維系系統(tǒng)[J].廣西通信技術(shù),2014(3):34-40.
[5] 劉志超,王雷,谷壘,等.基于數(shù)據(jù)挖掘技術(shù)的客戶(hù)流失預(yù)警模型[J].微計(jì)算機(jī)信息,2011,27(2):176-177.
[6] 文篤石.基于數(shù)據(jù)倉(cāng)庫(kù)的客戶(hù)挽留系統(tǒng)[J].微型機(jī)與應(yīng)用,2015,34(18):11-13.
[7] 張杰,卓靈,朱韻攸.一種K-means聚類(lèi)算法的改進(jìn)與應(yīng)用[J].電子技術(shù)應(yīng)用,2015,41(1):125-131.
[8] 黃海新,吳迪,文峰.決策森林研究綜述[J].電子技術(shù)應(yīng)用,2016,42(12):5-9.
作者信息:
石元博1,張?chǎng)蚊?,黃越洋2
(1.遼寧石油化工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,遼寧 撫順113001;
2.遼寧石油化工大學(xué) 信息與控制工程學(xué)院,遼寧 撫順113001)