摘 要: 面對電子商務(wù)模式下電商對客戶競爭的現(xiàn)狀,針對傳統(tǒng)的客戶分類方法的不足,設(shè)計了一種基于FCM模糊聚類算法客戶分類的并行算法。實驗結(jié)果表明設(shè)計的方法能準(zhǔn)確地對電商客戶分類,在MATLAB集群下并行算法的運行取得了明顯的并行效果。
關(guān)鍵詞: 電子商務(wù)客戶分類;FCM算法;MATLAB集群并行
市場經(jīng)濟(jì)的發(fā)展和網(wǎng)絡(luò)技術(shù)的革新促使電子商務(wù)迅速普及。在競爭激烈的電子商務(wù)經(jīng)濟(jì)模式下,客戶成為電商競爭的焦點。電商想要對客戶進(jìn)行分析需要將客戶分類,找出優(yōu)質(zhì)客戶、挖掘潛在客戶才能制定出針對性的營銷策略。電商客戶分類是指根據(jù)客戶的歷史交易情況將客戶群劃分為不同的等級,從中找出共同的要素并對客戶的消費需求及消費行為進(jìn)行研究,制定并實施有效的銷售策略。
傳統(tǒng)的客戶分類方法是基于經(jīng)驗或簡單統(tǒng)計方法[1],依據(jù)電商客戶歷史交易數(shù)據(jù)對客戶過去和現(xiàn)在價值進(jìn)行分析,忽略了客戶的潛在價值和未來價值。這兩種方法分類主觀性強(qiáng),與分類標(biāo)準(zhǔn)的關(guān)聯(lián)性大,分類效果不理想。FCM模糊聚類算法是多元統(tǒng)計算法中廣泛應(yīng)用于經(jīng)濟(jì)分析的算法,它是在聚類分析算法的基礎(chǔ)上,增加“隸屬度”,用數(shù)學(xué)的方法定量地確定每一個樣本點與各個類別的親疏關(guān)系,分類結(jié)果客觀。此外,面對電商網(wǎng)站運營產(chǎn)生的海量歷史交易數(shù)據(jù),本文利用MATLAB集群可以發(fā)揮其適合執(zhí)行數(shù)據(jù)密集型任務(wù)的優(yōu)勢,解決“數(shù)據(jù)大,計算難”的問題,高效地計算出聚類結(jié)果。
本文基于FCM模糊聚類算法設(shè)計了一個針對電商客戶分類的方法,以電商網(wǎng)站凡客誠品的歷史交易數(shù)據(jù)為例進(jìn)行實驗測試設(shè)計方法的有效性。同時在MATLAB集群中針對3個規(guī)模不同的數(shù)據(jù)進(jìn)行并行計算實驗,做并行化研究。實驗結(jié)果表明FCM模糊聚類算法能夠準(zhǔn)確地將電子商務(wù)客戶分類,利用MATLAB集群的多個節(jié)點并行計算數(shù)據(jù),縮減了計算數(shù)據(jù)時間。
1 電子商務(wù)網(wǎng)站客戶分類算法
1.1電子商務(wù)網(wǎng)站客戶分類
電子商務(wù)客戶分類是電商在收集和整理客戶交易信息的基礎(chǔ)上,按照客戶交易記錄把某一類的客戶分到一個群體的過程,其原理如圖1所示。
首先收集電子商務(wù)客戶的原始交易記錄數(shù)據(jù),利用電子商務(wù)后臺數(shù)據(jù)或者爬蟲技術(shù)爬取。其次是數(shù)據(jù)預(yù)處理環(huán)節(jié),要對收集的數(shù)據(jù)進(jìn)行規(guī)約和清洗,刪除其中沒有用處的數(shù)據(jù)。最后通過FCM模糊聚類算法對輸入數(shù)據(jù)進(jìn)行聚類分析,獲得聚類分析結(jié)果。電商可以針對不同消費群體制定指定的銷售策略,實現(xiàn)穩(wěn)定盈利。
1.2 FCM模糊聚類算法
K-means聚類分析算法是依據(jù)實驗數(shù)據(jù)本身具備的定性或定量的特征來對數(shù)據(jù)進(jìn)行分組歸類的方法,方便了解數(shù)據(jù)集的內(nèi)在結(jié)構(gòu),是數(shù)據(jù)挖掘的主要數(shù)據(jù)分析方法[2]。算法優(yōu)勢是操作簡單、聚類速度快。算法存在的缺陷是容易陷入局部最優(yōu)值,這樣獲得的聚類結(jié)果是局部最優(yōu)解而不是全局最優(yōu)解。由于K-means聚類分析算法的缺陷,用于電子商務(wù)客戶分類的聚類效果不理想。
模糊聚類分析算法FCM(Fuzzy C-Means algorithm)是在K-means聚類分析算法的基礎(chǔ)之上,增加“隸屬度”,用數(shù)學(xué)方法定量地確定樣本點與其他各個樣本的親疏關(guān)系,客觀地劃分樣本集類型。能夠客觀地計算出每一個客戶屬于各類樣本的概率,分析效果更加精確[3]。FCM模糊聚類算法步驟如下:
FCM模糊聚類分析算法的目標(biāo)函數(shù)是:
表1是實驗取得的隸屬度矩陣表,結(jié)尾保留4位有效小數(shù)。列代表客戶編號,行代表4個類別。對應(yīng)的數(shù)值就是每一個客戶屬于每一類的概率。每一列概率數(shù)值相加之和為1,代表概率越大,屬于那一類的可能性越大。
2.2 舉例實驗分析
本文先后分別對這100個客戶數(shù)據(jù)進(jìn)行聚類,分為3類、4類和5類。結(jié)果如圖4和圖5所示。
第一類潛在客戶:該類消費群體關(guān)心價格,喜歡打折促銷。流失傾向偏大,對網(wǎng)站信任度低。雖然具有一定的價值,但給企業(yè)帶來的利潤小。
第二類小客戶:該群體主要購買飾品,企業(yè)從這類消費群體可以獲得的利潤較小。流失傾向偏小,應(yīng)該通過營銷方法使其成為一般客戶。維持該類客戶對電子商務(wù)的發(fā)展仍具有一定的意義。
第三類優(yōu)質(zhì)客戶:群體主要購買服裝,這類群體是企業(yè)可以從中獲得利潤最大的群體。該類群體購買優(yōu)質(zhì)產(chǎn)品,且購買的數(shù)量多,是企業(yè)的高端顧客。該網(wǎng)站的客戶忠誠度高,在一定時間內(nèi)購買的商品種類和交易數(shù)量多,是企業(yè)需要重點維護(hù)的對象。
第四類一般客戶群體:主要購買服裝,該類客戶偏向于購買普通服裝,電商的該類客戶數(shù)量最多。對網(wǎng)站的產(chǎn)品持肯定態(tài)度,雖然沒有為電商提供高利潤,但是交易會穩(wěn)定持續(xù)地進(jìn)行,是企業(yè)穩(wěn)定生存的基礎(chǔ)。
3 MATLAB集群并行化
MATLAB是一套高性能的數(shù)值計算和可視化軟件,集數(shù)值分析、矩陣運算、圖形處理和信號處理于一體。MATLAB最大的優(yōu)勢在于它的強(qiáng)大的科學(xué)計算能力,專用工具箱具備全面的數(shù)學(xué)函數(shù),能夠執(zhí)行數(shù)據(jù)復(fù)雜型任務(wù)和數(shù)據(jù)密集型任務(wù)[4]。
(1)實驗環(huán)境:由3臺PC機(jī)搭建的MATLAB集群。硬件配置:Intel(R)Core(TM)、i3CPU530@2.93 GHz(2CPUs),2 GB內(nèi)存。軟件配置:系統(tǒng)環(huán)境Windows XP、MATLAB(R2011b)。文件大小:規(guī)模大小為1 GB、2.2 GB、3 GB的3個數(shù)據(jù)表。
(2)實驗結(jié)果及分析:本文采用數(shù)據(jù)分割的方式對FCM模糊聚類算法進(jìn)行集群并行計算。實驗分別在單節(jié)點與多節(jié)點環(huán)境下執(zhí)行,首先在雙節(jié)點環(huán)境下的運行時間小于單節(jié)點下運行的時間,并行效果明顯。其次又分別在4個節(jié)點與6個節(jié)點下分別執(zhí)行聚類計算,實驗結(jié)果表明時間縮短的增量與集群節(jié)點數(shù)目成正比,隨著集群節(jié)點的增加而增大。說明用MATLAB集群來處理本文的數(shù)據(jù)是有效的,發(fā)揮了MATLAB集群處理數(shù)據(jù)密集型任務(wù)的優(yōu)勢,體現(xiàn)了MATLAB集群的高性能。實驗結(jié)果如表4所示。
通過對圖6單節(jié)點與雙節(jié)點環(huán)境下運行時間的對比,可以看出并行計算時間短于串行計算的時間,且隨著數(shù)據(jù)規(guī)模的加大,時間縮短增量逐漸提高。圖7顯現(xiàn)了加速比的變化,不同規(guī)模大小數(shù)據(jù)的加速比均隨著集群節(jié)點數(shù)目的增大而增大。由此可以證實,F(xiàn)CM模糊聚類算法在并行集群中應(yīng)用于電子商務(wù)客戶分類適用,能夠取得良好的并行效果,輸出結(jié)果時間縮短。充分說明了FCM模糊聚類算法并行化的可行性和MATLAB集群的高性能性。
電子商務(wù)處于蓬勃發(fā)展階段,如何準(zhǔn)確有效地對消費客戶進(jìn)行分類并制定針對性的營銷策略是其盈利的關(guān)鍵。本文針對這一現(xiàn)實問題,選定多元統(tǒng)計分析中的FCM模糊聚類算法進(jìn)行客戶分類并做了并行化研究。實驗結(jié)果表明,在MATLAB集群中運行并行后的FCM模糊聚類算法能夠取得良好的并行效率,同時也驗證了MATLAB集群在處理數(shù)據(jù)密集型任務(wù)的高效性。本文設(shè)計的方法可以應(yīng)用于電子商務(wù)中,對電子商務(wù)客戶分析方面有一定的實際意義。
參考文獻(xiàn)
[1] 朱晶晶.電子商務(wù)網(wǎng)站分類體系理解的用戶心智模型研究[D].南京:南京理工大學(xué),2010.
[2] SELIM S Z. K-Means-type algorithms: A generalized convergence theorem and characterization of local optimality[J]. IEEE Transactions on Pattern Analysis and Machine Intelligce, 1984,6(1): 81-87.
[3] DUNN J C. A fuzzy relative of the IOSDATA process and its use in detecting compact well separated clusters[J].Cybemet.3,197:32-57.
[4] MathWorks. MATLAB Distributed Computing Server 5 System Administrator′s Guide[EB/OL]. http://www.mathworks.com/access/helpdesk/help/pdf_doc/mdce/mdce.pdf, 2010.
[5] 徐瑞,黃兆東,閻鳳玉.MATLAB2007科學(xué)計算與工程分析[M].北京:科學(xué)出版社,2008.
[6] 瞿小寧.K均值聚類算法在商業(yè)銀行客戶分類中的應(yīng)用[J].計算機(jī)仿真,2011,28(6):357-360.
[7] 李容.基于K均值聚類算法的圖書商品推薦仿真系統(tǒng)[J].計算機(jī)仿真,2010,27(6):346-349.